联系邮箱:market@golaxy.cn

客服电话:400-901-9755

一、大数据是关键的战略资源

数据是三元世界融合的新物质,是在信息物理系统的基础上,进一步纳入社会信息、虚拟空间的人工系统信息,将研究范围扩展到社会网络系统,注重人脑资源、计算资源与物理资源的紧密结合与协调,使得人员组织通过网络化空间以可靠的、实时的、安全的、协作的方式操控物理实体的核心,并且数据是数字经济的关键赋能资源与基础物质供给,离开数据支撑、智能将成无米之炊。

数据是三元世界融合的新物质

二、数据科学的内涵

基于方法论视角的数据科学内涵,即数据驱动科学发现。基本思想是把数据看成现实世界的事物、现象和行为在数字空间的映射,认为数据自然蕴含了现实世界的运行规律;进而以数据作为媒介,利用数据驱动及数据分析方法揭示物理世界现象所蕴含的科学规律。

数据科学另外一种值得探讨的内涵是基于“本体论”视角,认为数据是反映自然世界的符号化表示。既然自然世界是客观存在并具备共性科学规律的,那么反映自然世界的数据空间也可能具有独立于各个领域的一般性规律。因而,数据科学应该是“用科学方法来研究数据”,数据科学也应该有类似“信息论”这样的学科基础理论。

数据科学的内涵应该既包括本体论内容和方法论内容,还包括其独特的价值实现目标。基于这一认知,可以定义“数据科学是有关数据价值链实现过程的基础理论和方法学,它运用基于分析、建模、计算和学习杂糅的方法,研究从数据到信息、从信息到知识、从知识到决策的转换,并实现对现实世界的认知和操控“。 这“三个转换、一个实现”是数据科学的学科目标。而实现这一目标的方法论来自多个学科方法的融合,包括数学(特别是统计学)、 计算机科学(特别是人工智能)、社会科学(特别是管理学)等。

数据科学的内涵:方法论和本体论在数据价值实现目标下的统一

三、大数据智能分析的核心科学挑战

大数据智能分析过程的本质是有关数据价值链的实现过程,最终辅助人们实现对现实世界的认知和行动规划的指导,是从相关走向因果的智能计算。在实际的应用中,大数据智能分析面临“三堵墙问题”。知识墙——如何实现从知识感知走向因果认知?信息墙——如何在信息中通过计算挖掘规律模式?数据墙——如何从无限大数据中获取有价值信息?这些问题的解决,都需要我们在大数据智能分析的实践中从信息检索、知识计算、认知推理中,进行层层递进。

(一)从数据到信息

信息检索是在杂乱无章的信息空间寻找特定的目标,发现需求、结果之间是否相关。从数据到信息,从信息角度来看,需要对相关性进行定义,分为主题相关、情景相关和认知相关,从计算的角度来看,需要对相关性进行建模,分为概率模型、排序学习模型和深度学习模型。

相关性感知:传统的相关性信号感知方法通过页面内容和网络关系,视觉相关性信号感知方法通过字体颜色、结构布局和信号分布,颠覆了传统搜索仅依赖文本和链接分析的感知方式,模拟人在网页快照中的浏览模式,提出一个视觉感知模型,显著提升检索的性能。

相关性度量:在信息检索中考虑深度匹配模型的构建,即从用户对相关性的认知过程出发,对相关性进行深层理解与建模。信息检索中的相关性度量,形式化成两个文本的匹配问题:

s和t是两个输入文本,ψ和φ是用于抽取两个文本特征的表达函数,η是抽取文本时间特征的函数,g是基于这些特征表达计算相关性的评价函数。传统的匹配函数是f(s,t),对其进行拆分,可以看作只跟s相关,只跟t相关,s和t交互,最终用一个函数集中起来。传统的基于表达的匹配函数是语义空间进行匹配,基于交互的匹配可以看作是从语义空间映射到交互空间,每个token间计算相似度。匹配本质是交互空间的问题,语义空间是分布式表达。

MatchZoo 是由中科院计算所网络数据科学与技术重点实验室于 2017 年发布的一个深度文本匹配工具开源项目,整合了当前最流行的深度文本匹配的方法(包括DRMM、MatchPyramid、DUET、MVLSTM、aNMM、ARC-I、ARC-II、DSSM、CDSSM等算法的统一实现),提供基准数据集(例如 WiKiQA数据)进行开发与测试,可应用于文本检索、自动问答、复述问题、对话系统等多种应用任务场景。MatchZoo使用了 Keras 中的神经网络层,由数据预处理、模型构建、训练与评测三大模块组成。

相关性排序:传统Probability Ranking Principle(PRP)思想是使文件的排序得分彼此独立,数据集合按照排序函数进行排列。同时,排序模型需要满足两个核心需求,即R1: 样本之间交互相关;R2: 样本顺序置换不变。基于PRP思想,我们将保持R2—置换不变,打破PRP思想,能实现跨文档相关交互,结合两者,可以同时满足跨文档交互和置换不变(非对称、多粒度),模型结构如下图所示。

从相关性到可信性:从感知度量到结果排序,从信息检索中的相关性到正确性,很难以清晰度量,两个答案都和问题很相关,没有任何背景知识的情况下,无法判断哪个答案是正确的,问题的关键在于评定哪个答案更可信一些。

可信性:除了考虑相关性检索的深度匹配模型的构建,还要建立可信的智能检索模型。可信,意味着该陈述获得大众的一致赞同,把大众认可的陈述建模到结果,引入结果置信度,使得信息检索模型更加可信。我们分别对文本和检索的支撑证据进行标示,共识标示学习的过程是计算支撑证据中核心证据,利用核心证据attend其余证据获得共识标示G,验证得分Verification score是衡量共识和答案之间的一致性,置信度Confidence score是衡量支撑证据的一致性,如下图所示。

从可信性到正确性:从基于语言信息匹配的相关性,到基于大众共识验证的可信性,再到基于逻辑/事实推理的正确性。

(二)从信息到知识

从信息到知识,相关信息里面如何挖掘发现内在的规律,我们将进行深度的知识挖掘,构建“知识+事件”图谱,从语义关联的复杂性出发,对语义关联进行深层理解与建模。知识计算中的语义关联分为三个阶段,即多跳关联、高阶关联、跨模式关联。

多跳语义关联,难点是对关键路径选择和置信度评估,强化学习模拟人的多跳推理,对到达关联实体的正确路径给予奖励。从传统单智能体到关系选择和实体选择双智能体交互,深度理解关系路径的模型是多跳语义关联正确的关键。

高阶语义关联,难点是高阶关系建模,刻画关系的关系。关键在于如何保持高阶关系的原子性和可计算性?在高阶关系的建模上,参考原子模型,也就是高阶关系 = 主关系 + 辅助关系。

跨模式语义关联,难点是对跨模式事件语义关联中事件共指的判定。事件由要素组成,事件的深度理解是关键,首先学习事件所在原始文本片段,并就一个片段有多个事件,结合自注意力机制和特殊事件标识,关注特定待共指事件,再引入事件论元角色信息,进行事件信息交互,实现事件共指判定。

(三)从知识到决策

从知识到决策,要解决的是什么?在开放、非确定性复杂环境下如何去作有效决策,需要把人的智慧引入进来。为此,科学家开始寻求更接近数据和智能本质、更有效认识复杂性和不确定性的新科学研究范式。这类新的科学研究范式是以智能为研究目标的浸入式具身研究,我们称之为“第五范式“:人机混合的新型计算智能范式。

随着互联网、物联网及新一代通信技术的发展,万物泛在互联成为现实。未来,大量物理设备、无人系统、人脑,通过泛在网络实现“上线”和“互联”。在这样的环境下,人在回路(人类智能与机器智能形成闭环系统,不断相互作用、相互辅助)的人机混合智能具备了基本的物理条件。通过相互连接通道(例如:脑机接口等),建立兼具自然智能(例如:人)的环境感知、记忆、推理、学习能力和计算智能的信息整合、搜索、计算能力的新型智能系统。

目前,人工智能技术所具备的感知、认知能力,基本上是模型与数据结合,并以机器为中心所形成的计算智能,故也称为机器智能。机器智能在存储、搜索、感知、确定性问题求解等方面性能表现优越,但在高级认知和复杂问题决策方面与人类智能相差很远。虽然脑启发计算取得了一些进展,但在可预期的未来,机器智能很难完全模仿和构造出人类智能或其他自然智能。换一个思路,如果将人的智能引入到机器智能的系统回路中,将充分融合人类智能和机器智能的优势,从而形成更高级的智能水平。

人机混合智能需要重点解决思维融合或决策融合的问题。具体而言,传统的人机接口往往是单向的;在人机互联情况下,人脑如何参与到机器智能的系统回路当中?如何同时让人理解机器思维和让机器理解人的思维,从而实现思维的无缝互动? 目前,一些探索和挖掘思维潜力的工具,如思维导图、思维地图、概念图等,其理论基础与形式化模型并不清晰。一些新型的脑机接口技术进展迅速,但缺乏对人脑在直觉、意识、情感和决策方面的机理认知。也许,从技术上构建有效的人在回路智能通道,是当前人机混合智能亟待解决的关键问题之一。

数据是人类社会、物理世界和机器世界之间的桥梁,同时数据也是人类社会和物理世界的符号化映射。因而,从数据入手是探索和实现上述新型智能范式的基本途径。数据科学基础理论,不仅对当前数据驱动的计算智能起到提质增效的作用,也将为未来新型智能范式研究提供理论支撑。

四、大数据智能分析应用的思考

大数据智能分析要解决两个核心问题,第一广谱关联的大数据分析,第二人脑和机器的有机融合。广谱关联分析计算理论,通过开放动态的知识驱动将跨域、异质、多维大数据建模为广谱关联网络,揭示利用广谱关联的网络效应实现隐性、高价值知识萃取的内在机理,实现从弱信息关联到强认知关联的跨越。

情报大数据ACII新型计算范式

中科天玑人机协同数据智能引擎(GOIN)解决的是三个核心科学技术挑战,数据壁垒——如何用有限的算法实现对无限大数据的关联融合?计算瓶颈——如何实现大数据异构关联计算模式的全面加速?智能隔阂——如何连接无限的智能算法与无限的分析业务?以情报分析为主要需求牵引,在多年积累的大数据感知获取、存储管理基础之上,通过在大数据深度理解能力、关联融合能力和智能赋能能力方面的关键技术突破,形成了文曲·数智基座、天罗·感知监测、魔镜·认知决策三类特色系统,具备人机协同智能情报分析能力,可以支撑面向特定主题、特定目标、特定区域的深度情报分析。

  

中科天玑人机协同数据智能引擎(GOIN)

通过对覆盖政治、军事、经济、社会等方面的多元异质大数据关联融合,动态开放知识网络的构建,运用强时效大图计算、人机混合智能业务编程技术,构建贴近业务场景的分析挖掘、预测研判和智能生成系列工具,形成一套人脑决策和认知智能共生的大数据分析环境及工具系统,辅助用户从大数据中萃取重大战略情报,实现人机协同的情报深度可视化分析、快速研判、智能生成与协同决策。

  中科天玑魔镜产品系列

中科天玑魔镜产品系列基于深度自然语言理解与开放知识计算技术,以动态本体论为理论基础,构建支撑情报分析研判的知识图谱,通过多层次、动态的、开放的知识结构关联映射无限的时空数据,连接人脑智能和机器智能,完整的刻画了人、机、物三元世界中各类目标复杂多元的关联关系,可实现对大数据的:融合贯通——敏捷异构的大数据分析架构,前沿的大数据融合处理体系;智能组合——强大的大数据智能分析模型库,支撑三类分析模式:关联分析、时空分析、内容分析;人机协同——灵活的人机交互式分析环境,支撑情报编报流程的整编、印证和出报;决策指挥——辅助用户从大数据中萃取关键情报信息,并进一步转化为可操作的决策指挥能力。

 

参考文献

[1] 程学旗,梅宏,赵伟,华云生,沈华伟,李国杰. 数据科学与计算智能: 内涵、范式与机遇 . 中国科学院院刊,2020

 


分享