大数据时代,面向多元异质异构的数据,如何进行有效信息挖掘,并通过信息关联发现更深层次的知识,是当前情报分析的重要挑战。同时,如何充分结合业务人员的领域能力与系统的智能分析能力,交互式、探索式地进行情报挖掘、可视化展示,形成人脑决策和计算机智能共生的大数据分析环境及工具系统,辅助用户从大数据中萃取重大战略情报,并进一步转化为可操作的决策指挥能力,是服务一线业务的重要挑战。
中科天玑坚持“深挖价值、服务国家、惠及大众”的使命,依托中科院计算所,长期以来与中科院计算所网络数据科学与技术重点实验室开展产学研深度合作,在自然语言理解基础算法研究、知识计算、图计算、大数据存储管理、行业大数据分析应用等智能计算和大数据技术上潜心研究、持续积累、深挖价值。面向多行业用户,秉持“引擎驱动创新、数据创造价值”的技术理念,服务一线业务,打造出新一代人机混合智能情报分析系统(GoIN)。
全场景多元异质异构数据接入能力
权限可控的全场景多元异质异构数据接入能力是GoIN系统构建动态开放知识图谱的数据基础。基于中科天玑团队长期积累的大数据获取感知能力,GoIN系统具有强大的全场景多元异质异构数据接入能力:
定向目标采集能力:通过对接中科天玑大数据感知系统WDE,可在线配置定向采集目标(新闻网站、社交媒体、论坛社区等),定制定向采集目标任务,由WDE系统对任务进行执行,并流式返回采集结果接入GoIN系统进行后续处理;
定向主题采集能力:通过对接中科天玑元搜索系统,可针对特定主题,基于元搜索技术,通过多个大型搜索引擎进行主题相关数据搜集,实现特定主题的全网信息搜集能力,并将相关搜索结果形成数据集接入GoIN进行后续处理;
本地非结构化数据导入:GoIN系统基于插件式ETL设计,采用相应的解析插件进行内容提取,目前可以支持纯文本、邮件、Word、RTF、PDF、Excel、PPT、Html等常见类型的文件导入,并可以通过插件开发,快速、方便的扩展其他新类型与自定义类型文件的解析导入,并将解析结果形成统一数据集进行后续处理;
本地结构化数据接入:GoIN系统基于插件式ETL设计,可以灵活对接各类结构化数据,包括各类关系型数据库、Excel表格、CSV表格等,并通过可视化的关联映射,将结构化数据中的实体信息、事件信息、关系信息与系统知识图谱schema进行映射,直接导入知识数据。
对于采集、导入、接入的数据,通过“数据包”进行管理,默认仅数据包拥有者具有数据包的相关权限,拥有者通过分享等方式,给其他用户进行赋权,实现数据与对应知识图谱的权限可控。
图 1 全场景多元异质异构数据接入能力
多层次动态知识图谱构建能力
知识图谱的知识表达能力决定着知识图谱的探索分析空间。GoIN系统基于强大的深度自然语言理解引擎与开放知识计算引擎,以动态本体论为理论基础,构建开放式动态知识图谱,通过多层次、动态的、开放的知识结构关联映射无限的时空数据,连接人脑智能和机器智能。
深度自然语言理解引擎(CoreNLU)
CoreNLU通过对海量无结构内容进行深层语义分析与理解,可覆盖自然语言理解的全体系,其性能接近或超过SOTA水平。目前已具备:
支持中英文两大语种
支持新闻、博客、社交媒体等不同语料
覆盖自然语言理解全体系
支持最前沿的深度学习模型
通用/专业领域兼顾
图 2 CoreNLU全覆盖自然语言理解体系
图 3 CoreNLU强大的语义理解能力
图 4 CoreNLU相关性能接近或超过SOTA水平
开放知识计算引擎(OKS)
开放知识计算引擎用于面向应用领域实现多层次动态知识结构的快速构建、管理和推理计算,目前已具备:
支持多领域
支持结构化、非结构化数据
丰富的知识抽取算子库,灵活可定制
友好的人机协同知识标注和管理工具
图 5 OKS动态知识结构的快速构建、管理与推理能力
图 6 OKS强大的知识映射能力
图 7 OKS国际评测多项第一
实时的大型知识图谱分析能力
动态、开放、异质的大型知识图谱,完整的刻画了人、机、物三元世界中各类目标复杂多元的关联关系,要实现对这些海量的复杂多元关联关系的有效分析,需要依托异质大图驱动能力。GoIN系统基于强时效异质图计算引擎SQLGraph,拥有高效的大图计算能力,实现对大规模图谱化数据实现快速、高效、可靠的关联分析,核心性能超过SOTA水平至少1个数量级,对于亿级节点、十亿边的大型图谱上,可做到秒级查询响应跟分钟级复杂分析响应,目前已具备:
支持无向图、异构图、属性图
高效的动态图切分算法和图压缩表示
可扩展的图查询语言支持交互式图查询
内置丰富的图查询、图挖掘算子库
图 8 SQLGraph拥有强时效异质图计算能力
图 9 SQLGraph核心性能超过SOTA水平至少1个数量级
人机混合的智能分析能力
GoIN系统以大数据深度分析应用(情报)为主要抓手,通过对多元、异质大数据的关联融合,利用混合人机智能的分析过程,辅助用户从大数据中萃取关键情报,并进一步转化为可操作的决策指挥能力。
情报分析业务,通常具有多样的业务目标、未知的分析结果、复杂的分析过程,因此既需要强大的系统分析能力对大数据进行理解与关联分析,同时需要交互式、灵活的分析结果可视化,供业务人员进行专业的业务判断并做出分析决策,实现人机智能混合协同处理。
图 10 人机智能混合协同处理
强大的智能分析与可视化技术
基于动态、开放的知识图谱内容,以及高效的大图计算能力,GoIN系统具备强大的关联分析能力、时空分析能力和统计分析能力,并基于开放式的计算框架,可灵活扩充、配置各类分析算子,形成丰富的情报分析工具箱,支撑完整的情报分析业务。
关联分析
任何目标都会在人机物融合的大数据空间留下线索,一系列微弱的线索通过网络效应将被不断关联放大,GoIN系统的核心技术内涵正是广谱关联分析。
基于动态开放的知识图谱,GoIN系统支持从包括文档、实体、事件等在内的任意目标出发,关联查询其相关的新的文档、实体、事件等信息,并支持对关联出的相关信息进行诸如聚合分析、社区挖掘、关系路径挖掘、节点评估、关系评估、事件脉络等各式各样的分析跟结果可视化,同时基于开放式的计算框架,可根据业务开发算子,然后在线加载,并可通过算子配置面板进行实时参数调整,实现灵活、实时的分析与可视化。
GoIN系统同时提供强大的关联分析可视化,可以为关系图谱提供各式各样的布局,支持分析算子定制可视化形式与样式,实现信息的清晰明了。
时空分析
知识图谱中记录了大量的空间位置信息与事件、关系的时间信息,基于时空的信息探索,是情报的重要来源,对信息进行时空关联分析,则是情报分析的重要手段。GoIN系统拥有完整的GIS引擎与基础GIS数据,可支持实时、完整的GIS分析。
GoIN系统时空分析模块可以通过分层加载不同的数据图层,然后通过选定地理范围,进行实体、事件、文档等信息的关联,也可以将关联分析模块等的分析结果,推送至时空分析进行地理信息关联。
对于地理范围内的关联信息,可通过时空分析相关的各类算子,进行诸如热力图、轨迹图、时空演化等分析推理,并同样可以进行新算子的定制开发,在分析过程中对算子进行参数定制。
统计分析
统计分析支持对结构化数据进行灵活的统计,并可实时选择多种图表方式进行展示。统计分析不仅支持从关联分析、时空分析中接收分析出的文档、实体和事件作为统计输入,从而与关联分析、时空分析形成完整分析链路,也可以使用用户配置上传的Excel文件、数据库表作为统计输入,独立分析。
乐高式人机智能混合交互协同
情报分析通常探索式的分析,需要根据当前的分析进行下一步分析方向与分析方式的判断,如此往复。GoIN系统基于中科天玑大数据可视化分析引擎,支持对上述不同分析模块进行乐高式组合,任意分析模块的分析结果,可以作为输入推送到另外的分析模块中,进行下一步分析。并且可以对每个模块中的分析算子进行行业定制,为用户提供自由组合、业务适配、可视化的分析流程。
图 11 乐高式人机智能混合交互协同
清晰可控的系统管理能力
用户、数据、任务是情报分析的三项核心资产,三者之间关系清晰、权限可控是情报分析系统的核心管理能力。GoIN系统设计了完备的权限逻辑关系,并基于统一权限管理系统,对三者关系、权限进行有效管理。
数据管理
数据作为情报基础,是系统核心资产。如前所述,GoIN系统提供了全场景的数据接入能力。我们提出“数据包”的概念,对用户通过各种方式接入系统的数据,根据接入任务,形成对应的数据包,并作为权限管理、任务关联的最基础单位。数据包默认仅所属用户拥有查看、编辑、分析等权限,用户可以通过分享方式赋予其他用户相关权限,并通过任务管理,将数据包关联给指定分析任务,用于任务分析。
任务管理
情报分析目标通常需要分解为多个目标明确的任务,交由相应的业务人员或团队执行。GoIN系统基于逐层分解的思想,采用思维导图的形式,对战略任务进行细化分解,并由用户为每个任务关联待分析的数据包,指定分析人员,进行团队协作,共同完成情报分析。同时,分析人员可将分析结果关联到任务节点,实现任务结果的反馈,形成业务闭环。
权限管理
情报分析任务通常具有严格的权限控制要求,做到精细化的权限控制,并通常与业务组织有密切的关系。GoIN系统采用分离式的权限设计方案,基于中科天玑统一权限控制系统进行用户的授权与鉴权,并进行组织结构、用户角色、系统资源、权限分配管理,实现权限控制的业务适配,GoIN系统内部所有操作均通过调用权限系统相关接口进行鉴权,实现标准的权限控制。