中科天玑
CNCC
10月20日,我国计算机领域规模最大、级别最高的学术会议--2016中国计算机大会正式拉开序幕。大数据高峰论坛因其层次高、影响力大吸引了逾500名业界精英前往聆听。中科天玑数据科技股份有限公司董事长程学旗出席论坛,并从大数据系统、分析及应用等角度剖析了大数据驱动智能化发展,做了“引擎驱动 数据创新”主题报告。
该报告分为三大部分:大数据分析引擎、新一代大数据平台思考、“天玑”大数据引擎与应用。
以下为报告速记概要
大数据分析引擎
首先,中科天玑董事长程学旗对大数据分析引擎做出阐释。他指出信息世界、物理世界、人类社会(CPH)三元世界彼此融合、交互映射形成数据界(大数据空间)。大数据具有极高的经济及社会价值,是推动经济转型发展的新动力,重塑国家竞争优势的新机遇,提升政府治理能力的新途径。当前,大数据系统发展的两大动力是大数据应用驱动(Google Hadoop)及计算模式的变革(智能芯片、量子计算机)。
在大数据处理系统生态中自下而上分别是异构数据的管理、计算模式与框架、大数据分析。其中,大数据分析是核心。在大数据应用当中,从数据的交易、分析、检索到预测、决策都是基于数据做驱动的,数据蕴藏着巨大的商业价值。但是,数据的商业价值随数据分析时间增长而降低。比如在股市交易、信息检索或销售推荐等活动中,数据的时效性都有着重要意义。
目前,大数据分析主要是在大数据上的大学习(Big learing)。在大数据分析过程中,需要大量的计算和内存以及大量的通信和同步。
程学旗董事长向参会者详细解释了大数据分析流水线以及狭义的流式数据处理。他指出实时流式处理应该具有以下特性:数据的流动、流式查询、非常态处理、结果可预测、流式fen’jie数据与存储数据、数据安全与可用性保证、自动分解与组合、无停机模式。
他强调以流式数据处理为核心的目的在于追求数据价值,满足时间需求,减少数据价值的衰减。随着硬件的不断发展,为数据价值的高效实现提供了有利条件。未来数据交换、数据计算的核心将是内存计算。他以SparK和Apache Ignite 为例讲解了内存计算系统的现状。同时,还提到流式数据处理引擎目前主要以Storm、Spark Streaming、SAMZA、和Flink为主。
新一代大数据平台思考
接下来,程学旗董事长就新一代大数据平台的思考发表了看法。现有主流大数据平台的不足主要表现在以下方面:
1、以Oracle等数据库系统为代表第一代数据管理平台,主要针对结构化数据的关系查询,无法有效支持非结构化、半结构化等异构大数据的处理,系统扩展性差,处理效率低,分析能力弱。
2、以Hadoop为代表的分布式批处理系统以全量数据的离线处理为主,缺乏对流式数据表示、存储、计算的有效方法,缺乏对异构数据深度分析的支持,并且难以根据实际负载进行动态、弹性的资源扩展。
他表示下一代的核心特点应该具备弹性、流式、深度三大特性。负载实时变化、作战规划动态更新、计算资源面临损毁的风险,这些因素导致大数据平台必须能够弹性自主的分配计算资源和计算任务。针对以上问题,程学旗董事长认为核心手段是大数据分析语言和可视化编程框架。
“天玑”大数据引擎与应用
新一代大数据平台的探索将充满诸多可能,而中科天玑在大数据引擎与应用系统方面已探索出具有自主技术的产品。程学旗董事长向与会各方介绍了中科天玑大数据管理引擎系统、大数据分析引擎系统等产品。
BDE是大数据存储、分析、管理平台软件。同时支持高速流式数据管理、多维数据探索式分析、高吞吐列式数据管理等多种应用模式。
技术突破:
1、高速流式大数据处理:性能远高于开源流式大数据处理框架Storm,转发延迟比Spark Streaming低一个数量级;单机10Gbps线速级模式发现,延迟小于10ms
2、多维大数据交互式分析:大数据管理技术与传统商业智能分析技术的创新性结合:
支持全量数据的准实时OLAP分析
支持数据更新+实时短查询+近实时长查询
支持百TB数据存储,600亿记录多维查询时延0.6S
3、高吞吐列式数据管理:与华为、浪潮等公司同类系统相比性能优势明显;单节点写入>1.8Gbp,检索流量>2.3Gbps
BDA是一站式数据分析引擎,帮助用户快速实现大数据处理流程,降低开发大数据分析应用的门槛,优化算法能力。
系统特色:
多种应用模式:支持离线数据批量分析、流数据分析、在线数据实时分析多种应用模式。
应用的全生命周期管理:ETL、模型训练、评估和在线预测整合成流水线,实现大数据分析任务一站式配置和运行。
架构灵活:支持单机、Spark和Map-Reduce等多种计算框架、多种语言混合编程
技术突破:
算法规模与性能:与MLLib相比,PageRank等算法处理数据规模提升10倍以上,在相同数据量时算法运行速度提升约25%
算法精度:在部分典型任务上(如:协同过滤)推荐精度提高5%以上
实际应用:
深度学习引擎:在搜狗输入法中应用,将推荐成功率从27%提升到32%。
个性化新闻推荐:在搜狗浏览器新闻头条上线测试,用户阅读量稳定提高10%以上,用户点击率提高20%以上。
关于中科天玑:
大数据技术、大数据安全、大数据应用解决方案专家,专注于大数据安全、大数据存储、大数据分析和挖掘等领域,致力于为政府、公共事业、军工及企业提供定制化的大数据解决方案。
中科天玑是中国科学院计算技术研究所为加速技术成果产业化而成立的高新技术企业,是一家以大数据引擎为驱动的国资大数据核心龙头骨干企业。
从2010年成立至今,成功为中国证监会、中国银监会、国家广电总局、中国移动、中国工商银行等国家党政军部委及各企事业单位提供大数据服务。广泛覆盖政府、国防、安全、科研、教育等领域。