站内检索

大数据计算的技术体系与引擎系统
作者:程学旗 王元卓 发表时间:2014年08月26日

 

  近年来,大数据迅速发展成为科技界和企业界甚至世界各国政府关注的热点。《自然》和《科学》等杂志相继出版专刊来探讨大数据带来的挑战和机遇。著名管理咨询公司麦肯锡声称,“数据已经渗透到当今每一个行业和业务职能领域,成为重要的生产因素。人们对于大数据的挖掘和运用,预示着新一波生产力增长和消费者盈余浪潮的到来”。在这样的背景下,美国政府2012年宣布投资2亿美元启动“大数据研究和发展计划”,这是继1993年美国宣布“信息高速公路”计划后的又一次重大科技发展部署。

  一般意义上,大数据是指无法在可容忍的时间内用现有IT技术和软硬件工具对其进行感知、获取、管理、处理和服务的数据集合。以数据为中心的传统学科(如基因组学、天体物理学和脑科学等)的研究工作产生了越来越多的数据。例如,用电子显微镜重建大脑中的突触网络,1立方毫米大脑的图像数据就超过1PB。但近年来大数据数量的飙升主要来自人们的日常生活,特别是互联网公司的服务。据著名咨询公司IDC的统计,2011年全球被创建和复制的数据总量为1.8ZB,其中75%来自于个人(主要是图片、视频和音乐),远远超过人类有史以来所有印刷材料的数据总量(200PB)。谷歌(Google)公司每月处理的数据量超过400PB;百度每天大约要处理几十PB数据;Facebook(脸书)注册用户超过10亿,每月上传的照片超过10亿张,每天生成300TB以上的日志数据。总之,随着互联网、物联网、云计算等技术的迅猛发展,网络空间中各类应用的层出不穷引发了数据规模的爆炸式增长。

  与传统规模的数据工程相比,大数据具有几个显著的特征:(1)数据集合的规模不断扩大,已经从GB、TB再到PB,甚至已经开始以EB和ZB来计数。IDC的研究报告称,未来十年全球大数据将增加50倍,管理数据仓库的服务器的数量将增加10倍以便适应这一增长;(2)大数据类型繁多,包括结构化数据、半结构化数据和非结构化数据。现代互联网应用呈现出非结构化数据大幅增长的特点,至2012年末非结构化数据占有比例会达到整个数据量的75%以上;(3)产生速度快,处理能力要求高。根据IDC的“数字宇宙(Digital Universe)”报告,预计到2020年,全球数据使用量将达到35.2ZB;在如此海量的数据面前,处理数据的效率就是企业的生命。大数据往往以数据流的形式动态、快速地产生和演变,具有很强的时效性,只有把握好对数据流的掌控才能有效利用这些数据;(4)数据真伪难辨,可靠性要求更严格。大数据的集合和高密度的测量将令“错误发现”的风险增长。斯坦福大学的统计学教授特来沃尔-哈斯迪(Trevor Hastie)称,如果想要在庞大的数据“干草垛”中找到一根有意义的“针”,那么所将面临的问题就是“许多稻草看起来就像是针一样。”(5)数据价值大,但密度低,挖掘难度大。价值密度的高低与数据总量的大小成反比。如何通过强大的机器算法更迅速地完成数据的价值“提取”成为目前大数据背景下亟待解决的难题。

  大数据计算的关键技术

  针对大数据的显著特征,研究大数据计算的关键技术体系,重点包括四个方面的研究工作:感知、存储与计算融合的大数据计算系统架构体系,多源异构大数据感知、融合与表示,大数据内容建模与语义理解,以及模式发现与效应分析。

  感知、存储与计算融合的大数据计算系统架构体系

  大数据对相应的计算系统提出了高性能、可扩展、高可靠和低能耗等要求。为此,我们需要围绕“大数据处理系统的效能评价与优化”这一核心问题,结合大数据的价值稀疏性和访问弱局部性的特点,研究针对能效优化的大数据分布存储和处理的系统架构。以“大数据感知、存储与计算融合”为指导思想,在性能评价体系、分布式系统架构、流式数据计算框架、在线数据处理方法等方面展开基础性研究,并对作为重要验证工具的基准测试程序及系统性能预测方法进行研究,通过设计、实现与验证的迭代完善,最终实现大数据计算系统的数据获取高吞吐、数据存储低能耗和数据计算高效率。

  多源异构大数据的感知、融合与表示

  大数据应用关键的第一步是感知和融合数据并对其进行有效的表示。传统数据管理技术擅长处理结构统一、语义清楚、质量可靠的结构化数据,而大数据多源异构、良莠不齐、动态变化的特点使得感知、获取高质量数据并对其进行融合、表示是一个非常具有挑战性的问题。因此,需要在核心方法与技术层面围绕大数据的可计算性和新型计算范式这一核心问题,在多源异构大数据的感知和获取、大数据的融合与质量控制、以及大数据的图与张量表示等方面展开研究,以建立大数据准确高效的感知、融合与表示方法。

  大数据的内容建模与语义理解

  传统的基于静态、浅层特征对数据建模的方法,已经无法适应当前越来越多的对数据内容深层理解和计算应用的需求。大数据的出现提供了对数据内容深层建模和语义理解的契机,然而大数据的种种特性又对其内容建模和语义理解的深度、关联性与准确性提出了挑战。因此,需要在核心方法与技术层面结合大数据的特征就大数据的特征模型、内容建模和语义理解三个方面展开研究,实现对大数据的内容理解及演变规律的把握。

  大数据模式发现与效应分析

  在大数据环境下,数据之间各种复杂的关联关系代表着什么,如何在价值密度分布极不均衡的信息空间中寻找最重要的关系,大数据模式发现算法往往需要较高的计算代价,传统的模式发现算法在大数据场景下难以为继。针对大数据极度稠密和极度稀疏并存的现象,分析大数据的关系模式并挖掘其特点;探索如何发现典型的关系模式,提出大数据下关系模式的高效识别方法。数据互动效应是指一条数据所引起的其他数据的产生或变化,以及反过来对自身的影响,它是数据之间相互作用的结果。一条数据的变化有时会引起强烈的连锁反应和互动效应。为揭示大数据互动效应的产机理并展开效应分析。

  网络空间中的大数据计算引擎系统与引用

  网络空间的大数据是由人、机、物互动所产生的,可以通过网络访问的一类大数据,简称网络大数据。为了应对网络大数据的发展趋势,更好地为企业和个人提供数据分析,亟需构建各类不同的网络大数据平台,满足用户对数据的多种需求。下面我们从数据平台建设,基于数据平台的高端数据分析,以及网络大数据平台的应用三个角度去总结相关的内容。

  网络大数据平台引擎建设

  构建网络大数据平台就是要将不同渠道,不同来源,不同结构的数据进行有机的整合。与传统数据平台不同的是,网络大数据海量的规模、多样的类型、快速的流动和动态的体系以及巨大的价值是大数据平台构建需要重点考虑的几个因素。重点研究数据获取、存储、处理、交换到服务的全生命周期实现技术,研究大数据计算系统组成部分的最小共性集合,研究系统各组成部分之间的逻辑关系和接口模式,实现可同时支持多种数据计算场景的软件包—大数据处理引擎,包括数据分析和挖掘的算法。为了适应多用户在线和离线数据计算等不同的应用场景,支持数据安全性,研究多租户资源隔离、性能隔离和安全隔离机制和技术。最后集成相关技术和研究成果,在大数据计算引擎的支撑下,充分利用专用加速硬件,形成集大数据的搜索、挖掘、统计与分析于一身的软硬件一体化数据计算系统。

  网络大数据下的高端数据分析

  一个优秀的综合大数据数据处理平台不但可以为企业的决策和个人的生活提供服务,甚至还可以国家政策的制定提供支持。首先,依托大数据平台,国家可以分析各实体和产业之间的关联关系,从而了解行业发展的趋势,找到影响产业发展的关键性因素,统筹规划资金、人才、技术的良性流动与优化配置。其次,大数据平台可以为企业提供巨大的商业价值。企业分析人员可以分析多种多样的内容。譬如,分析顾客偏好及顾客群体,对群体进行细分并量体裁衣般地采取独特的行动;分析具有代表性的客户群体,采取有针对性的营销策略,进行病毒式营销和模式推广;运用大数据模拟实境,发掘新的需求和提高投入的回报率,进行商业模式、产品和服务的创新等。再次,大数据平台还可以为个人的日常生活带来诸多便利。建立在大数据平台下的互联网产业,将深加工了的信息和数据主动推送给目标用户,便于用户结合自身喜好选择感兴趣的模式、产品和搭配方式。除此之外,用户还可以从大数据平台中获取更有价值的知识。通过本体知识平台,用户可以分析知识的来源、演化过程、分析知识间的因果关系、知识本身的歧义性和模糊性,更好的理解和关联知识。

  网络大数据的应用

  网络大数据平台在舆情监控、模式和关键字搜索、数据工程、情报分析、市场营销、医药卫生等领域具有重要的应用。举例来说,大数据平台的出现在搜索引擎中的应用是使得搜索引擎对数据的深入加工和处理变成现实,能够更好地理解用户的搜索意图。用户可以不用自己去筛选信息,而是由搜索引擎根据其搜索历史及个人偏好将有价值的信息呈现给用户。又如,网络大数据平台催生了很多面向程序员与数据科学家的工具(如Karmasphere和Datameer),使得程序员将数据而非业务逻辑作为程序的主要实体,编写出更简短的程序,更清晰的表达我们对数据所做的处理。可以预见,大数据平台正在以一种前所未有的方式改变着各行各业,对大数据平台的应用能够更好的帮助人们获取信息并对信息进行更高效的处理和应用。

  作者单位:中国科学院计算技术研究所

首页投稿广告关于我们联系我们

版权:《高科技与产业化》编辑部版权所有 京ICP备12041800号

地址:北京市海淀区中关村北四环西路33号 邮编:100080

联系电话:(010)82626611-6618 传真:(010)82627674 联系邮箱:hitech@mail.las.ac.cn