站内检索

大数据时代已经来临——人机物融合的大数据时代
作者: 发表时间:2014年08月28日

 

  继“云计算”、“物联网”之后,“大数据”一词被越来越多地提及。维基百科对“大数据”的定义为:无法在允许的时间里用常规的软件工具对内容进行抓取、管理和处理的数据集合。人们用它来描述、定义信息爆炸时代产生的海量数据,并命名与之相关的技术发展与创新。最早提出“大数据”时代到来的麦肯锡公司指出,数据已经渗透到当今每一个行业和业务职能领域,成为重要的生产因素。但大数据究竟从何而来,是我们在探究大数据本质时首先要思考的问题。大数据的来源决定了大数据的体量(Volume)、速度(Velocity)、多样性(Variety)和价值(Value),进而影响到大数据向何处去。

  大数据时代的到来

  历史上,自从拥有国家体制以来,每一个国家的每一个朝代都具有一定体量的数据资料库。以中国为例,从东周战国直至清代前期的封建社会约二千多年的时间,关于政治机构、军事、人口、土地、农业、物价、财政、教育和矿业等都积累了不少的数据资料。在资本主义萌芽时期,随着社会经济的发展,社会分工日益精细,数据的应用也日益广泛,从而形成了工业、商业等统计数据。例如,中国晚清的手工业,因采用“机户出资,机工出力”、“计日受值”的方式进行经营管理,他们自然需要拥有一个相对完整的数据资料库,否则无法完成日常业务的管理。鸦片战争后,清朝政府虽模仿西方用调查或普查的方法采集数据,但因腐败和产业落后,未能做到完备准确。放眼全球,工业革命以后,书籍等以文字为载体的知识量大约每十年翻一番,1970年以后,知识大约每三年就可翻一番。迄今全球信息总量翻番的周期已经缩短为两年左右。

  今天,医疗卫生、地理信息、电子商务、影视娱乐等每天都有大量数据产生。到2012年底,全球数据总量达到了2.7ZB(1021字节),到2015年将达到8ZB。我们已经进入了数据规模日益庞大,数据采集方法和数据处理方式也日趋先进的大数据时代。

  信息社会化是推动大数据产生的根本原因,大数据是信息社会化的必然结果。大数据不仅能够为社会、政治、经济、文化等领域的活动提供智力支持,对人类的决策模式和社会经济的运行模式产生深远的影响;而且可以有效改善企业的数据资源利用能力,提高从数据到信息的转化率,让企业的决策更为准确,从而提高整体运营效率。可以说,大数据将会成为认识社会的有力武器和管理国民经济计划的重要工具。大数据时代的到来,将会使我们的生活方式、工作方法、社会发生根本性的变化。

  大数据从何而来

  大数据中的相当一部分来自于人,即我们人类自身。据CNNIC等机构的统计报告,我国手机用户数和网民数都居世界之首。手机已不仅仅是一个简单的通话工具,加速度传感器、陀螺仪传感器、温度传感器、地磁传感器、方向传感器、压力传感器等都嵌入到了手机之中。由此产生的音频、视频、照片、地理信息、速度信息等每时每刻都可以成为记录的依据,随时可以发送出来与别人分享。人产生的大数据还来自于健康管理,便携化的生理设备随着移动互联网的发展得到了普及,据如果每个个体的健康信息都连入互联网数量将不可估量,将成为未来重要的大数据来源。在医学领域大数据主要来源于PACS影像、B超、病理分析等业务所产生的非结构化数据。人体不同部位、不同专科影像数据文件大小不一,PACS网络存储和传输也要采取不同策略。

  还有一部分数据来自于“机”,即信息__系统本身。例如数据中心的运行日志,网络传输协议规定的各种非有效载荷部分,机器之间的内容拷贝,数据库的自动备份,系统快照,虚拟机的镜像文件等等。这些数据客观真实地记录了系统运行的历史轨迹,同样在测试调试、安全扫描、高可用性提升、计算机取证等领域具有重要的保存价值。

  更大一部分数据来自于“物”,即广阔的物理世界。大数据的产生基于今天无处不在的传感器和微处理器,以视频监控为例,一个720P(8Mbps)的摄像头一小时能产生3.6GB数据,一个城市若安装几十万个交通和安防摄像头,每月产生的数据量将达几十个PB。根据Solidot的报道,Virgin Atlantic航空公司正准备用波音787替换掉旧的波音747,该航空公司需要处理的数据量将大幅上升。波音787飞机从发动机、襟翼到着陆轮每一部分都与网络连接,这意味着飞机可以在一次飞行中从所有与网络连接的不同设备中得到500GB的数据。

  作为数据来源的人、机、物本身的规模也在发展。随着近年来互联网、云计算、移动终端和物联网的兴起,海量的移动设备、RFID、无线传感器每分每秒都在产生数据,数以十亿计用户的互联网服务时刻也在产生各种数据,数据量之大是人类史上所从未有过的。其中包括了社会网络、web服务器日志,流量传感器、卫星图像、广播音频流、银行交易、音乐MP3、网页内容、文件扫描、GPS路线、金融市场数据等。例如,Google每天处理的数据达24PB;Facebook每天新增图片3亿多张,每天处理的数据超过500TB;在1分钟之内,互联网上有2.04亿封邮件发出。预计到2020年,作为人机接口的互联网计算机终端将达到十亿量级,移动终端数将增长到百亿量级,物机终端数量将达到千亿量级,而现有的网络系统还无法承载这个庞大的数字。

  人、机、物的融合

  近年来,随着信息技术的飞速发展,信息技术的应用特征逐步从人机或物机二元世界融合向以社会资源(人)、信息资源(机)和物理资源(物)三元世界融合演进。当前世界二元融合信息技术正在蓬勃发展,如以RFID和ETC等为代表的物机融合技术,以微信、微博、Facebook等为代表的人机融合技术。随着互联网和物联网的高速发展,人类信息网络正在高速扩展,未来的信息网络将涵盖传统人类社会网络和物理世界的绝大部分信息,形成集人、机、物于一体的三元融合型信息世界。在不久的将来,许多现在单纯依靠人类判断力的领域都会被计算机系统所改变甚至取代。大数据将为我们的生活创造前所未有的可量化、可自演进的维度。

  卫星导航公司TOMTOM于2012年7月发布的报告显示,在北美26座城市交通拥堵排名中,美国洛杉矶以33%的拥堵指数高居榜首。为了治理交通堵塞,洛杉矶扩建了高速公路,同时建造了地铁和轻轨,但交通拥堵依旧没有有效缓解。最近,洛杉矶采取了同步所有4500个交通信号灯来应对交通堵塞,在新的系统中采用了测量交通流量的路面磁传感器,数百个探头和中心计算机系统。洛杉矶交通部门透露,使用同步信号系统之后在洛杉矶街道上驾车行驶五英里可以节约2.8分钟,汽车平均时速从15mph增加到17.3mph。同时,为了治理交通拥堵,洛杉矶还采用了智能停车的措施,安装了传感器和智能唛表来追踪拥堵地区的闲置车位。我国正在开展的“智慧城市”建设也体现了人机物三元融合的趋势,它使得信息科技渗透到经济和社会服务活动中。

  一些新的研究工作体现了对人、机、物融合的革命性信息技术的探索。如Google公司的Flu Trends流感预测工具,通过搜索引擎采集互联网上关于流感信息搜索的频度对流感疫情进行分析,其结果和美国国家疾控中心数据基本吻合,并能提前两周进行流感预测。第85届“奥斯卡”于2013年2月24日在洛杉矶杜比剧院落下幕,然而早在2月19日,微软研究院David Rothschild带领的团队通过对入围影片相关数据分析,就已经预测出2013年各项奥斯卡大奖的最终归属,成功命中除最佳导演外的13项大奖。奥斯卡预测的成功,首先基于其确定的预测方法,然后借助特定领域的历史数据建模,通过不断升级模型确保预测的准确度。

  大数据对系统软件的挑战

  由于需要处理的数据量太大,并且数据增长过快,而业务需求和竞争压力对数据处理的实时性、有效性又提出了更高要求,传统的系统软件根本无法应付。在这种情况下,从业者无法有效地对海量数据进行有效地收集、处理和分析;同时,企业管理人员因不能及时获得信息,而无法预测出潜在的业务风险。为了解决这些问题,很多IT企业和机构都投入了很大的精力进行相关研究,一些新的系统软件纷纷涌现。

  以数据存储系统为例,在大数据环境下,如超大规模和高并发的SNS类型的纯动态网站如Facebook对数据库高并发读写、海量数据的高效率存储和访问、数据库的高可扩展性和高可用性提出了新的需求。在基于Web的架构当中,数据库很难进行横向扩展。当一个应用系统的用户量和访问量剧增的时候,不能通过添加更多的硬件和服务节点来扩展性能和负载能力。基于上述的需求,传统的SQL数据库如MySQL等在性能上遇到了难以克服的障碍,同时关系数据库的很多主要特性如事务一致性、多表关联查询等却往往无用武之地。NoSQL(Not Only SQL)存储方案就是在这样的环境下诞生的,NoSQL是Cassandra、Redis、MongoDB等一些新生高性能存储系统的统称。它很好地满足了上面提到的大数据下的三个新的需求。它打破了长久以来关系型数据库与ACID理论大一统的局面。NoSQL数据存储不需要固定的表结构,通常也不存在连接操作,在大数据存取上具备关系型数据库无法比拟的性能优势。从大数据处理的角度来看,分布式处理框架Map/Reduce已经成为了事实上的标准,以开源软件Hadoop为代表的软件也逐渐得到广泛商业应用。但对于更为底层的系统软件来说,大数据环境带来的挑战还需要进一步研究,一些重要的问题还没有得到很好的解决。例如,作为最核心的系统软件,操作系统目前还没有实现新型计算资源(如GPU)的直接抽象和调度,也没有针对CPU密集型计算到数据密集型计算的转变做出相应的调整。此外,分布式文件系统下的统一数据视图,全数据中心范围内能耗管理,大数据下的安全性等方面,进一步的研究工作都有待开展。可以期待,大数据产生“大智慧”的时代已经离我们越来越近。

  作者单位:中国科学院软件研究所

首页投稿广告关于我们联系我们

版权:《高科技与产业化》编辑部版权所有 京ICP备12041800号

地址:北京市海淀区中关村北四环西路33号 邮编:100080

联系电话:(010)82626611-6618 传真:(010)82627674 联系邮箱:hitech@mail.las.ac.cn