站内检索

关于大数据
——访中国工程院院士倪光南
作者:黄晓艳 单晓钊 发表时间:2014年09月11日

  大数据时代已经到来

  本刊记者:随着云计算、移动互联网和物联网等新一代信息技术的不断涌现和应用普及,海量数据正在互联网上快速生成,催生了大数据时代的创新机遇。请问,您对大数据这个概念认同吗?人们该如何理解这个“大”字?您觉得大数据时代是否已经到来?它会给我们的生活带来什么样的改变?

  倪光南:目前,大数据的概念已被人们广泛认同。那么,如何理解大数据的“大”字?仅仅是数据量大吗?显然不是。我们认为,应该从数据量、数据特性、数据来源和应用领域等四个方面加以考察:

  1.数据量。过去传统的数据挖掘、商业智能等依托的数据量往往达到TB(1012Byte)数量级就是较大的了,大数据依托的数据量即使达到PB(1015Byte)数量级也不算很大,并且这个尺度还在继续提升。据IDC估计,全球新产生的数据年增40%,全球信息总量每两年就可以翻番,大数据处理数据规模当然也会相应增加。

  2.数据特性。过去人们分析的数据主要是数据库那类结构化的信息,而大数据分析的主要是非结构化信息,如文本、图形、音频、视频、遥感遥测信息……,且大多是所谓的“实时”信息。这里所说的“实时”信息,与工业控制这类场合所说的“实时”不同,它并非是指短到“毫秒”、“微秒”、“纳秒”等等那样的“实时”,而是近似的“实时”,随具体涉及的场景不同,这里的“实时”可能以“天”、“周”、“月”等等这样的时间单位来衡量。换言之,大数据利用的“实时”信息是指在一个与场景有关的较短、较近的时期段里,在一个能容许对变化做出响应、并判定响应效果的时间段里所产生并可资利用的信息。

  3.数据来源。过去的数据来源主要为企业交易数据,而现在的数据来源主要是社会日常运作和各种服务中实时产生的数字数据,如在线搜索、新闻、博客、微博等社交媒体、移动电话和短信、热线电话、电子商务交易、遥感遥测数据……。

  4.应用领域。商业智能等的应用主要是在企业的商业运作方面,应用面较窄,而大数据的应用领域已经扩展到了社会科学的各个领域,如经济学和社会学应用,政治和政策应用等等,应用面要宽得多。

  虽然大数据只是近几年才兴起,但各国从政府到工业界、学术界都毫无例外地予以高度重视,可以肯定地说,大数据时代已经到来,它将给人类社会的发展和人们的生活带来深刻的变化。例如,IDC认为,“就如2012年移动设备和云计算成为了每家公司的必需品那样,大数据将在2013年被每一个人所使用。”IDC表示,大数据市场的年增长率将达到40%,2012年该市场的规模约为50亿美元,到2013年规模为100亿美元,到2017年规模将达到530亿美元。另一家著名的咨询公司麦肯锡的全球研究所也认为,大数据是下一个创新、竞争和生产力提高的前沿。

  大数据的作用越来越重要

  本刊记者:随着云计算时代的来临,大数据也吸引了越来越多的关注,发达国家纷纷将开发利用大数据作为夺取新一轮竞争制高点的重要抓手。在大数据领域,我国目前有哪些战略布局?与世界先进国家之间有差距吗?按一般的理解大数据更像是一门工程科技,它对科学研究的影响会是怎样的呢?

  倪光南:确实,发达国家非常重视大数据,这方面美国就走在前列。2011年,美国总统科学技术顾问委员会曾提出一份建议,认为大数据相关技术具有重要战略价值,而联邦政府对其研发投资不足。作为建议的反馈,2012年3月白宫科技政策办公室发布了《大数据研究和发展倡议》,并组织了大数据高级监督小组协调和拓展政府在这一重要领域的投资。与此同时,美国总统办公室发布了《遍及联邦政府的大数据》,披露了12个国家部门制定的大数据发展计划,旨在应对大数据革命的挑战并抓住它所带来的机遇,推进本部门的工作并促进长远的科学发现和创新。相比之下,我国还有不小的差距。“十二五”国家发展战略性新兴产业的规划中虽然有“新一代信息技术”,其中包含了大数据的内容,但对大数据无论是认识和部署都嫌不足。

  大数据似乎已超出了一般工程科技的范畴。随着大数据的应用领域扩展到了社会科学的各个领域,它在很多方面模糊了自然科学和社会科学的界线。现在大数据的很多应用往往是将自然科学的方法施加到社会科学的问题上,并取得了前所未有的效果,而这种情况还只是刚刚开始。

  另外,大数据有望开创科学研究的第四范式(the fourth paradigm)。这最早是由图灵奖获得者吉姆·格雷(Jim Gray)基于e-Science的思路提出的。众所周知,传统的科学研究都是基于实验的,或者以理论分析为主,但是这类实验的或理论的分析方法存在着局限性,例如比较封闭,没有模拟或仿真的手段,因而科研周期较长,成本较高,有些问题难以解决。在这种形势下,约翰·泰勒提出了e-Science的概念:由计算科学家提供强大的计算平台和计算工具,帮助其他科学家更好地完成研究工作。实际上,像现在的核反应模拟、航空航天设计、生命科学研究……无一不依赖于高性能计算机及相应的数值计算方法,属于计算密集型科研。现在,第四范式则强调了以大数据为基础的数据密集型科研。

  回顾科学研究范式的发展过程,最早是实验型科研(Experimental Science),这已有几千年的历史了,后来发展到理论型科研(Theoretical Science),这也有数百年的历史了,近几十年发展到计算型科研(Computational Science),现在则推进到第四范式——以大数据为基础的数据密集型科研(Data-intensive Science)。

  上述几种范式并不是排他的,恰恰相反,这几种范式在实际科研中往往同时使用,相辅相成。第一种范式即实验型科研是最基本的方法,因为任何科学都需要用实验来检验。理论在未经实验证实前,只能作为假设,所以第二种范式即理论型科研是以实验为基础并依赖于实验验证的。第三种范式即计算型科研往往需要利用第二种范式取得的成果,即需要在理论的指导下,利用计算能力发挥理论的作用。同样,第四种范式可以认为是第三种范式的延伸,它们都依赖于计算能力,只是第三种范式是在已知规律的情况下,运用计算能力发挥规律的作用,而第四种范式则是在未知规律的情况下,运用计算能力从大数据中发现规律并发挥规律的作用。看来这种方法将在越来越多的领域的研究中发挥重大的甚至是决定性的作用。虽然第四范式是否会与历史上那前三种范式一样,构成科学研究的方法基础,还有待于实践的进一步检验,但大数据的作用越来越重要则是没有疑义的。

  挖掘大数据的价值是关键

  本刊记者:大数据的意义不仅在掌握庞大的数据信息,而且在于能通过对这些数据的加工处理,实现数据的增值。作为用户,大家可能更关心哪些类别的大数据更有价值?要从浩如烟海的数据中挖掘出它的科技价值、商业价值,现有的技术可以达到吗?国内企业应该如何抓紧布局,才能赢得发展机遇?

  倪光南:大数据的意义当然不在于它如何大,而在于它内涵的价值,由此看来如何挖掘出大数据的价值是一个关键。如果说大数据是一座蕴含巨大价值的矿藏,云计算则可以被看作是采矿作业的得力工具,没有云计算的处理能力,大数据的信息沉淀再丰富,我们或许也只能望洋兴叹;另一方面,云计算也是为解决大数据、大系统、大用户这“三大”问题应运而生的,没有大数据的信息沉淀,云计算的功用也将得不到完全发挥。因此,从整体上看,大数据与云计算两者是相辅相成、相得益彰。

  大数据的处理一般需要经历“采集、存储、分析、展示”四个阶段。而且很明显,因为涉及到庞大的数据量,这一整套处理流程,在各个不同阶段都会对传统的技术手段提出挑战。然而,传统的单机处理模式不但成本越来越高,不易扩展,并且随着数据量的递增、数据处理复杂度的增加,相应的性能和扩展瓶颈将会越来越大,在这种情况下,云计算所具备的弹性伸缩和动态调配、资源的虚拟化和系统的透明性、支持多租赁、支持按量计费或按需使用,以及绿色节能等基本要素正好契合了新型大数据处理技术的需求。而且,以云计算为典型代表的新一代计算模式,以及云计算平台这种支撑一切上层应用服务的底层基础架构,以其高可靠性、更强的处理能力和更大的存储空间、可平滑迁移、可弹性伸缩、对用户的透明性以及可统一管理和调度等特性,正在成为解决大数据问题的未来计算技术发展的重要方向。

  面对大数据的机遇和挑战,我国企业应当积极应对。要善于把握国家发展新一代信息技术的战略机遇,发挥我国科技人才资源和市场资源的优势,坚持自主创新,争取迎头赶上。前一段有些地方在发展云计算中出现了“重硬轻软”的倾向:不问客观需求,盲目地圈地、盖楼、买服务器,而不知道应用在哪里,导致了不少设施闲置现象。今后任何发展大数据的规划都要明确应用。在许多情况下,发展大数据不需要增添硬件设施,只需要发展各种软件,将已有的大数据资源利用好,将它的价值发掘出来,显然应该是以软件为主导。

  大数据是人类的宝贵财富

  本刊记者:大数据及其处理技术在给社会带来诸多便利的同时,也给国家和个人的信息安全带来巨大的冲击。比如大数据中的政府情报、金融数据,要么关乎国家安全,要么涉及个人隐私。您觉得与大数据相伴相生的安全问题,会不会使大数据成为一把令人生畏的双刃剑?

  倪光南:大数据的发展和应用有赖于解决好“安全”和“隐私”这两个问题。数据安全或信息安全,这不是大数据特有的问题,任何信息系统及其应用都有这个要求,只是大数据因其规模大显得更为突出而已,但还不需要将它当作新问题来加以讨论。

  至于隐私权确实是大数据的特殊问题。大数据的获取、存储、保持、利用和展示,无一不涉及到隐私权问题,这包括法律上、技术上以及观念上的问题。如果这个问题不能很好地解决,大数据的发展将受到很大的制约;同时,个人或机构也可能会受到不必要的伤害。

  按照ITU的定义,隐私权是“个人控制或影响关于他们自身的信息是否披露的权利”,这是个人层面上的隐私权。对于一个机构或组织来说,隐私权属于它们主权的范畴,是它们保护自已的安全、竞争力、知识产权和其他权利的需要。

  随着因特网、移动因特网、云计算、大数据等新技术的发展,一些公司积累了并正在继续积累海量的用户信息,但如果没有适当的法律约束,这些信息可能会被滥用。例如过去匿名的信息可以被“非匿名化”,在未经本人许可的情况下被散布出去,对用户造成重大的危害。所以现在亟需制定保护隐私权的有关法规,使大数据等新技术的发展不致于造成损害民众利益的后果。

  与隐私权相对的则是信息的利用和共享。我们既不希望大数据的发展损害用户的隐私权,也不希望以保护隐私权为名而妨碍信息的利用和共享,这两者应当兼顾,取得合理的平衡。对个人而言,不管他们提供信息时是自愿的或无意识的(后一种情况如用户在接受某项信息服务时往往会无意识地提供个人信息),我们都要尊重其隐私权,如果需要利用的话,应当进行“匿名化”处理(剥离一切个性信息)。另一方面,某些公司和机构不愿意其他机构(包括政府和一些公益机构)共享它们用户的数据以及它们自身的运营信息,虽然它们这样做可能是为了保护自身的安全、竞争力、知识产权等等,或是因为数据存储的地方和方式使其难于被利用和传送等等,但对整个国家或社会来说,这些信息不能被共享是不利的。对此,应当通过法律、经济、技术和观念等等途径予以解决。例如,可以对共享数据的范围、方式、方法和如何授权等问题制定相应法规。除了可考虑经济补偿外,应当鼓励公司将它们的数据集“匿名化”,并将它们提供给社会创新机构进行实时或近似实时的分析,以便挖掘其中的知识、模式和趋势,为公众利益服务。此外,技术上也要解决数据的互兼容性和系统的互操作性,以便于数据的共享。

  只要认真地在大数据发展中及时地解决好与此相关的“安全”和“隐私”问题,大数据是可以成为人类的宝贵财富的。

首页投稿广告关于我们联系我们

版权:《高科技与产业化》编辑部版权所有 京ICP备12041800号

地址:北京市海淀区中关村北四环西路33号 邮编:100080

联系电话:(010)82626611-6618 传真:(010)82627674 联系邮箱:hitech@mail.las.ac.cn