站内检索
理性认识大数据——访中国科学院院士徐宗本
作者:黄晓艳 发表时间:2016年03月02日

 

  随着移动互联网的普及和“可佩带计算”等智能设备的出现,人类的行为、位置,甚至身体生理每一点变化,都成为了可被记录和分析的数据,一场全新的、以大规模数据生产、分享、使用为代表的技术革命正在发生。读懂数据,把数据变成一个新的服务,才能变成一个新的产业形态服务于社会。

  在以“共享共融数创未来”为主题的“2015中关村大数据日”活动上,中国科学院院士、西安交通大学教授徐宗本接受了本刊记者的专访。他认为,无论是国家还是企业,让大数据带来效益要具备几个基本条件:要有丰富的、鲜活的、可解释的、可共享的大数据;要有可解读数据、挖掘规律的技术人员;更要明白利用大数据去达到什么样的目的。而目前,大数据研究还存在理论不完善、技术不成熟的问题,人们必须推动基础理论研究和关键技术的突破,实现大数据产业的健康和可持续发展,并使大数据产生应有的价值。他强调:大数据确实可以干很多很多的事情,大数据确实具有大价值。懂得用大数据是大智慧,但要用好大数据更需要大智慧。

  大数据可以干什么

  本刊记者:大数据是一个新的概念,我们从各个领域看到过很多关于大数据概念的描述和界定。您是如何理解大数据的概念和内涵的?

  徐宗本:关于什么是大数据,这里有太多的误区需要澄清。数据并不是万能的。数据其实就是对社会经济生活活动资料的数字化。用标准的科学术语讲,数据就是以编码形式存在的信息载体,是资料的数字化形式。

  大而复杂的数据才叫大数据。这里的复杂泛泛地说有四大基本特征:第一是海量性,海量的复杂结构的数据集合;第二,具有时变性,难以在可接受的时间内进行分析处理;第三,异构性,数据会以不同的形式(如文本、图像、视频等)出现,必须同时分析与处理;单个数据可能价值不大,但数据整体有高价值;第四,分布性,数据可能会分散在不同的物理地址,更不能在单个计算机上集中存储,一般需要用分布式、云存储与计算模式等。

  大数据的“大”其实是相对的。随着数据的积累,一般说反映真实世界片断(碎片化)的数据量会达到可以从一定程度上反映其真实面貌的程度。这种数据积累过程中,存在一个从量变到质变的转变过程,我们把这个点叫做大数据临界点,超过临界点意味着我们能通过数据对它背后的故事说出一二三,反之则不能。超过临界点的数据我们说是大数据,而不是仅仅指存储量很大的数据是大数据,这是一个误区,需要注意。所以对于大数据,有两件事情必须明白:一是大并不等于够,够不够依赖于决策问题;第二,“大”是一个相对的概念。

  本刊记者:大数据可以干什么?大数据的价值到底在哪儿?

  徐宗本:大数据的主要价值在预测,而大数据的价值实现主要来自分析和关联。大数据之所以有用,是因为数据积累到了一定程度,而且当今的计算能力也能够支持将分散的大数据关联起来处理。从高的观点看,大数据的真正价值主要会体现在四个方面:一是提供社会科学的方法论,实现基于数据的决策,支持管理科学与实践的革命;二是形成高新科技的新领域,与其它信息科技结合,推动行业深化发展并形成大数据产业;三是形成社会进步的新引擎,深刻改变人们的思维、生产、生活方式,推动社会进步;四是提供科学研究的新范式,支持基于数据的科学发现,其中每一部分都可以挖掘下去。我个人特别看重大数据提供社会科学方法论这一独特价值,因为它能支持科学决策的技术化实现,即基于事实或基于数据的决策。这样大数据能帮助我们摆脱人治的管理模式,而形成能广泛遵循、可重复、能被所有人接受的研究决策方法论,这是大数据的真正魅力所在。

  本刊记者:发达国家纷纷将开发利用大数据作为夺取新一轮竞争制高点的重要抓手。在大数据领域,我国目前有哪些战略布局?

  徐宗本:大数据是地地道道的综合研究,需要有国家战略的统筹和规划,需要各学科定位准确的协同创新。我国整体上讲,一是中央领导层高度重视,国家意志和决策明确。国务院已发布《关于促进大数据发展的行动纲要》。党的十八届五中全会也明确要实施“国家大数据战略”,大数据第一次写入党的全会决议,标志着大数据战略正式上升为国家战略。国家层面正在积极布局和实施大数据产业政策,将有力地促进经济发展。第二个方面,从形式上反过来讲,产业的紧逼。产业有利润的驱动,有自主创新的驱动,企业的积极性很高,但这些大多集中在应用层,多半集中在基础设施建设,而在核心技术和共性基础的研究上还非常不够。三是民众的热情空前高涨,大家希望改变生活方式,像滴滴出行,网上购物等。但谁为大众的热情负责?国家惟一要做的就是要加强宏观布局,加强核心研究,加强基础建设。如何落实好国家的战略,这需要务实的投入,需要正确的战略布局,需要扎实的基础研究,需要很好的产业推动,尤其需要围绕产业链来部署创新链。总之,无论是国家还是企业,在推动大数据产业时,一定要同时关注基础研究和技术研发。这样才会实现大数据产业的健康和可持续发展,并使大数据产生应有的价值。

  本刊记者:大数据的发展都涉及了那些技术?为什么要发展大数据技术?

  徐宗本:我们把物联网、大数据、互联网云计算、移动计算简称为“物大云移”。分析这几个技术,你会发现,物联网讲的是交互方式,讲人、机器、环境怎么交互。互联网、云计算或者云存储讲的是信息技术的基础设施。而大数据讲的是交互内容,讲的是机器和机器、机器和人发生的交互,信息处理基本形式。所以说,大数据是从信息技术的底层来捕捉信息化的共性基础和未来发展趋势的。大数据技术是底层技术,可以嫁接到任何信息技术中,其基础性、内蕴性、普适性可以给各个行业助力。

  大数据是一个历史性的机遇,人们可以使用极为丰富的数据资源来对社会经济进行前所未有的实时分析,帮助政府更好地响应社会和经济运行。现在大家对大数据有很高的热情,适应大数据的潮流,大数据的成果发布已经很多。我们还要抓住管理创新机遇,抓住产业发展机遇,抓住科学研究机遇,抓住学科发展机遇。我在大学里工作,自然会关注学科发展机遇。我认为,传统所熟悉的统计学、计算科学会面临重大革命,文理科的学科内涵会日趋交融,大数据将是大学服务于社会、改革人才培养模式、改变专业内涵、主动适应培养大众创业、万众创新人才非常好的一个切入点。

  大数据技术的基础性、内蕴性和普适性特征使得大数据技术是解决众多国家重大现实需求问题的共性基础,是国家创新驱动发展的核心驱动力,能够为产业的不断升级提供助力。但大数据的基础性、底层性,也带来了一些挑战。因此,我们一定要冷静地想清楚:大数据能带来什么,做大数据想干什么,想调整什么产业结构,形成什么新的产业,要理性认识到,大数据并不能解决所有问题。

  科学应对挑战

  本刊记者:大数据行业面临的挑战到底在哪儿?该如何应对?

  徐宗本:大数据行业的真正挑战来自三个方面:第一,分析基础被破坏。主要是指统计学基础、计算理论基础、逻辑基础。第二,计算技术需要革新。对大数据而言,用什么样的计算架构去存储,用什么样的计算平台去处理,用什么样的程序语言和计算方法去分析,所有这些技术都需要重新发展。第三,决策应用缺基础,真伪性更加难以判定。大数据做出来的结论对或不对,还无法大规模验证,真伪性怎么判定,不清楚,这是目前面临的最大挑战。在三大挑战中,应用层的挑战当属榜首。

  未来大数据的机会与挑战皆在与行业的结合上。因此,我们需要重建分析基础,要融合统计学、计算理论基础、逻辑基础。在大数据分析与处理的统计学与计算基础方面取得突破性进展,建立起若干新的理论,推动形成数据科学的基础理论体系。我们要创新计算模式、计算方法,建立大数据分析处理的新型计算模式和高效计算方法,提出适应异构计算环境下多粒度分布并行计算模式的系列高效算法(大数据算法),形成大数据处理与分析的领先核心技术。我们要建立真伪性判定准则,解决面向典型领域的基于大数据的科学发现及其方法论依据的科学问题,在国家重大需求的若干典型领域,形成大数据分析与处理的行业核心技术,促进相应领域科学发现新模式的形成,推动各行各业利用大数据的能力与水平。

  本刊记者:大数据时代,用户的需求已不仅仅局限于数据存储,更是向数据管理、分析、展现、挖掘等多元化方向发展。大数据的技术成熟了吗?

  徐宗本:不少人以为,大数据技术很成熟了,甚至说大数据是万能的。我告诉大家,非也,这其实是一个误区。从技术本身来讲,还差得很远。

  首先看一看,我们对数据很熟悉的技术基础在哪儿?我们都知道,统计学是作为数据分析和处理的方法。统计学就是这样的一个方法论,首先处理的是抽样数据,既然是抽样数据,当然都会假设,IID意思就是说独立同分布,大家按照公正性原则、简便性原则等抽样出来的数据。我们做推论是基于当我所说的这个事情能够重复无限次而得到稳定分布的结果来作为推断依据。所以传统统计学方法是以抽样数据为对象,以样本趋于无穷的极限分布为基础的数据分析方法。

  这种分析方法在大数据时代完全被颠覆。首先大数据分析方法的数据是自然数据,不具有IID特性,不满足独立同分布,其次数据量再大也不能产生期望的稳定分布。在大数据应用中,我们呼唤的是靠数据量+超常的计算能力来直接分析的方法(如靠机器学习方法)。大数据整体上没有成型的系统方法,大数据和其它产业转化不一样,不同于其它的产业形态,大数据是理论、技术、产业伴生而行的产业形态,是完整性的产业形态。

  当前我国在大数据领域的原创性较弱,问题很多,比如数据表示、统计学基础、计算复杂性、计算模式、大数据算法、非结构化信息处理,这些都是需要解决的难题。大数据的普适、核心技术仍然还没有建立起来。现有的应用仍多集中在基础设施建设方面,云平台、数据中心、计算架构等所展现的成功应用基本上是以查询处理为基础的技术,分析还仅仅限于传统方法,新方法并没有出现。我们要注意消除一些误解,如:样本等于母体,查询能代替推断,大数据不需要理论等。我们也要注意“三个不等于”:基础设施不等于大数据,数据处理不等于数据分析,信息化不等于大数据。

  如何将抽象的数据变成一个个可以在现实中实践的产品,需要各行各业进行深入探索。近年来,科学界及产业界都开展了广泛的探索与实践,取得一批令人振奋的结果。大数据的成功是部分处理技术的成功。我个人认为有一些成功也是可以说的。比如:以压缩感知为代表的处理高维数据的稀疏性理论与方法(压缩感知及其发展);以卷积神经网络为代表的深度学习算法(尤其对于图像大数据、音频数据);以经验级联贝叶斯(EHB)与正则化贝叶斯方法为代表的结构发现方法与推理方法;以Hadoop、Spark、Petuum为代表的分布式计算架构与编程模型;以排序与搜索、排序学习、参数服务器等为基础的互联网应用等等。

  本刊记者:请您谈谈研究院所和高校在大数据时代可能和应该有哪些作为?中国科学院在大数据将有哪些引领的能力?

  徐宗本:中国科学院、研究院所、高校首先要明确目标,做到统筹规划,这是前提。我一直在说,大数据时代,明确目标是前提,拥有数据是基础,计算平台是支撑,分析技术是核心,产生效益是根本。单位数据、行业数据对管理问题的改革提升很有帮助。其次,要搞好数据公共资源的管理与建设。换句话说,就是单位和行业应该着重建立以单位、行业自己独有的数据库,把数据进行集中处理储存,具体有许多的信息化问题,包括质量标准等很多问题。第三个方面,赶快着手培育懂业务、懂数据、会分析的大数据人才队伍。至少要懂得管理数据,懂得怎么去让它实现价值,懂得去找人分析。四是一定要打造领域或者行业独有的专业技术,也就是大数据分析技术。五是营造好大数据发挥长效作用的生态环境,大家尊重数据,养成大数据的文化。从领导层面上说,要树立“让数据说话”的思维方式,实现尊重数据,实现数据决策,这也是科学管理数据。

  中国科学院、研究院所、高校一定要基于自身的研究领域的特色开展大数据方面的研究,运用科学的方法分析这些行业数据,从而有效使用各自领域的数据资产,使其为国家治理、企业决策乃至社会民生服务。当然,在大数据研究中不应形成新的行业数据资源壁垒。

  大数据基本科学问题的解决将极大地推动信息及相关交叉学科发展。中国科学院通过学部首先要率先凝炼科学问题,如大数据的基本问题到底在哪?第二,要呼吁国家组织研究,夯实国有基础,夯实科学基础,以这种方式实现对国家责任,以这种方式来支撑实现对行业发展,这是中国科学院有所作为的地方,也是中国科学院大有作为的地方。

  改变生活方式

  本刊记者:大数据价值在未来将会给我们的生活带来怎样的改变?

  徐宗本:大数据是一种“用数据说话”的思维方式,是一种期望能对数量巨大、来源分散、格式多样的数据进行采集、分析和处理的新一代信息技术,更是一种用科学方法将过去的经验数据化、规律化并应用到管理实践的新常态文化。

  大数据给人们带来的改变,我认为首先是普遍改变了人们对文科和理科的界线。大数据要学习统计学,以前文科不学数学,文科要学大数据,就要学统计学,就要学数学。二是大数据改变了人们消费模式、生产方式、价值选择,影响到我们的文化生活。我们生活在一个充满数据的时代,打电话、用微博、聊QQ、刷微信、阅读、购物、看病、旅游,都在不断产生新数据。大数据不只是一个产业这么简单。大数据产业,既独立于行业,有自身的产业链条,又依赖于各个行业,形成大数据应用的广度与深度。它在社会各个领域中都无所不在,可以与多个产业“相加”,形成“大数据+”。交通部门通过大数据分析实时路况;交友网站利用大数据分析寻找爱情,帮助需要的人匹配合适的对象;利用穿戴装备(智能手表或智能手环)生成最新的数据,可以根据自身热量的消耗以及睡眠模式追踪身体是否健康。这些都体现出大数据与我们的生活紧密相连。数据就在你我身边,已经并将继续影响着我们未来的生活。

  我一直在呼吁,国家抓宏观决策引导,抓行业示范重点工程,抓人才队伍,抓大数据生态建设,要让能服务于民的公共数据真正实现共享,促进大数据应用并服务于国家发展。

  大数据的确是个大机遇,我们每个人都不能漠视大数据带来的影响,不要忽略大数据。我呼吁大家真正积极从事这方面的研究,要按照自己的特长,按照自己的定位,去介入大数据研究。同时希望大家减少盲从,化被动为主动,真正让数据发挥更大的效益价值。

首页投稿广告关于我们联系我们

版权:《高科技与产业化》编辑部版权所有 京ICP备12041800号

地址:北京市海淀区中关村北四环西路33号 邮编:100080

联系电话:(010)82626611-6618 传真:(010)82627674 联系邮箱:hitech@mail.las.ac.cn