站内检索
大数据开启智能时代——访中国科学院院士鄂维南
作者:黄晓艳 发表时间:2017年07月12日

 

  随着云计算、移动互联网的应用普及,以及可穿戴智能设备的出现,一场全新的、以大规模数据生产、分享、使用为代表的技术革命正在发生,数据成为宝贵的资源、资产和生产要素。对海量数据及其隐含信息、知识的收集、分析、挖掘、有效整合,将为科学研究、社会经济发展带来巨大的红利。大数据的广泛应用开启了一个全新的智能时代。

  “数据分析是大数据的核心,服务于应用是大数据的源泉与归宿。”在接受采访时,鄂维南院士告诉记者。同时,他还详细地解答了我们提出的关于数据科学学科现状、人才培养、发展机遇与挑战等多方面的问题。

  本刊记者:大数据为什么这几年火热起来了?目前,我国大数据科学研究究竟发展到了什么阶段?您是如何跨界做大数据学科研究的?

  鄂维南:随着信息存贮量的增多,人类在实践中逐渐认识到,通过数据的开放、整合和分析,能发现新的知识、创造新的应用价值,从而为社会、为企业带来新的机遇。国内大数据火热,主要原因有三:一是数据资源比过去丰富,各种网络入口以及无处不在的传感器网络,都会对个人数据进行采集、存储、使用、分享,数据来源更加多元化。二是分析数据的技术有了显著的提高,深度学习、新的模型算法出现是跨越性的进步,它对非结构化数据处理产生了很大的影响。硬件GPU的出现和灵活使用,更使得训练和分析数据的能力获得了空前的进步。三是人们认识到了大数据可以在各行各业有不同的应用场景。相比以前统计报表,现在的数据更加精准,可以给各行业带来效率提升,降低成本。数据分析已经为金融、零售、医疗、交通、航空、旅游等行业带来了显著的业绩提升。

  我转行做大数据学科研究主要有两个背景。首先,作为一个数学家,我认为数学将对推动大数据发展起到相当大的作用。数学也应该成为大数据分析、机器学习和新一代人工智能的理论基础。然而应用数学界仍然普遍存在着理论和应用分化的情况,一部分数学家专事应用,缺乏理论深入;大部分数学家主要从事比较理论的研究工作,与应用联系不紧,也没有参与到活跃的应用领域。就目前的情况来看,数学家对大数据的参与度和影响力还不是很大。这无论是对大数据的发展,还是对数学的发展都是很不利的。就我从事的计算数学而言,早些年,算法问题大多来自物理、力学、材料、工程、化学等方面。未来的问题更多地会来自于数据里面的算法。大数据涉及的机器学习、自然语言处理、算法里的分类、聚类、预测、回归,都是数学模型和算法问题。因此,我认为大数据是数学落地、给社会产生影响的好机会。

  二是作为中国的科研人员,我从2009年开始“周游列国”,拜访了北大、清华、上海交大、复旦等高校领导,跟他们建议发展数据科学。在复旦的半年时间里,我们成立了一个数据科学讨论班,并设立数据科学专业课程。尽管我的建议得到了校领导们的积极回应,但由于种种原因,这个计划没有得到真正实施。2012年3月,美国奥巴马政府宣布了“大数据研究与发展计划”,把对大数据的研究上升为国家战略。中国开始积极响应。2012年11月,我们在北大率先召开了由学术界和企业界共同参加的数据科学与信息产业研讨会,邀请了14位科学院和工程院院士以及其他数学、计算机、统计学的专家,还有百度、京东等企业骨干,探讨的主题是数据科学学科建设、行业应用和大数据专业人才培养。从那时候开始,我全面转行到大数据领域。尽管这是一个比较困难的过程,但直到今天,我仍然认为当初跨行进入大数据学科研究的决定是对的,我个人看到了前所未有的科研空间,最近也做出了一些创新性的工作。

  本刊记者:北京大数据研究院成立的背景和定位是什么?请您与我们分享你们在大数据学科建设和科研成果方面所做的创新性工作?

  鄂维南:2015年北京大数据研究院由中关村管委会、海淀区政府、北京大学和北京工业大学联合发起成立,主要定位于两个方面:一是解决中国大数据领域最困难的技术问题。二是建成真正有效的、国际一流的大数据教育、科研创新和成果转化的平台。

  另外,数据科学是一门交叉学科。北大的多数学科如应用数学、计算机、统计、信息科学、现代医学、经济学、管理学、社会学、新闻传播学、生物学、天体物理学等与大数据密切相关。在实际应用层面,大数据涉及的领域十分广泛,包括金融、交通、移动互联网、医疗健康、工业大数据等。为此,北大制定了有效的策略,明确要按照交叉学科的模式来发展大数据。从学校层面上建立了大数据科学委员会,统一规划全校的大数据发展计划,依靠前沿交叉学科研究院建立了北大大数据科学研究中心。

  为这些,我们做了很长时间的准备工作。2013年设置了数据科学的数学导引、复杂网络、大数据中的算法、统计计算这些核心课程;2014年向教育部申报了数据科学学术型的研究生教育项目;2015年北大正式招收大数据学科的学术型研究生,完成了数据科学本科教学计划的设置,同年,元培学院、数学学院、信息科学技术学院的数据科学本科专业招生。我们在体制内基本完善了本科和研究生培养体系,成功开设“数据科学导引”等基础课并建立了实训平台。

  2016年我们引进了7位全球最活跃的年轻数据科学家,组建了20余人的专业运营队伍,和北工大合作建设了一支包括3名院士、近50名博导在内的研究团队,加强大数据基础研究和交通、医疗、金融等领域的应用研究,建立了深度学习、自然语言处理与认知智能、大数据安全、生物医疗影像等基础实验室,以及健康医疗大数据、时空大数据、交通大数据等应用研究中心。根据每个领域的特点,加强人才引进,制定前瞻性的规划,加强和市场的联系。通过建立政产学研用协同创新平台,带动大数据的学科建设、科学研究、人才培养和成果转化的整体提升。

  本刊记者:大数据行业具有哪些重要的特点?

  鄂维南:大数据行业鲜明特点是科研创新与产业化是无缝联接的,是创新驱动的。二是年轻人最活跃,大数据研究主要是靠青年人才。

  本刊记者:中国在大数据与智能化时代是否有创新和领先的可能?

  鄂维南:发展是人类社会永恒的主题。人类社会发展经历了农业化、工业化和信息化,正在迈向智能化。大数据发展的最高层次就是要用数据来形成智慧,让人们做出的决策更精准和有效,使得社会各方面高效地运转起来。

  大数据是人工智能的基础。人跟机器最大的不同就是人会学习,通过工作和学习积累经验,凭经验去处理机器不能处理的问题。智能化时代是以会学习的机器作为代表,机器的学习效率比人类学习的效率要高出很多。以AlphaGo为标志,人工智能进入到一个新的时代,其主要的原因就是核心技术的改进,即以大数据和机器学习为基础,尤其是深度强化学习。可以想像,智能化时代机器可以帮助人类做决策,让人类去从事更富有创造性的劳动,生产出个性化、智能化的产品。

  中国在工业化时代落后了百年,我个人希望智能化时代中国不要再落后,这也是我转行做大数据的一个原因。目前,我国在零售、电子商务、大众消费品、通信、金融服务等领域对大数据运用相对比较成熟,与国外几乎站在同一起跑线上。未来人工智能、大数据发展会非常快,会深刻改变人的生活方式,我国在很多领域都还有创新和领先的可能。但我们的体制是一个瓶颈,它缺乏效率,资源很难分配到最需要、最富有创造力的年轻人手里。

  本刊记者:您曾谈到,中国发展大数据存在数据开放、数据质量、数据隐私和分析技术等“瓶颈”,最严重的还是人才问题。如今这些问题都得以解决了没有?

  鄂维南:中国有很多的数据,存储在不同部门、不同的地方,格式也不一样,成为一个个数据孤岛,这是一个严重的问题。另外,数据的拥有方与做数据分析的人,彼此之间存在鸿沟,数据如何能流通起来,数据开放中的隐私问题,数据交易中的价格问题等等都是瓶颈。

  我们国家目前最严重的问题是没有建立完善的大数据人才培养机制,学术界与企业界之间的人才竞争激烈,学术界高端人才流失严重。产业界能提供较高的薪酬和较好的研究环境,国内的百度、阿里巴巴、腾讯等就云集了一些很有实干精神的大数据人才,而高校还没有建立完整的制度和体系,这会带来人才造血功能的缺失,科研创新的源动力将会受到影响。

  北京大数据研究院支持北京大学建立了相对完整的大数据人才培养体系,招收本科生和研究生,课程体系和课程设计都很有特点,逐步解决人才缺失的问题。从学校培养出来的人才,不管是在高校,还是在业界,都是为社会服务。现在,我们正在牵头成立大数据教育联盟,帮助高校和其它机构,从低端到高端,去培养大数据产业链上的多方面人才。

  国内当前的人才评价体制也不利于年轻人的发展。大数据领域最活跃的是年轻人,现在国内对年轻人才评价的整个导向性存在问题,片面强调发表论文,对新的学科建设模式判断失误,我对此也很担忧。

  本刊记者:您为此做过哪些呼吁和提出过哪些建议?

  鄂维南:数据科学的研究既需要算法上的知识,也需要对统计的理解,以及一定的计算机知识,单一专业的人才很难满足数据科学的发展要求。早在2001年,我就向国家基金委等有关单位提过建议要加强对交叉学科人才的支持。很可惜,直到现在,我们国家的学术环境对交叉学科的人才仍然是极其不利的。

  本刊记者:您觉得中国大数据发展在商业模式上有什么新的趋势?

  鄂维南:新趋势是基于对行业的深度了解,对技术的掌握,再加上数据源的获取,这几个困难综合解决很不容易。最重要的就是社会上谁来买单,这是未来必须要解决的问题。大数据未来前途光明,希望少走弯路。

  注:北京大数据研究院傅毅明、张溥对本文亦有贡献。

首页投稿广告关于我们联系我们

版权:《高科技与产业化》编辑部版权所有 京ICP备12041800号

地址:北京市海淀区中关村北四环西路33号 邮编:100080

联系电话:(010)82626611-6618 传真:(010)82627674 联系邮箱:hitech@mail.las.ac.cn