站内检索

英特尔:开启大数据智慧之门
作者:苗凯翔 发表时间:2014年08月26日

 

  当下的数字世界里,数据量以每两年翻番的速度不断增长。据IDC预测,2012年全球数字数据量达到了2.72ZB,而2015年将达到8ZB。中国在经济腾飞的同时,也迎来了海量的数据激增。从2012年6月的统计来看,中国有近3.9亿移动用户,5.3亿互联网用户,因此在一个比较典型的智慧城市中,每个季度就能产生近200PB视频数据,相当于100万个200G的笔记本电脑所能存储的内容。

  可以想见,在接下来的几年中,会有更多的用户将通过更多种类、更加智能的设备连接至互联网,并产生更大规模的数据。所有这些数据都具有巨大的潜在价值,而能够高效识别、获取、过滤、分析并利用有效数据的企业,也将获取强大的业务优势。

  大数据的价值

  希望掌控信息流的企业必须解决三大挑战:数据的爆炸式增长,需要实时分析这些海量增长的数据,以及需要为整个价值链中的用户交付分析结果和应用。

  简单来说,目前很多数据集在容量上已经超出了传统关系型数据库管理系统(RDBMS)的管理能力。为了管理“大数据”,类似Hadoop这样的新技术和解决方案应运而生。另一方面,实时的数据分析将在关键业务和在线交易等业务中取代传统的数据分析。而如何越来越精确、快速的分析大量的数据,并即时得出趋势和分析结果,则极大地考验了数据系统的架构和效率。

  从更宏观的角度来说,大数据分析是一项技术推动的战略,旨在获得更加丰富、深入和更加准确的客户、合作伙伴以及商业洞察,并最终获得竞争优势。通过处理稳定的实时数据流,与以往相比,可更加快速地作出那些对时间敏感的决策、监控最新趋势、快速调整方向并抓住新的商机。它和传统数据库有着如下的区别:

  由于传统数据库在设计之初的目的并不是实时分析,因此业内逐渐出现了若干种新型的数据管理和分析技术。Hadoop开源框架使用一个简单的编程模型,是目前最具影响力和广泛被采用的技术之一。它除了可以支持在计算集群上对大数据集进行分布式处理,还能比传统方法更为经济高效地处理大型的、复杂的或非结构化的数据集,可带来出色的可扩展性与速度。

  英特尔Hadoop发行版的优势

  Hadoop的优势主要源自三个方面:HDFS分布式文件系统所带来的高可扩展性、高度容错和高吞吐量的访问速度;MapReduce分布式计算框架则为Hadoop带来了海量数据的并行分析和处理能力;HBase分布式数据库则可实现真正的线性扩展,拥有极高的可用性。

  但是对于企业用户来说,基于开源社区的Hadoop版本在使用时不得不自己解决系统一致性、安装维护、管理监控等,并且需要自己解决和修补开源版本中存在的软件缺陷,这样的要求使得企业用户在使用Hadoop中遇到重重障碍。

  针对企业用户的需要,英特尔推出的Hadoop发行版产品是一个稳定高效的版本,并经过了众多实际项目在线使用的验证。其优势主要有三点:一是它与其他版本的Hadoop一样,能够为海量数据的存储、管理和处理提供灵活的支持;二是它相比于其他版本Hadoop针对英特尔架构硬件平台做了更多的优化;第三点就是英特尔基于开放的理念,可以为采用它的合作伙伴或用户提供全面的技术支持与服务,而且在英特尔这个开放的平台之上,合作伙伴和用户也可以更加自如地融入自己的创新。

  英特尔还提供全面的产品技术支持和顾问服务,使得企业用户在系统规划、设计、实施和运行时都能得到专业及时的专业服务。从行业来看,英特尔Hadoop发行版能为通讯,商务,医疗,制造业等不同领域不断增长的数据处理需求提供稳定高效的技术支持。

  让“平安城市”走向智能化

  “平安城市”对建立和谐社会具有积极的作用,也是近一段时间来各地政府的主要民生工程之一。在此领域,英特尔与诸如博康、海康威视等众多国内顶尖的合作伙伴紧密合作,共同致力于“平安城市”的建设,并已经初具规模。例如,海康威视就率先引入并采用了英特尔Hadoop发行版作为其大数据处理的主要平台。海康威视副总裁兼首席技术官蒋海青表示:“现在视频监控所采集的视频质量也从标清进步到了高清的时代,因此一个大型‘平安城市’项目所产生的数据信息量是非常巨大的。”另一方面,传统的视频监控通常都需要人工监控,而人对视频的有效监控只有20分钟(之后注意力就下降了)。

  因此,使用大数据系统实时处理海量数据,分析成千上万个视频接入点的高清视频,为公安、交通提供业务信息,就成为了不可缺少的核心技术。“我们也曾经想过用原有的关系型数据库来承载相关的数据和应用,但是关系型数据库已经没有办法支持海量的、而且是非结构化或半结构的数据。”蒋海青称,经过认真的评估与测试,海康威视最终选择了英特尔的大数据平台,而其核心就是具备大数据组织与管理功能的英特尔发行版Hadoop。

  海康威视认为应用端需要的采集点很多、视频通道非常大,因此“处理平台不能是全集中式也不可能是全分布式,而应该是两者的结合”,而Hadoop的灵活性对此非常适用;又如海康威视要在Hadoop的数据管理和组织层上加入用于视频数据的图像处理、分析、分类技术,基于语义的分布式视频搜索技术来对它们进行挖掘,英特尔的开放平台也提供了充足的创新空间。

  在这些成熟条件的推动下,海康威视基于英特尔发行版Hadoop,并融合可以灵活按需调配IT资源对应用和服务进行支持的开放架构云计算技术,打造出了视频智能云计算方案。该方案目前已在某些城市的智能交通监控领域得到了应用,它不但可以掌控城市交通摄像头覆盖区域中任一车辆的行驶状态、运行轨迹,分析出其是否违章行为或有潜在犯罪可能性,而且还能对海量交通信息进行比对、分析和预测,实现车辆布控、拥堵状态服务、出行最优路径规划、交通管理服务等功能。

  为用户提供账单实时查询

  随着3G的普及,移动设备和APP的广泛应用使得中国通信服务经历了爆炸式的增长,竞争也日益激烈。对于中国移动广东公司来说更是如此,其项目经理唐辉表示,中国移动广东公司将运营支撑系统和客户服务总体上作为提供差异化服务的一个关键资产。在这个系统中,详单查询系统组件为结算支持人员提供了一个最重要的客户接触点。

  而这一系统提供的实时查询功能则对后端数据库系统带来了极大的挑战。在详细对比了基于传统RISC小型机的MPP数据库技术和基于英特尔至强平台的Hadoop之后,中国移动广东公司发现在总体成本上,传统MPP为57000美元/TB数据,而Hadoop大数据只有不到1000美元/TB。但是另一方面,Hadoop对于企业的二次开发定制能力要求很高,中国移动广东公司对于自己来调优、修改、部署和支持Hadoop心存疑虑,因此英特尔Hadoop发行版就成了他们的上上之选。中国移动广东公司发现英特尔Hadoop发行版性能比以往提升明显,HBase的“无共享”框架消除了数据库文件访问带宽和联锁的瓶颈。数据库访问吞吐量增加了几倍甚至几百倍,从而带来非常高的数据吞吐量。中国移动广东公司的账单明细检索查询速度是300000份账单/秒,插入速度是800000份账单/秒。该系统目前每月无缝处理30TB的用户计费数据,每个表支持数十亿份账单。查询性能提高了30倍,从而大大提高了新系统的处理性能,即使是有数百万用户的查询系统。

  此外,中国移动广东公司能够利用存储在HBase中的大量电话详单进行情报分析。由此产生的商业情报来源于15个初步分析数据查询,覆盖网络规划/运营、服务保证、计费、营销、收入保障和客户管理。他们结合实时和非实时数据汇合、提取、分析挖掘和报告,从了解客户行为得出非常有用的结论。例如,他们可以分析用户使用情况数据,结合人口分布情况细分客户,以提供个性化的服务建议并为更高端客户提供新产品。同样,他们可以主动监测网络使用情况,发现性能瓶颈,确定哪些网站与用户产生的数据收费最高。

  开启大数据智慧之门

  可以看出,在应对海量数据压力和实时分析的需求时,用户不可避免地需要突破传统数据库架构,乃至软硬件的束缚,寻求新的解决方案。而英特尔平台的开放架构以及Hadoop发行版提供了可靠的大数据方案,减少了用户二次开发和调优的人力成本。

  通过在不同行业的测试和验证,英特尔Hadoop发行版针对很多现有客户的实际问题做了大量改进和优化,弥补了开源Hadoop的不足,保证了业务的上线时间,也简化了维护的成本。而英特尔提供的集群管理工具和安装工具则简化了Hadoop的安装和配置,并能根据用户的硬件环境自动生成最优化的集群配置,真正为客户开启大数据的智慧之门。

  作者单位:英特尔数据中心软件部

首页投稿广告关于我们联系我们

版权:《高科技与产业化》编辑部版权所有 京ICP备12041800号

地址:北京市海淀区中关村北四环西路33号 邮编:100080

联系电话:(010)82626611-6618 传真:(010)82627674 联系邮箱:hitech@mail.las.ac.cn