站内检索

海量数据驱动下的智能运维
作者:陈军 梁玫娟 发表时间:2018年01月09日

海量数据驱动下的智能运维.pdf

 

  2017年12月9日,中共中央总书记习近平就实施国家大数据战略发表意见,强调实施国家大数据战略加快建设数字中国。他指出,要推动大数据技术产业创新发展,构建以数据为关键要素的数字经济,集中优势资源突破大数据核心技术,加快构建自主可控的大数据产业链、价值链和生态系统。

  随着IT技术的发展,我国的网络购物、移动支付、共享经济等数字经济新业态新模式蓬勃发展,走在了世界前列。早在2015年,《政府工作报告》即指出,要“制定‘互联网+’行动计划”,“促进互联网金融健康发展”,我国金融行业面临着用互联网和新技术重构业务、管理与IT的重大变革窗口,这既给传统金融行业带来了巨大的压力,又提供了广阔的发展空间,金融行业需要抓住机会技术升级、积极应变。

  传统金融行业的困境

  有别于其它行业,金融行业对业务的稳定性及安全性要求极高,加之金融行业IT起步发展较早,系统庞大而复杂,需要技术人员花费大量的时间和资源去监控、诊断和解决问题。公司处于被动的地位,这给金融IT运维带来了更多的压力。

  在IT系统中服务器、网络设备、传感器、操作系统、应用程序每时每刻都在产生时间序列机器数据。机器数据贯穿着整个金融业务系统的各处理环节,这些日志忠实地记录着设备运行及操作的相关信息。通过对业务系统各环节机器数据的分析,可以快速协助运维人员尽快故障定位,还能实时发现业务系统异常告警,同时还可以统计业务量、业务时延、业务成功率等指标。对于运维工作而言,日志是定位故障的关键。然而由于日志数量庞大、复杂难懂,一直难以利用。当前企业日志往往存在以下现状:

  日志分散难以管理

  日志产生于不同的业务部门、分布在不同的服务器上,无人重视随时可能被覆盖和删除。只有将这些分散的日志数据统收集、才能相互对照,发现问题所在。以投资银行为例,在传统模式下交易部门和研究部门的数据是相互独立,甚至数据的储存格式都不同,由此形成一个个信息孤岛,造成不同系统间关联分析困难、事故原因分析困难。

  缺乏海量日志处理能力

  数据体量大所带来的问题不仅仅是存储,更多的是庞大的数据无法使用。作为成熟的金融行业,随着网上支付、手机银行、互联网金融等新一代业务的出现,每天产生的各种业务数据、网络设备数据及防火墙数据等将轻松突破TB级别,传统的数据库及系统架构已经无法支撑如此庞大的数据量,传统方法处理效率低、时延长,企业完全淹没在一片数据汪洋之中。

  格式复杂难以解读

  就日志数据来说,最容易处理的是企业内部的传统数据——结构化数据。然而随着信息技术的飞速发展,日志数据的范围已经扩大到企业的各个层面,服务器、各种网络设备及五花八门的应用软件产生了多种多样的数据格式。这些数据的可读性很差,对于普通人来说无异于乱码,即便是专业的技术人员也很难一眼看懂一条数据,更无法进行日志业务逻辑分析和告警。

  使用成本高昂

  作为电子货币与交易信息传输系统,一旦出现账户盗用、虚假信息等现象,将既影响到国家金融与个人经济利益,又涉及到交易隐私的安全性,同时还增加了金融风险的传导与扩散危险。面对海量日志带来的运维难题,无论是购买国外最先进的产品还是聘请专业的技术团队对企业来说都是一笔不小的开支,需要花费大量的人力物力。

  智能运维之统一日志平台

  随着大数据及人工智能技术的发展,海量非结构化数据处理能力得到飞速提升,打造统一日志平台逐渐成为新的运维风向。AIOps(Algorithmic IT Operations)并不是一个全新的理念,而是IT运营分析和管理(ITOA/ITOM)体系与大数据和人工智能技术结合的产物。AIOps智能运维以ITOA/ITOM系统所采集的运维大数据为基础,利用人工智能和机器学习算法对运维数据进行深入分析,涵盖IT监控,应用性能管理、外网监控、日志分析,系统安全等方面。

  统一的日志管理平台可以帮助企业解决问题,提高运维效率,并能帮助企业将运营数据分析成报表,帮助金融企业从IT系统的行为、状态、配置、故障等事件中,自动产生趋势预判和商业洞察等,从而赢得快速发展的机会。据Gartner分析师预测,到了2019年,部署AIOps平台的大型企业数量将从如今的不足5%,迅速提升到25%左右。北京优特捷信息技术有限公司即是国内首家海量日志分析企业,所推出的日志产品——日志易,致力于为金融行业用户信息化建设搭建高可靠动力平台,竭力探寻金融行业对数据更深层次的需求,帮助企业降低业务流程和应用系统的开发和运维成本,实现准实时处理海量日志,从而达到大数据时代的风险管控与智能运维需求。

  统一采集,集中管理

  日志易为企业建立统一日志管理平台,将分散的日志统一采集,整个系统由多个模块构成,用户可以根据自身服务器资源、数据量、系统稳定性等因素自定义各个模块的节点组成,同时支持物理机和虚拟机混合部署,保证数据安全性。

  日志解析,让日志格式化

  日志易提供常见日志格式的自动解析,将非格式化日志转化为格式化日志。同时为用户提供交互友好的提取字段功能。用户可使用鼠标划选日志内容,系统将自动生成正则表达式。帮助用户将日志中的有效信息划分为一个个字段,方便查看和检索。

  日志易同时支持在数据接入存储之后,根据搜索统计需求,提取临时字段。并以这些临时字段进行后续统计分析。解决了数据预先处理的性能损耗、冗余字段的磁盘占用、提取规则变动时的重建处理等诸多常见问题。

  日志准实时检索,快速定位目标日志

  日志易日志处理速度达到3000k条/秒,总字节可达到100TB。日志易支持全文索引,用户无需掌握复杂的查询语句,可以像使用搜索引擎一样查询日志,通过鼠标点击实现字段过滤、时间范围选择和简单查询。系统采用分布式数据处理技术,可达到秒级延时。

  关联分析,探寻日志真相

  模块化、服务化的业务系统,需要进行跨主机、跨网络的事务追踪和故障定位。日志易支持SPL搜索处理语言(Search Processing Language),用户可搜索和自定义关联事务查询界面。快速直观的定位复杂网络和业务架构下的异常事务。

  根因分析是运维工作的主要内容,即收到报警后的排障工作。对于简单故障,在大规模的IT环境下,通常一个故障会触发大面积的告警发生。如果能从大面积的告警中,找到最紧迫最要紧的那个,肯定能大大的缩短故障恢复时间(MTTR)。这个故障定位的需求,通常被归类为根因分析(RCA,Root Cause Analysis)。当然,根因分析并不止故障定位一个用途,性能优化的过程通常也是RCA的一种。

  丰富的报表功能

  日志易对日志的分析统计结果提供了丰富多样的可视化效果,并支持用户将不同纬度的可视化效果汇聚成仪表盘,日志情况一目了然。同时系统提供灵活的报表功能,用户通过设置定时任务输出统计结果并通过邮件定期发送,能满足日报、周报、月报需求,充分替代巡检工作中的日志巡检部分。

  助力金融企业

  要让IT摆脱传统运维工作的束缚,就需要运用AIOps智能运维平台来有效承担基础运维的种种责任,改变过去人工为主,依赖经验的运维模式。尤其在新兴的互联网金融领域,大数据智能运维更是发挥了重要的作用。

  极大提高运维效率

  传统运维技术需要大量人工操作,通常排查一个问题需要花费一个有经验的运维技术人员数小时精力,而依靠大数据日志分析运维技术,可以实现实时检索,定制化告警达到秒级延时。这样就可以满足消费金融场景中,夜间快速运维工作的要求,也极大提升了用户体验。

  贯穿整个核心交易系统,实现可视化

  大数据日志分析技术改变了传统的数据使用模式,基于多种维度统计用户的访问习惯,用户的终端类型、访问时间、地理区域及运营商接入情况可以将互联网、金融机构、线下零售与社交、运营商等多维数据源相结合,对用户行为进行全方位画像,覆盖的维度广,并可将数据可视化,让企业更了解用户,有助于实现精准营销。

  合规审计

  利用大数据日志分析技术进行合规审计,可帮助企业灵活应对上级主管部门的合规性要求,将合规性管理工作由无序变有序,适时呈现企业的合规状态。

  通过在业务主机上安装轻量级的Agent,业务日志被实时的送到日志中心,即可真实还原业务的访问过程,精准分析业务流程的时延,同时识别基于业务逻辑的攻击行为,对不符合业务流程的访问行为进行提取。为工作人员提供清晰的可视化的业务分析报表和业务攻击告警,满足审计记录的规范化的需求。

  针对安全事件相关日志,如系统用户登陆日志、系统操作命令日志等,通过关键字段如根据源IP、目的IP、登录账号、关键操作等信息,能完全实现安全事件回溯。同时日志集中存储及归档索引满足日志审计(180天)需要。

  防止内外部的安全威胁

  采用大数据日志搜索分析技术,数据具有高安全性。用户行为的每条日志都会被详实记录,任意磁盘顺坏、机器宕机情况下,数据会自动复制修复。同时通过日志可以对内外部安全威胁进行扫描,形成外网攻击轨迹的安全态势分析报表。

  展望未来

  我国利用海量数据检索技术进行日志分析尚处于起步阶段,日志易作为国内最早涉足的企业也一直在用户授权、定制化应用等诸多方面努力探索。我们需要推动企业重视日志数据,部门间打破信息壁垒,开放共享数据。提供更加个性化、智能化的服务是众多机构的共同愿景。

  部门间数据开放

  当前信息孤岛的问题依然是金融企业大数据发展的巨大障碍,分割和垄断造成企业数据的系统性、权威性不强。大量有价值的数据掌握在少数部门,这些部门之间的数据和信息不公开、不流动,没有统一的信息共享平台,大量的信息被闲置,甚至重复统计。

  个人信息保护

  《征信业管理条例》规定:“采集个人信息应当经信息主体本人同意,未经本人同意不得采集。”这在传统风控模式中较容易实现,但对于利用大数据技术的企业来说,要想对大量来自于互联网的数据一一获得本人认可,在操作上是有困难的,这在一定程度上限制了大数据在金融行业的发展。而另一方面,当前我国对个人信息保护没有专门的立法,这使得真正滥用个人信息的机构得不到应有的监管和惩罚。因此,规范数据使用原则,是行业发展的迫切需求。

  机器学习

  随着系统规模和复杂度呈指数级增长,人工解决问题的能力不会有太大的变化。中大型企业中,通常都有几十个系统、上百个模块、几千个不同的日志文件,要求运维人员了解全部日志格式,配置解析规则,定义告警条件,是不可能完成的任务。要摆脱传统运维工作的束缚,就需要运用AIOps智能运维平台,借助智能算法的技术优势,使原先人工需要几个小时完成的任务通过自动化在几秒钟内完成,通过分析得到更准确的结果。

  服务更加个性化

  对于金融行业来说,不同的企业根据自身日志内容均有不同的需求,传统的银行、基金行业、电子支付企业也拥有各自独特的使用场景。只有更多的了解用户使用情况,才能更好地把握用户需求,目前日志易也在不断推出定制APP,为企业量身定做更完善的日志解决方案。

  作者单位:日志易

首页投稿广告关于我们联系我们

版权:《高科技与产业化》编辑部版权所有 京ICP备12041800号

地址:北京市海淀区中关村北四环西路33号 邮编:100080

联系电话:(010)82626611-6618 传真:(010)82627674 联系邮箱:hitech@mail.las.ac.cn