专家观点|擎创科技杨辰:企业数字化转型与“智能”运维( 三 )

  在传统运维向智能化转型的过程中 , 可以从两个维度来设计其演进的路线 。 横向看是数据类别维度 , 运维数据主要分为告警、指标和日志三类 , 日志的量最大 。 这三类数据占到运维数据的80%以上 , 其他运维数据如配置关系、工单和业务数据等 , 也有一定的参考价值 。 而从纵向来看 , 则是对数据处理和分析的能力维度 , 智能运维的本质就是逐步提升对运维数据的分析处理能力 。


专家观点|擎创科技杨辰:企业数字化转型与“智能”运维

----专家观点|擎创科技杨辰:企业数字化转型与“智能”运维//----

  因此要谈到最佳实践 , 对于运维成熟度度高的的企业 , 可以按照数据处理能力的维度 , 统一规划、分层实施 , 实现从运维数据局部集中到跨域集中 , 也就是先建立运维大数据平台 , 通过加强数据治理、优化数据质量 , 而后再过渡到基于算法的统计分析乃至流式实时处理 , 构建多样化智能运维场景 , 逐层实现智能运维能力建设 。 但这种方式并非放之四海而皆准 , 对于成熟度不高的企业 , 迫切需要解决的是实际运维问题 , 而智能运维这时应该能成为解决实际问题的工具 , 它可以根据客户当前的运维成熟度选择具体应用场景 , 按照不同的路线图进行建设 , 这才是智能运维的应有的能力 。

  例如一家城市商业银行 , 它目前最大的问题可能只是监控效能低下 , 误报漏报多 , 我们可以先从集中告警入手 , 利用算法去重降噪 , 再查看相关告警之间的有效告警场景 , 筛选出最可能影响业务问题的告警 。 在提高告警处理效率后 , 再通过分析告警的源头 , 进一步解决监控指标静态阈值设定不准确的问题 , 用智能异常检测替代之 , 从而根本上提升监控效能 。 这就是场景化方式导入智能运维的方法 。

  困惑三:已经建设了大数据平台还需要建设专门的运维大数据平台吗?

  智能运维能力依赖于运维数据的处理分析能力 , 因此运维大数据平台的建立和通过数据治理提高数据质量非常重要 , 它是构建相应的智能运维场景的基础 。 运维数据的处理分析由于有其特殊的要求 , 不仅仅是数据规模大 , 而且数据处理的时效性要求极高 , 这是因为许多运维数据需要在高速流引擎中进行复杂的聚合、计算、判断比较等操作以满足机器学习算法要求 , 这也是运维工作场景的特色 , 那就是必须“快” , 否则一旦故障发生久了 , 一切就都失去了分析意义 。

  而传统为业务构建的大数据平台 , 主要用于存储和分析数据 , 这种分析往往是离线数据的历史分析 , 对时效性要求不高 , 因此不具备支撑智能运维的能力 。

  因此运维大数据应该考虑独立建设 , 但可以将基于HDFS的Hadoop架构大数据平台作为归档的数据平台 , 比如运维数据里应该根据分析效能分类为冷、温、热数据 , 其中具备长期检索价值但没有短期分析意义的冷数据 , 可以归档到Hadoop集群中 , 这就要求运维数据平台的架构设计要考虑其开放性 。

  困惑四:建设智能运维必须先完成运维自动化建设?


专家观点|擎创科技杨辰:企业数字化转型与“智能”运维