智能运维的正确姿势：从临场救火到淡然饮茶

发布时间：2021-02-22 15:01:11 所属栏目：传媒来源：互联网

导读：关于这两者，我们通常会将智能运维与通用人工智能拿来类比，此智能更倾向于事先预测，即了解错误数据马上会引发重要故障时采取有效措施避免或者减弱影响。而针对这类预测性动作所涉及的数据处理，也正好发挥了机器学习处理海量、高速以及多样数据并带来高价

关于这两者，我们通常会将智能运维与通用人工智能拿来类比，“此智能”更倾向于事先预测，即了解错误数据马上会引发重要故障时采取有效措施避免或者减弱影响。

而针对这类预测性动作所涉及的数据处理，也正好发挥了机器学习处理海量、高速以及多样数据并带来高价值的专长。

如果从全球范围内AIOps产品的技术侧重点来分析的话，无外乎两种，即侧重AI方向与偏Ops一些。

很容易理解第一种。无非是将数据放入具体场景中测试判断AI技术是否可以更好的解决实际问题，在算法实验的过程中挑选合适的采用即可。

相比第一种，第二种则需要在整体的运维流程中预先判断瓶颈障碍，进而得出AI 技术是否可以将问题解决，可见这都不是两者单纯相加那么容易。

说完技术点再聊聊数据。

换个探讨角度，从运维数据出发，例如对于常规的硬件设备，包括开源基础软件在内，日志数据应该是最能展现当时其运行状态。

常见的关键词warning、 error、critical 等或多或少都可以反映出平常不太留意甚至少见的系统情况，进而发现潜在问题。

但如今现实中很多用户的运维业务与系统中的代码并不都是自己的研发人员写成的，更多的外采设备如果出现问题并不能及时得到解决，造成了“日志到手绝非想用就用”的状态，肿么办？

一般在这种不知道具体源码的情况下，通常利用无监督聚类的方式完成反向推导，就可大致获悉日志在实际中的代码操作情况，尽管不能做到百分百还原，但也会最大限度预测出发展逻辑，只需目标明确再加额外关注即可在故障预判中做到事半功倍。

目前无论是智能运维中的监控指标还是在日志分析，运用AI技术最简单的方法就是使用一些非监督学习的算法，例如聚类算法，即Cluster Analysis，也被称为群集分析（将相似对象通过静态分类的方法分成不同的组别或者更多的子集（subset），这样让在同一个子集中的成员对象都有相似的一些属性。）

（编辑：怀化站长网）

【声明】本站内容均来自网络，其相关言论仅代表作者个人观点，不代表本站立场。若无意侵犯到您的权利，请及时与联系站长删除相关内容!