从Argo AI的倒下谈起

作者：匿名来源：系统运维点击数：485发布时间： 2022-11-30 12:09:20

　　AI必然给运维领域带来一些新的突破，自动驾驶将会在OPS领域更早的完成对传统运维的替代。我也是在2017年，被AIOPS概念的冲击下，决定从传统运维领域向AIOPS转型的。因为从2013年那次轰轰烈烈但是不甚成功的优化项目开始，我就对传统运维产生了一定的怀疑。

　　上星期发生了一件汽车圈里比较轰动的事情，那就是著名的独角兽公司argo AI宣布关闭业务了。这家前些年红得发紫的自动驾驶独角兽企业有福特、大众两家汽车业巨头的加持，最高时估值高安73亿美金，而且其领头大佬更是威名赫赫的Bryan Salesky和Peter Rander。从福田公司发布的公告上看，福田公司认为argo主要的业务方向是完全自主的自动驾驶，而从目前的情况来看，要再人流和车流涌动的现实世界实现完全自主的自动驾驶比登月还难。Argo实现营业目标遥遥无期，福田目前更需要的是能够直接产生商用收益的L2/L3级别的智能辅助技术，而不是完全自主的L4或者更高级别的自动驾驶。

　　Argo的倒闭有点突然，不过在IT圈里没有太多人关注。实际上Argo的问题，会给IT圈里的创新领域一些警示。前些年AIOPS概念盛行的时候，IT圈里也有一些类似的狂热，认为用AI解决运维中的难题的时代到来了。AI必然给运维领域带来一些新的突破，自动驾驶将会在OPS领域更早的完成对传统运维的替代。我也是在2017年，被AIOPS概念的冲击下，决定从传统运维领域向AIOPS转型的。因为从2013年那次轰轰烈烈但是不甚成功的优化项目开始，我就对传统运维产生了一定的怀疑。

　　当时我负责一个大企业全国二十多个省的一个大型系统优化项目，项目投资高达数千万元。在此之前，我们在几个试点省份都取得了不错的效果。在一个省的核心业务系统优化中，因为优化效果十分明显，该省在项目验收会上认为原本计划3500元升级硬件的项目不再需要了，优化后的系统的原有硬件继续用5年不成问题。

　　不过项目推广开来之后，问题就层出不穷了。虽然我们事先针对前期的时点项目进行了深度的总结，列出了一些最佳实践，设计了数据采集、巡检报告、诊断分析报告、优化实施方案等的标准化文档。但是为了按期完成项目，我们还是不得不在每个省都派出了工作小组。而这些小组中的人员的技术水平参差不齐，有些人甚至从来没有做过优化项目。虽然我们也将有经验的专家设置为区域支撑人员，不陷入某个具体项目，用于支持全局，但是效果依然不够理想。

　　事后总结的时候，大家都认为项目做的不好的主要原因是专家不够用，完全依靠人的能力的项目是很难大规模复制的。因此在2017年我们选择进入AIOPS这个领域，实现未了的愿望。在技术选择上，我们自然而然的选择了完全自动驾驶这个技术路线。在2017年的一个活动上，我向来宾展示了我们系统的构想模型。我们选择了和高校合作的模式来解决在领域技术能力不足的问题，确实很快就找到了大致的发展方向。只不过做了一段时间后我们发现实验室的理论效果在实际应用环境中总是脱节的。完全自动驾驶在实验室似乎是行得通的，而实战的效果往往不如人意。

　　在一个用户那边，领导看了我们的系统和我做了一次沟通。他的话让我重新认识了我们目前在做的工作。他说我们目前的运维自动化水平还较低，实际上我们是需要自动化驾驶的，不过我觉得自动化驾驶不是一下子就能搞成的，因为任何一次误判都是灾难性的，无法承受的。既然如此，我们为什么不先搞一些半自动化的，辅助性的工具呢?有些判断做的不准，那么也没关系，不是有你们这些老专家吗?大不了我现场生成一份报告，让你们的专家帮我们分析不就行了，为什么非死磕自动驾驶呢?再说你们公司的优势是有那么强的专家队伍，而不是搞算法的人，现在这个搞法，把你们的优势就完全丢了。

　　那位领导虽然不是DBA出身，不过他看问题看得很透测。以目前的技术能力，要想绝对准确的预测或者定位一个复杂的问题，技术能力的覆盖还很不全面。我们目前做的所有的分析，诊断和预测仅仅是利用数学计算发现了一个异常而已。这个异常在ITOM里仅仅算是一个事件，而是不是一个确定的问题。事件上升为问题，要么依靠准确的模型计算，要么就要依靠人工确认。

　　实际上现在能够通过模型和算法完全确认的事件还比较少，特别是想要做成一个通用产品，难度还是很大。哪怕是一个IO延时过高的问题，这到底会引发什么样的问题?会不会引发问题?为什么同一个系统，有时候IO延时高达100ms了，系统啥事没有，有时候50ms系统就挂了?当模型和算法的能力还没有达到一定水平的时候，我们还无法向用户保证，你可以先睡一会，AIOPS来开车，保证不出车祸。那么我们完全可以通过算法和模型来降低人工分析的工作量，用AIOPS来辅助提高运维的生产力。

　　前阵子我们的系统在一个客户那里做POC，跑了一段时间后，对接入的近30套系统做了一个自动化巡检。把巡检报告下载下来后，专家在远程花了近一天时间帮用户查看了这些巡检报告，发现各类问题200多个，其中有二十几个还是高风险的问题，在分析问题时，完全依靠的就是远程生成的报告，并没有再去系统上做任何采集和确认。用户看到分析报告后也觉得这种模式可以大大提高运维分析的生产效率，让巡检工作从一个不得不做的鸡肋变成真正的能够帮助自己实现常态化优化的生产力工具。

　　远程巡检让我们看到了把巡检工作实用化的希望，不过通过这次远程巡检分析，我们也发现了目前巡检报告中的一些不足，很多时候，我们看到的是结论，而缺失了数据的罗列和数据的对比分析。这些诊断报告中的结论是否准确，是否合理，还是要打一些问号的。在全面自动化驾驶的技术条件还不具备的时候，辅助驾驶还是需要向使用者提供更多的反馈现实状态的界面。在开车时，我不太喜欢使用自动辅助停车就是这个原因，虽然每次车停的都比我好，但是停车过程中那种人无法把控车辆的感觉十分的令人不爽。

　　回到Argo AI的倒下这个事件，我觉得福特做出了一个正确的决定。在未来5年内看不到自动驾驶能获得实际成功的情况下，把重点放在已经能够为用户带来更好驾驶体验的辅助驾驶领域，是比较现实的做法。在AIOPS领域是不是也应该做一些思考，当真正实用的全自动化无法实现的时候，先帮助运维人员降低采集、分析、汇总数据的工作量，做好智能辅助，是不是更有价值呢?

　　来源：白鳝的洞穴

　　>>>>>>点击进入系统运维专题

踩(0)

分享到：

上一篇：Linux运维之json文件操作

下一篇：人工智能里装了4亿篇新闻