再获认可!aiops 轻松提高桌面云运维效率-凯发登录

凯发登录-凯发注册网站
新闻中心
新闻中心  >  再获认可!aiops 轻松提高桌面云运维效率
再获认可!aiops 轻松提高桌面云运维效率
2022-12-12 11:38:06
点赞
分享

11月16日,ofweek第七届人工智能产业大会暨行业年度颁奖典礼在深圳举办。深信服aiops技术凭借在人工智能领域的实力和优势,获得维科杯 · ofweek 2022 人工智能行业“技术突破奖”。当天,深信服高级研发技术专家易佳受邀出席大会,发表《桌面云场景下的aiops技术实践》的演讲,介绍了桌面云运维遇到的挑战,以及如何利用aiops简化桌面云运维等内容。



桌面云运维面临诸多挑战 

近年来,桌面云为数字化办公提供了有力支撑。与此同时,桌面云也容易面临第三方软件兼容性、蓝屏、木马、应用卡慢、响应延迟等问题,这些问题的背后暴露出来的可能是私有云资源不足、硬件故障难以定位、网络故障等深层次问题。

为此,深信服提出了aiops 智能运维一体化技术方案。该方案通过采集桌面云的日志、链路和指标数据,执行故障预测、异常检测、关联推理等算法,为用户提供智能分析服务。


“aiops的数据采集引擎基于golang实现了插件化探针,支持采集windows、linux、docker等多类指标数据,可以跨平台、多应用地进行动态采集,也支持prometheus协议和导出,在数据采集上实现了高效和可扩展。”易佳补充。


历经三次迭代,打造更优运维体验

易佳介绍,随着用户诉求和用户体量的的不断变化,深信服aiops数据模型与ai框架演进了三个版本。


第一个版本适用于小规模用户,是一套轻量级监控分析系统,支持时序数据、告警数据、统计分析和容器化部署,也支持主机、虚拟机数据采集做简单ai分析,但是db/存储与业务耦合严重,算法效果难保障,难以支撑大规模虚拟机接入。


第二个版本是轻量级aiops引擎,支持openapi和数据统一调度,引入缓存机制,实现了存算分离。但openapi、requests handler和prometheus容易遇到瓶颈,导致体验欠佳。

从第三个版本开始,深信服打造了全栈的aiops引擎。在该版本中,面对数据上报的性能瓶颈问题,抽象数据接口,实现requests handler负载均衡;其次是设计了投递分级,内存磁盘双对列的模式,为低优先级数据设立单独通路,可以优先保障高优先级数据入库;同时,设计了多级分表优化了数据结构,这样可以保留横向扩展能力。


另外,为了平衡实时性与准确度,减少重复数据,aiops可以按采集指标区分不同采集周期,例如设定10s采集一次cpu,20s采集一次memory;服务器型号、磁盘大小等静态数据尽量只采集一次。


最后,针对多维异构数据进行了冷热分层处理,冷数据存档供ai离线分析和模型训练,热数据实时监控和展示。


在ai算法方面,易佳介绍,“桌面云aiops算法包括基于bagging策略的分段线性回归算法、基于网格搜索的缩扩容模型、基于资源约束算法和贪心策略的虚拟机新增模型、基于时间序列特征提取和随机森林的闲置资源识别模型等”,基于这些算法,最终形成了包含aiops算法、ai调度决策、openapi、数据管理、服务化等功能在内的aiops基础结构。


aiops 实践与落地效果

易佳表示,aiops可以快速识别出卡慢故障等异常问题。通过引入50多个规则、采集800多个维度数据,实现20多个机器学习算法,诊断出30 核心卡慢场景。aiops的监测分析能力已经能够全方位地支撑大盘、集群、主机、虚拟机、网络、存储、应用软件全栈监控与分析。

在算法效果上,桌面云卡慢/故障异常检测准确率达到87%。实施卡慢缓解建议后,约有47%的问题能够得到明显缓解,aiops的智能诊断能力,可以覆盖桌面云65%的已知资源卡慢问题。

易佳最后总结,aiops未来会增加更多的反馈和模型的自更新机制实现多业务场景的覆盖。同时,基于业务画像和运维知识图谱,实现精细化故障诊断,打造让用户满意的产品体验。

网站地图