华为AIOps服务让运维不再成为电信业痛点
“5G新基建”加速实施,为数字经济发展注入新动能,不仅推动投资消费的快速成长,还将驱动千行百业的数字化转型升级。但凡事都有两面性,网络问题复杂化与业务质量高要求的挑战也随之而来,运维能力的演进成为电信网络能否持续发挥效能的关键因素。
在运维中引入AI,基于算法和机器学习的智能运维(AIOps)被公认为是一个行之有效的解决途径。2019年4月,华为正式发布iMaster NAIE网络AI云服务,成为网络智能化战略实施的重要里程碑,AIOps使能服务正是其中的核心组成。那么它拥有哪些核心价值,又如何破解电信网络运维痛点?在华为全联接2020的一场媒体圆桌上,华为网络人工智能(NAIE)产品部首席技术官程磊作出了精彩解读。
“引入AI并不意味着抛弃原有的规则。华为兼具电信和AI两方面视野,因此我们的AIOps服务能力是与电信作业系统、运维流程、专家经验紧密结合在一起形成的,从而更精准地定位、更有效地解决电信领域的运维问题。”他这样说道。
AIOps成电信行业智能化方向
在互联网、移动互联网以及层出不穷的APP改变世人生活、工作方式的背后,很大程度上得益于运营商们数十年来不懈努力、大力投入所兴建的连接与覆盖全球的电信网络。
随着数字经济成为经济增长的主旋律、数字转型的需求不断涌现,电信网络上承载的业务与应用越来越多,网络规模和复杂度也迅速攀升。特别是5G到来后,一些运营商甚至出现了2G/3G/4G/5G“四世同堂”的现象,带来了巨大的运维管理挑战。另一方面,OPEX的持续高涨也是运营商们不得不面对的难题,这意味着单纯降低设备成本已经不能改善其成本结构。
程磊指出,电信网络运维普遍存在被动式运维、故障解决困难以及运维系统割裂、自动化程度低等痛点。他引用Gartner的调查发现称,37%的网络故障是由于网络变更造成的,当前网络结构越来越复杂,网络的运维管理已远远超过人的能力;75%的网络问题都是被最终使用者感知和发现,并通过投诉向运营商反馈问题,客户体验和满意度很难得到保证;运维人员90%的时间都用来识别发现故障的原因。与此同时,各专业运维支撑系统功能也面临开发周期长、闭环流程自动化程度低的技术瓶颈。对此,运营商期望引入AI、大数据分析等技术,实现智能运维,做到主动维护和故障“自愈”。
Tractica/Ovum预测,到2025年,全球电信业对AI软件、硬件和服务的投资将达380亿美元,成为最大的AI应用市场。其中,网络/IT运营监控和管理将成为电信业最大的AI应用场景,2018-2025年累计投入达到183亿美元,占期间电信AI软件支出的44%。AIOps平台能力的构建,已经成为电信行业智能化演进的一大趋势和主要方向。
华为AIOps服务四大核心价值
作为近年来被通信、IT、云服务厂商们竞相追逐的热点,AIOps在电信领域的落地关键在于行业知识与AI技术的深度融合。在这方面,既拥有30余年的专业积累,又具备全栈全场景AI能力的华为无疑优势显著。
据程磊介绍,华为AIOps使能服务作为自动驾驶网络AI引擎NAIE的核心能力,基于AI平台,提供了一系列电信领域AIOps原子能力以及组合编排能力,使能网络管控析单元、智能运维解决方案等运维系统,最终帮助运营商打破原有的烟囱式建设方式,将各专业运维系统的应用与AI能力解耦,采用分层的服务化架构对接共享数据中心,集中提供AIOps能力,适配运维场景应用百花齐放的需求。
具体而言,华为AIOps使能服务拥有四大核心价值。首先是AI原子能力,它提供丰富的AIOps原子能力,覆盖运维全流程,包括预测,检测、定位、执行等多个环节。原子能力库支持流量预测、KPI异常检测、日志异常检测、CHR异常检测、异常关联分析、事件聚合、根因定位等20多类原子能力。
其次是编排与DevOps能力,使用者可零编码定制场景组合应用,实现数据源类型、处理流程、模型参数,通知方式、视图呈现等灵活配置,并主动预防潜在的网络问题。同时,可对确定的问题事件进行端到端配置,实现智能化和自动化。此外,基于NAIE AI训练平台,支持使用者的AI原子能力创新,不断扩展AIOps能力。
第三是电信领域数据对接能力,支持日志、告警、KPI 、xDR等电信领域主流运维数据,支持Kafka、数据库、文件系统、Restful等电信运维系统的主流数据对接方式。华为AIOps使能服务提供通用的数据源对接和标准化数据治理组件,通过配置项快速建立与运维系统的数据源连接,通过SDK将不同的数据类型和格式治理成标准化的AIOps原子能力输入集,用于模型训练和推理。
最后是场景组合服务能力,围绕运维全流程(发现、分析、处理)提供预制典型场景组合应用,快速接入运维流程。程磊表示,华为的AIOps能力可以通过多种形式被调用,比如作为云服务在云端由NAIE平台提供、将平台能力集成到智能运维解决方案中,抑或将AIOps特性内置到设备管控单元中。
助力打造最佳实践
在采访中,程磊还分享了一系列AIOps使能服务助力运营商、企业打造最佳实践的成功故事。
第一个案例是KPI异常检测。电信网络中,通过KPI来预测和检测网络问题是最普遍的场景,利用AI算法基于历史数据自动生成每个KPI的动态门限,可有效避免传统静态门限带来的误报和漏报。NAIE融合了电信领域的运维业务特点,提供单指标/多指标检测、异常原因关联分析、模型的自学习调优等关键能力。国内某运营商采用了核心网KPI异常检测服务以后,实现提前5小时发现故障并主动预警,降低了业务损失,保障四地市用户业务体验。
第二个案例是告警根因定位。发现异常或者故障之后的定位是运维流程中的难点,如何准确地将多维度的异常、告警等事件进行汇聚,减少故障噪声?如何准确定位到具体原因?这些工作目前主要依赖专家经验或者手工分析,而且受限于分析算力和支知识信息,效果并不好。NAIE AIOps通过AI算法,支持多类异常/告警等事件的智能故障定位,自动实现时间、拓扑和故障传播图等维度的事件汇集和根因定位,去除重复无效工单,在提升运维效率的同时也降低了运维成本。华为以此帮助某能源企业实现分钟级故障根因定位和分析,提升网络运维效率4-5倍。
经过一年左右的发展,华为AIOps使能服务目前已经30余张现网中得到了规模应用,覆盖了无线接入、核心网、数据通信等六大网络领域,管理着5万多个KPI,API调用每月高达3.3亿次,每天处理25万次告警,累计处理了187亿条日志。既懂电信、又懂AI,相信在华为AIOps四大核心能力的助力下,网络运维管理将不再成为电信行业痛点。
作者:蒋均牧来源:C114通信网