導(dǎo)讀:隨著無線網(wǎng)絡(luò)的發(fā)展和5G的興起,網(wǎng)絡(luò)變得更加復(fù)雜,中興通訊不斷同運(yùn)營商加強(qiáng)合作,加速網(wǎng)絡(luò)智化技術(shù)創(chuàng)新和成果轉(zhuǎn)化,通過網(wǎng)絡(luò)進(jìn)化、運(yùn)維進(jìn)化、運(yùn)營進(jìn)化三大進(jìn)化助力運(yùn)營商開源節(jié)流、提升效率,助力網(wǎng)絡(luò)智能化轉(zhuǎn)型。
無線網(wǎng)絡(luò)關(guān)鍵性能指標(biāo)(KPI)就猶如一把懸空之劍,讓無數(shù)運(yùn)維人和網(wǎng)優(yōu)人為之費(fèi)心勞神、殫精竭慮。KPI異動往往預(yù)示著網(wǎng)絡(luò)某個(gè)層面出現(xiàn)問題,就好像我們?nèi)祟惓霈F(xiàn)發(fā)燒,往往可能是身體某處出現(xiàn)炎癥一樣。作為“網(wǎng)絡(luò)醫(yī)生”的運(yùn)維網(wǎng)優(yōu)人,每天面對成百上千KPI變化和大大小小的告警處理,很多時(shí)候疲于奔命,對KPI監(jiān)控?zé)o法做到精確化和快速化,經(jīng)常等到用戶投訴了才發(fā)現(xiàn)KPI的異常,才啟動處理流程,十分被動。出現(xiàn)這種情況,非運(yùn)維網(wǎng)優(yōu)專家不為也,很多時(shí)候是真不能也。比如傳統(tǒng)KPI監(jiān)控只能設(shè)置靜態(tài)閾值,難以根據(jù)區(qū)域/場景以及時(shí)間段的不同差異進(jìn)行區(qū)分,網(wǎng)絡(luò)指標(biāo)異動容易被波動淹沒,人工統(tǒng)計(jì)KPI很難判斷,即使發(fā)現(xiàn)問題,再“望、聞、問、切”,逐步定位病根,給出藥方,這周期難免較長,而且對技術(shù)人員的技能要求也很高(“老專家”凸顯價(jià)值?。∽匀?,我們希望有個(gè)系統(tǒng)能實(shí)時(shí)監(jiān)控網(wǎng)絡(luò)KPI,對指標(biāo)異動自動識別并定位引起異動的根因,那面對復(fù)雜網(wǎng)絡(luò)也能應(yīng)對自如了。
中興無線智能運(yùn)維系統(tǒng)借助AI人工智能,通過機(jī)器學(xué)習(xí)(ML:Machine Learning)和專家規(guī)則相結(jié)合來實(shí)現(xiàn)無線網(wǎng)絡(luò)KPI的異常檢測和故障診斷的自動化,相當(dāng)于一個(gè)24小時(shí)運(yùn)行的“網(wǎng)絡(luò)健康監(jiān)測和診斷儀”,為網(wǎng)絡(luò)醫(yī)生們提供分析數(shù)據(jù)和根因診斷。
要想解決問題,先要能發(fā)現(xiàn)問題。無線網(wǎng)絡(luò)KPI隨著網(wǎng)絡(luò)制式及規(guī)模增長,應(yīng)用場景差異及話務(wù)潮汐變化等,數(shù)據(jù)量變得非常龐大,在海量數(shù)據(jù)中及時(shí)發(fā)現(xiàn)KPI是正常波動還是異常變化,即使對“老專家”來說,也是一個(gè)艱巨的挑戰(zhàn)。為降低各種KPI綜合建模的難度,系統(tǒng)引入了基于結(jié)構(gòu)特征的時(shí)間序列聚類方法。先通過傅立葉變換,將時(shí)間序列分為兩大類,重要周期性和非重要周期性,再基于KPI序列中提取的數(shù)個(gè)特征,采用k均值算法對每個(gè)主類別中的時(shí)間序列進(jìn)行聚類。KPI分類完成后,系統(tǒng)為每個(gè)KPI類別選擇適當(dāng)?shù)臅r(shí)間序列模型,預(yù)測KPI在下個(gè)時(shí)間粒度的正?;€,如果網(wǎng)絡(luò)KPI實(shí)時(shí)測量值超過了在線檢測的基線,能夠在首個(gè)時(shí)間粒度內(nèi)及時(shí)發(fā)現(xiàn),也避免因潮汐效應(yīng)以及網(wǎng)絡(luò)基礎(chǔ)條件等差異導(dǎo)致的誤報(bào),漏報(bào)。
當(dāng)系統(tǒng)檢測到KPI異常時(shí),需要快速下鉆分析定位根因,以便于運(yùn)維人員及時(shí)排除故障。智能運(yùn)維系統(tǒng)采用基于規(guī)則的診斷模塊和基于ML的診斷模塊相結(jié)合的異常診斷方法,發(fā)揮中興在無線領(lǐng)域幾十年的經(jīng)驗(yàn)積累及AI智能的自我學(xué)習(xí)能力,實(shí)現(xiàn)根因判斷的快速收斂和高準(zhǔn)確性,并適應(yīng)多種復(fù)雜場景應(yīng)用。
如下圖所示,當(dāng)檢測到的異常是已定義的已知故障時(shí),系統(tǒng)根據(jù)關(guān)聯(lián)告警、操作日志、網(wǎng)絡(luò)拓?fù)浜蛯<乙?guī)則庫進(jìn)行綜合分析,給出根因判斷和故障排查操作建議。
當(dāng)檢測到的異常是未知故障時(shí),基于ML的診斷模塊使用部分最小二乘回歸算法(PLS:Partial Least Square)進(jìn)行根因分析和定位,通過對可能原因進(jìn)行貢獻(xiàn)度分析,找出頂端的根計(jì)數(shù)器指標(biāo)作為異常根因判定。
該系統(tǒng)建立在一個(gè)輕量化大數(shù)據(jù)底座上,與傳統(tǒng)部署在集群上的大數(shù)據(jù)系統(tǒng)不同,輕量化底座所需的硬件資源很少,甚至可以單機(jī)運(yùn)行,但同時(shí)保留了傳統(tǒng)大數(shù)據(jù)系統(tǒng)的功能。這一特性可以使用戶利用現(xiàn)有環(huán)境或在資源受限時(shí)也能部署大數(shù)據(jù)和AI相關(guān)功能,大大減少了用戶網(wǎng)絡(luò)智能化轉(zhuǎn)型過程中的探索成本。同時(shí),輕量化底座又有很好的可拓展性,可以從單機(jī)平滑拓展成分布式集群環(huán)境,且過程不影響業(yè)務(wù)的正常運(yùn)行,可以將探索成果直接轉(zhuǎn)化上線。
目前,該功能在山東聯(lián)通和中興通訊聯(lián)合創(chuàng)新基地通過驗(yàn)證,現(xiàn)網(wǎng)8萬小區(qū)成功接入無線網(wǎng)絡(luò)智能運(yùn)維平臺,實(shí)現(xiàn)網(wǎng)絡(luò)KPI異動實(shí)時(shí)監(jiān)控和根因精準(zhǔn)定位分析,大幅縮短KPI異動小區(qū)問題定位和解決時(shí)間。這也是業(yè)界首個(gè)采用AI算法洞察網(wǎng)絡(luò)KPI異動,通過規(guī)則學(xué)習(xí)和機(jī)器學(xué)習(xí)快速準(zhǔn)確定位問題根因,實(shí)現(xiàn)端到端閉環(huán)的解決方案。
在驗(yàn)證期間,某子網(wǎng)LTE的E-RAB建立成功率突然從99.9%下降到99.2%,系統(tǒng)異動根因檢測功能很快發(fā)現(xiàn)并下鉆分析本次異動的根因,快速定位到ID 208203的eNodeB,發(fā)現(xiàn)這個(gè)基站的一個(gè)小區(qū)的成功率指標(biāo)下降到0,引發(fā)全網(wǎng)相應(yīng)指標(biāo)異常波動。通過告警關(guān)聯(lián)分析,在KPI異動時(shí)間點(diǎn),小區(qū)出現(xiàn)一次RRU異常導(dǎo)致的退服,后續(xù)的E-RAB空口建立指標(biāo)全部超時(shí)失敗,依據(jù)智能系統(tǒng)分析結(jié)果,快速得出RRU故障導(dǎo)致本次指標(biāo)下降異動的結(jié)論,整個(gè)故障定位分析時(shí)間不到10分鐘。而以前通過人工分析,一個(gè)有經(jīng)驗(yàn)的工程技術(shù)人員通過網(wǎng)管統(tǒng)計(jì)KPI分析指標(biāo)異動,關(guān)聯(lián)告警、日志,下鉆TopN小區(qū)直至找出問題所在,至少得2小時(shí)。
隨著無線網(wǎng)絡(luò)的發(fā)展和5G的興起,網(wǎng)絡(luò)變得更加復(fù)雜,中興通訊不斷同運(yùn)營商加強(qiáng)合作,加速網(wǎng)絡(luò)智化技術(shù)創(chuàng)新和成果轉(zhuǎn)化,通過網(wǎng)絡(luò)進(jìn)化、運(yùn)維進(jìn)化、運(yùn)營進(jìn)化三大進(jìn)化助力運(yùn)營商開源節(jié)流、提升效率,助力網(wǎng)絡(luò)智能化轉(zhuǎn)型。