siemens x
物聯(lián)網(wǎng)

漫談5G核心網(wǎng)新運維

2025China.cn   2020年10月12日

  核心網(wǎng),是通信網(wǎng)絡(luò)的大腦,承擔(dān)著網(wǎng)絡(luò)全局資源的調(diào)度及管理。進入5G時代,核心網(wǎng)肩上的擔(dān)子更重了,其承載著來自千行百業(yè)的多樣化業(yè)務(wù)需求。如何實現(xiàn)5G時代的核心網(wǎng)高效、低成本和高可靠運維,成為了運營商及業(yè)界關(guān)注的焦點。那5G時代的核心網(wǎng)運維有哪些挑戰(zhàn)?又有哪些新變化呢?

5G時代的核心網(wǎng)運維挑戰(zhàn)

  運維對象規(guī)模和復(fù)雜性急劇上升——不同于以往4G時代,5G時代由于網(wǎng)絡(luò)應(yīng)用深入到多樣化的業(yè)務(wù)場景,網(wǎng)絡(luò)規(guī)模急劇加大。通過切片方式來進行業(yè)務(wù)的管理,導(dǎo)致了業(yè)務(wù)也會更加動態(tài)和復(fù)雜,從而讓網(wǎng)絡(luò)管理難度大幅增加;網(wǎng)絡(luò)的管理對象也急劇增多,除了傳統(tǒng)意義上的運營商的公網(wǎng),還有各行各業(yè)的行業(yè)用戶專網(wǎng),如何能夠針對不同對象合理化,分域的運維,基于各個行業(yè)進行SLA保障,也是非常棘手的一個問題;同時,隨著NFV,微服務(wù)架構(gòu)等技術(shù)的不斷引入,網(wǎng)絡(luò)實現(xiàn)了分層解耦,按需部署,但同時也帶來了運維復(fù)雜度的上升,故障的定位定界成為了5G時代運維極大的挑戰(zhàn);2/3/4/5G時代遺留下來多個獨立的運維入口,也讓原本就復(fù)雜的運維工作,變得更加的繁瑣,傳統(tǒng)煙囪式的運維團隊和流程模式也因數(shù)據(jù)之間相互隔離,流程的非自動化,無法在5G時代繼續(xù)下去。

  人力要求和企業(yè)成本的挑戰(zhàn)——與4G主要面向消費者市場不同,5G將賦能千行百業(yè),與各行各業(yè)的生產(chǎn)效率、業(yè)務(wù)創(chuàng)新等緊密相關(guān),這要求5G新業(yè)務(wù)能敏捷上線,業(yè)務(wù)發(fā)布將從原來的幾個月縮短到幾天,甚至是小時級,還要求運營商提供高SLA的網(wǎng)絡(luò)來保障企業(yè)的生產(chǎn)、業(yè)務(wù)等流程高效穩(wěn)定運行,否則可能會給行業(yè)帶來經(jīng)濟損失,這單靠傳統(tǒng)的人工運維模式無法支撐業(yè)務(wù)及網(wǎng)絡(luò)的要求。同時,5G時代不僅網(wǎng)絡(luò)更復(fù)雜,業(yè)務(wù)更多樣化,伴隨著低時延應(yīng)用和行業(yè)專網(wǎng)興起,還將有大量MEC邊緣節(jié)點廣泛分布于網(wǎng)絡(luò)的不同位置,這都將新增大量的上站維護工作量和運維成本,因此,如何最大程度減少Opex,是運營商在5G這個新戰(zhàn)場上不得不考慮的問題。

  如何破除以上挑戰(zhàn)?

  讓網(wǎng)絡(luò)像自動駕駛汽車一樣,自動化,智能化的行駛

  在這樣的挑戰(zhàn)背景下,業(yè)界做了很多的探索和嘗試,試圖在方案架構(gòu),運維技術(shù),運維方式等方面進行變革,將自動化,智能化引入5G核心網(wǎng)運維。有人提出一個有趣的設(shè)想,我們的網(wǎng)絡(luò)是否可以像自動駕駛汽車一樣,在沒有人干預(yù)的情況下,自動,智能的行駛。這樣的假設(shè)讓業(yè)界產(chǎn)生了很強的共鳴,也展開了無數(shù)的討論,其中比較著名的就是TMF提出的自動駕駛網(wǎng)絡(luò)的5層演進節(jié)奏,全面詮釋了網(wǎng)絡(luò)在未來10年的演進方向。

來源:自動駕駛網(wǎng)絡(luò)白皮書

  這個圖將自動駕駛網(wǎng)絡(luò)的演進分為從level0到level5幾個級別,讓我們知道網(wǎng)絡(luò)自動化將會是一個長期的目標(biāo),是一個逐步實現(xiàn)的過程,其中AI的能力也會逐步的引入各個領(lǐng)域?qū)崿F(xiàn)整個演進的轉(zhuǎn)變。

  那5G時代的核心網(wǎng)運維如何逐步實現(xiàn)“自動駕駛”呢?

運維架構(gòu)轉(zhuǎn)型

  首先需要考慮的是運維架構(gòu)層面的改變。

  眾所周知,存量網(wǎng)絡(luò)的管理系統(tǒng)多且孤立分散,數(shù)據(jù)相互隔離;管理面能力沒有服務(wù)化,無法按需進行靈活的部署,導(dǎo)致了底層資源浪費;傳統(tǒng)管理面和業(yè)務(wù)網(wǎng)元是分離的,這不符合5G時代核心網(wǎng)網(wǎng)元實時控制,本地自治的訴求。為了解決這些問題,就需要在管理面架構(gòu)上進行融合,實現(xiàn)跨域跨代跨平臺跨層的統(tǒng)一管理。就如華為提供的iMaster MAE-CN方案,非常巧妙的將傳統(tǒng)網(wǎng)管,VNFM LCM, NFVO,NSSMF,MEAO及相關(guān)運維工具子系統(tǒng)進行融合。一方面,這些組件并不是粗暴式的堆疊,而是以微服務(wù)的方式存在,方便客戶按需部署,另一方面,最重要的是它打通了傳統(tǒng)煙囪式的運維體系,讓數(shù)據(jù)可無縫互通,不僅能夠讓日常運維操作簡單許多,更重要的是增加了發(fā)掘數(shù)據(jù)更多價值的可能性。同時,這些組件都連接著一個智能的調(diào)度引擎,通過系統(tǒng)而靈活的調(diào)度,實現(xiàn)從網(wǎng)絡(luò)設(shè)計,部署,到運維、優(yōu)化的端到端的管理,而不僅僅是傳統(tǒng)意義上簡單的運維。

AI引入日常監(jiān)控場景——主動預(yù)防實現(xiàn)亞健康狀態(tài)精準(zhǔn)識別

  另一個非常重要的轉(zhuǎn)變就是技術(shù)的改變。這里,大部分的廠商都嘗試通用引入AI技術(shù),自動化,智能化的處理核心網(wǎng)運維問題。

  熟知核心網(wǎng)運維的工程師,一定深有體會,在建網(wǎng)初期,工程師要花費大量時間逐條進行上萬個KPI指標(biāo)對象的閾值設(shè)置,這個閾值是根據(jù)以往的專家經(jīng)驗進行設(shè)置,由于是靜態(tài)的閾值,這就給后續(xù)日常監(jiān)控埋下了可能出現(xiàn)誤報,漏報異常的情況的隱患,告警的可信度大打折扣。況且不同子網(wǎng)情況不同,子網(wǎng)間這些閾值的設(shè)置無法復(fù)制,工程師只能通過人工的方式,一個個子網(wǎng)進行設(shè)置。最棘手的是異常檢測之后的根因分析,工程師需要人工逐條KPI進行故障定位,同時在大量KPI指標(biāo)中篩選出該異常KPI的關(guān)聯(lián)KPI,通過查看關(guān)聯(lián)KPI的測量值,進一步定位異常的原因。這樣全程人工主導(dǎo)的運維方式,效率提升真的是難上加難。

  那如何通過AI技術(shù)去解放工程師日常的運維工作呢?

  我們從閾值的設(shè)置入手,看看通過AI如何進行智能的KPI的異常檢測。剛才我們提到,傳統(tǒng)的閾值設(shè)置是基于專家經(jīng)驗設(shè)定的靜態(tài)閾值,工作量大,也不準(zhǔn)確,隔上一段時間,還需要根據(jù)現(xiàn)網(wǎng)的實際情況進行閾值的糾正調(diào)整。這里,華為提出了動態(tài)閾值的概念,如何理解呢?首先,有一個AI的訓(xùn)練模型,每周對現(xiàn)網(wǎng)歷史數(shù)據(jù)進行采樣,通過AI算法持續(xù)的去訓(xùn)練校準(zhǔn)這個模型。然后,將現(xiàn)網(wǎng)的實時KPI數(shù)據(jù)導(dǎo)入訓(xùn)練好的模型中,得到動態(tài)閾值范圍,也就是說,當(dāng)網(wǎng)絡(luò)發(fā)生變化時,閾值范圍也會發(fā)生變化,因此,在網(wǎng)絡(luò)出現(xiàn)異常的早期階段,就會有潛在的KPI指標(biāo)超過閾值范圍,系統(tǒng)上報異常。這樣,在某種程度上,可以幫助我們提前發(fā)現(xiàn)網(wǎng)絡(luò)隱患和故障,而不是在主要KPI已經(jīng)異常后去處理故障。

  動態(tài)的閾值,能夠精準(zhǔn)的發(fā)現(xiàn)網(wǎng)絡(luò)隱性事故,但是實現(xiàn)運維的閉環(huán),還需要智能的對異常情況進行分析,快速找到根因。這里,華為提供了一種多指標(biāo)關(guān)聯(lián)分析功能,如果某個KPI指標(biāo)異常了,系統(tǒng)可以按照貢獻度去對相關(guān)的指標(biāo)進行排序,工程師可以基于此快速的找到最大貢獻度的KPI,從而快速的定位問題的根因。

AI引入變更操作場景——構(gòu)筑“三道防線”實現(xiàn)機器值守

  除了日常監(jiān)控場景外,重大變更場景也會使用AI。

  我們知道,在5G時代,產(chǎn)品版本發(fā)布頻率越來越高。因此,會進行大量的重大操作,如普通升級、灰度升級、配置變更、擴容等?,F(xiàn)網(wǎng)70%以上的重大事故是由于網(wǎng)絡(luò)變更導(dǎo)致的。一旦異常,對業(yè)務(wù)和用戶體驗影響很大。每年有數(shù)千次的變更,給運營商帶來了巨大的挑戰(zhàn)。同時,由于人工操作量大,網(wǎng)絡(luò)異常識別平均耗時5小時。導(dǎo)致在業(yè)務(wù)影響增加時,無法提前分析和發(fā)現(xiàn)異常,這樣就錯過了解決問題的時間窗口。

  因此,在這種場景下,工程師希望運維方案能夠建立變更前、變更中、變更后三道防線,提前規(guī)避風(fēng)險和問題。

  現(xiàn)在,讓我們來看看這個系統(tǒng)是如何工作的。

  首先,在變更前,系統(tǒng)自動進行在線健康檢查,確保待變更網(wǎng)絡(luò)健康。其次,變更過程中,所有變更準(zhǔn)備和操作均按照規(guī)范自動執(zhí)行。例如,在變更前的計劃中明確每個操作的結(jié)果。這樣,每一步的操作,都可以有依據(jù),方便變更過程中進行對比。最后,在變更值守階段,需要持續(xù)實時監(jiān)控網(wǎng)絡(luò)異常情況。這里,華為利用復(fù)合LSTM神經(jīng)網(wǎng)絡(luò)遞歸生成多指標(biāo)關(guān)聯(lián)分析。其將指標(biāo)分為呼叫類指標(biāo)組、注冊類指標(biāo)組、接入類指標(biāo)組等。該算法可以訓(xùn)練每個組,使每個組可以生成出一個關(guān)聯(lián)性。當(dāng)某個異常發(fā)生時,對應(yīng)群組的關(guān)聯(lián)性就會發(fā)生改變。這樣就可以快速定位異常指標(biāo)組。再通過KPI貢獻度,識別出異常KPI。接下來,我們再來看看如何快速定界異常點。其根據(jù)歷史的專家經(jīng)驗,在系統(tǒng)中預(yù)置了很多故障場景;同時,把告警、日志、KPI等多維度因素作為一個事件,與預(yù)置場景進行匹配,這樣就能快速定界網(wǎng)絡(luò)異常了。這樣就可以幫助我們快速、及時地定位問題了。

AI的引入,最終實現(xiàn)從被動運維到主動運維轉(zhuǎn)型

  以上分享了兩個引入AI的運維場景。不難發(fā)現(xiàn),將AI引入到運維的場景后,傳統(tǒng)運維方式逐漸發(fā)生了變化。傳統(tǒng)的方式是一種被動的運維方式,就是當(dāng)故障已經(jīng)出現(xiàn)了,我們才通過各種各樣的系統(tǒng),方法,以及人工的方式,去盡可能快速準(zhǔn)確的進行故障定界定位,從而快速恢復(fù)。而AI的引入,讓我們對運維的模式有了新的想法。我們可以基于AI技術(shù)去進行主動運維,也就是說在故障發(fā)生之前,主動的識別網(wǎng)絡(luò)的風(fēng)險,將網(wǎng)絡(luò)的亞健康問題暴露出來,在它變成故障之前就把它處理掉,而不是等亞健康問題變成故障后,才去解決問題。然后再通過AI技術(shù),快速的定位問題,將風(fēng)險快速識別。

  5G讓網(wǎng)絡(luò)自動駕駛成為了焦點,而AI的引入加速了網(wǎng)絡(luò)自動駕駛的演進。未來的5到10年將是網(wǎng)絡(luò)自動駕駛快速孵化,演進的時代,讓我們拭目以待。

(轉(zhuǎn)載)

標(biāo)簽:5G 我要反饋 
2024世界人工智能大會專題
即刻點擊并下載ABB資料,好禮贏不停~
優(yōu)傲機器人下載中心
西克
2024全景工博會
專題報道
2024 工博會 | 直播探館 · 全景解讀
2024 工博會 | 直播探館 · 全景解讀

第二十四屆中國工博會于9月24日至28日在國家會展中心(上海)舉行,展會以“工業(yè)聚能 新質(zhì)領(lǐng)航”為全新主題。 [更多]

2024世界人工智能大會
2024世界人工智能大會

WAIC 2024將于7月在上海舉行,論壇時間7月4日-6日,展覽時間7月4日-7日。WAIC 2024將圍繞“以共商促... [更多]

2024漢諾威工業(yè)博覽會專題
2024漢諾威工業(yè)博覽會專題

2024 漢諾威工業(yè)博覽會將于4月22 - 26日在德國漢諾威展覽中心舉行。作為全球首屈一指的工業(yè)貿(mào)易展覽會,本屆展覽會... [更多]