了解最新公司動態(tài)及行業(yè)資訊
北京,2022年4月27日——隨著互聯(lián)網(wǎng)、5G、IoT等的快速發(fā)展,數(shù)字化、智能化建設(shè)對算力提出了更高的要求,數(shù)據(jù)中心不斷向大型化、集約化方向發(fā)展和綠色演進,根據(jù)《全球數(shù)據(jù)中心托管服務(wù)市場機遇》報告,超大規(guī)模數(shù)據(jù)中心預(yù)計將從2019年的509個增長到2025年的890個,這將改變數(shù)據(jù)中心的建設(shè)和使用方式,規(guī)模的數(shù)據(jù)中心繼續(xù)增長。不斷擴大,大型數(shù)據(jù)中心服務(wù)器數(shù)量已達到10萬多臺,這意味著對運維的難度、人力、成本、專業(yè)性提出了更高的要求,企業(yè)數(shù)據(jù)中心的運維壓力也越來越大面臨前所未有的壓力。解決問題的關(guān)鍵在于打破傳統(tǒng)運維方式,打造“監(jiān)督、管理、控制、預(yù)防”的智能化運維。
【圖片】
什么是智能運維?
首先要了解數(shù)據(jù)中心運維的發(fā)展歷程,主要包括三個階段:人工運維、自動化運維和智能運維。
所謂人工運維是指——在早期,數(shù)據(jù)中心的大部分運維工作都是由運維工程師手動完成的。服務(wù)器的運行狀態(tài)取決于運維工程師日常的目視檢查來定位和解決問題。每個工程師的運維上限為400臺左右。這種低效的運維方式,在數(shù)據(jù)中心服務(wù)器越來越多、人工成本越來越高的時代很難維護。

于是自動化運維應(yīng)運而生。運維工程師根據(jù)運維經(jīng)驗編寫腳本進行批量設(shè)備巡檢,后來發(fā)展為任務(wù)型設(shè)備巡檢。這是自動化運維的早期方式。這大大提高了發(fā)現(xiàn)異常設(shè)備的效率,降低了運維成本。然而,面對故障根源、故障預(yù)測、性能趨勢和控制決策,自動化運維卻無能為力。
根據(jù)發(fā)布的《2021中國ICT技術(shù)成熟度周期報告》,AIOps市場將持續(xù)增長,影響整個IT運營管理市場。報告預(yù)測,AIOps 將在未來 2-5 年內(nèi)進入成熟階段,將幫助企業(yè)節(jié)省大量成本。從服務(wù)器運維角度分析服務(wù)器智能運維,目標(biāo)是收集帶外信息(配置信息、狀態(tài)信息、性能信息、日志等)和帶內(nèi)信息(配置參數(shù)、性能信息、日志信息),利用機器學(xué)習(xí)解決上述問題,提高系統(tǒng)預(yù)警能力和穩(wěn)定性,降低運維成本,提高運維效率。
浪潮信息構(gòu)建智能物理基礎(chǔ)設(shè)施管理平臺(ISPIM)
浪潮信息物理基礎(chǔ)設(shè)施管理平臺ISPIM,在異常檢測、故障診斷、故障預(yù)測、故障自愈、性能預(yù)測等維度實現(xiàn)多維度智能運行。
在服務(wù)器運維中,最基本的就是異常檢測。最常見的是檢測三大數(shù)據(jù):狀態(tài)指標(biāo)、性能指標(biāo)和日志數(shù)據(jù)。
狀態(tài)指示燈:當(dāng)服務(wù)器狀態(tài)異常時,浪潮信息ISPIM管理軟件以主動/被動模式聚合服務(wù)器的異常情況,防止重復(fù)告警和誤告警。警報風(fēng)暴服務(wù)器運維,產(chǎn)生警報癱瘓。
性能指標(biāo):在性能指標(biāo)檢測方面,傳統(tǒng)的方法是設(shè)置閾值,但由于某一時刻產(chǎn)生的噪聲數(shù)據(jù),經(jīng)常會出現(xiàn)誤報。通過重復(fù)次數(shù)、閾值抖動范圍和自學(xué)習(xí)數(shù)據(jù)密度分布等,解決99%的噪聲數(shù)據(jù)產(chǎn)生的誤報;但面對周期性變化的數(shù)據(jù),無法動態(tài)調(diào)整,也會出現(xiàn)誤報,大大降低了報警的準(zhǔn)確性。浪潮信息ISPIM管理軟件通過AI優(yōu)化,對性能數(shù)據(jù)進行時域、頻域、能量等變化的動態(tài)分析,利用LSTM和隨機森林進行預(yù)測,報警準(zhǔn)確率達到98%。
日志數(shù)據(jù):日志一般是半結(jié)構(gòu)化數(shù)據(jù)。警報是根據(jù)日志級別生成的。準(zhǔn)確性不足,只能檢測到已知的和確定性的異常模式。浪潮信息ISPIM管理軟件擁有4000+運維專家資源庫,有助于實現(xiàn)服務(wù)器故障的快速診斷。同時,在日志智能故障診斷方面,將對采集到的日志進行重新編碼,深化對深度學(xué)習(xí)、LSTM等算法的研究,在實際應(yīng)用中可以多維度分析服務(wù)器異常,并將異常檢測準(zhǔn)確率高達99%。
為了進一步提高運維效率,浪潮信息ISPIM管理軟件不僅對日志進行故障診斷,而且對系統(tǒng)宕機后的數(shù)據(jù)進行深度分析,方便用戶使用快速定位問題,提高效率。

通過對收集到的海量數(shù)據(jù)進行分析,浪潮發(fā)現(xiàn)服務(wù)器宕機通常是由CPU MCE(Check)故障引起的。一般來說,MCE的來源有兩種,一種是CPU本身的故障,另一種是CPU本身的故障。外部零件。浪潮信息ISPIM管理軟件帶外采集服務(wù)器CPU寄存器數(shù)據(jù),基于MCA(Check)技術(shù)架構(gòu),定位CPU觸發(fā)源,分析MC Bank,分析CSR和MSR寄存器,實現(xiàn)故障原因確認和準(zhǔn)確定位有故障的組件。并根據(jù)浪潮信息專家經(jīng)驗庫,對故障問題給出專業(yè)的解決方案,提高運維效率。
據(jù)統(tǒng)計,數(shù)據(jù)中心內(nèi)存和硬盤造成的故障中,50%以上是由于硬盤和內(nèi)存量大、生命周期相對較短、使用率高造成的。當(dāng)內(nèi)存或硬盤出現(xiàn)故障時,極易發(fā)生嚴(yán)重的停機事故。
對于內(nèi)存來說,內(nèi)存產(chǎn)生的CE(可糾正錯誤)可以通過ECC(Error Code)機制來糾正,但是頻繁的CE往往會產(chǎn)生UCE(Error),而一旦產(chǎn)生UCE,往往會導(dǎo)致系統(tǒng)停機機器。因此,預(yù)測內(nèi)存故障可以轉(zhuǎn)化為預(yù)測UCE。浪潮信息ISPIM管理軟件通過多個維度分析內(nèi)存CE,包括總CE頻率、內(nèi)存固定物理地址CE頻率閾值、固定Cell CE頻率閾值、CE分布范圍、頻率閾值等維度統(tǒng)計,得到UCE與CE,從而預(yù)測UCE。

在硬盤方面,數(shù)據(jù)中心的大部分存儲陣列都會使用一些冗余機制,但這只能保證有限的硬盤故障場景。一旦故障磁盤數(shù)量超過 RAID 冗余的限制,就有可能導(dǎo)致系統(tǒng)停機或數(shù)據(jù)丟失的風(fēng)險。浪潮信息ISPIM管理軟件分析SMART(自和)標(biāo)準(zhǔn),獲取硬盤故障預(yù)測的關(guān)鍵數(shù)據(jù)特征,基于模型算法訓(xùn)練,優(yōu)化模型算法,輸出推理算法模型。通過SMART指標(biāo)和硬盤操作日志,預(yù)測風(fēng)險盤。同時,當(dāng)硬盤預(yù)測達到換盤索引時,可以支持換盤操作。
通過這些技術(shù)優(yōu)化,浪潮信息ISPIM管理軟件可以實現(xiàn)內(nèi)存和硬盤的故障預(yù)測,大大提高系統(tǒng)穩(wěn)定性。
浪潮信息ISPIM管理軟件在故障自愈方面支持內(nèi)存故障自動隔離。在操作系統(tǒng)層面,結(jié)合MCE(Check)日志數(shù)據(jù)信息,根據(jù)CE故障信息服務(wù)器運維,通過虛擬內(nèi)存故障Page診斷算法確定內(nèi)存故障Page,并在操作系統(tǒng)內(nèi)核中執(zhí)行Page,通過虛擬內(nèi)存技術(shù),隔離對故障內(nèi)存區(qū)域的訪問,實現(xiàn)內(nèi)存故障隔離。在物理內(nèi)存層面,根據(jù)CE故障信息,通過物理內(nèi)存故障診斷算法,使用SPPR(Soft Post)和HPPR(Hard Post)隔離物理內(nèi)存故障Row。操作系統(tǒng)的穩(wěn)定性和可靠性,從而保證業(yè)務(wù)的穩(wěn)定可靠運行。
性能預(yù)測是指服務(wù)器的性能數(shù)據(jù)。通過ARIMA、指數(shù)平滑、LSTM等智能算法,可以感知系統(tǒng)數(shù)據(jù)在未來幾小時、幾天或一年內(nèi)的趨勢、增長或周期性變化。等待。浪潮信息ISPIM管理軟件憑借自主研發(fā)的性能分析核心組件,可支持?jǐn)?shù)萬臺服務(wù)器同時對性能數(shù)據(jù)進行秒級監(jiān)控和告警,幫助運維人員實時掌握設(shè)備性能狀態(tài),并實現(xiàn)對磁盤壽命和容量的準(zhǔn)確預(yù)測。率達到99%。
浪潮信息物理基礎(chǔ)設(shè)施管理平臺ISPIM()具有資源管理、故障監(jiān)控、性能監(jiān)控、能耗管理、自動部署、報表統(tǒng)計、網(wǎng)絡(luò)拓撲、3D視圖等功能。對服務(wù)器、存儲、網(wǎng)絡(luò)設(shè)備等設(shè)備進行監(jiān)控、運維,統(tǒng)一進行告警管理,運維效率成倍提升。基于浪潮信息故障專家?guī)斓拇髷?shù)據(jù)規(guī)則故障診斷功能,故障診斷準(zhǔn)確率可提升至93%。此外,能夠快速處理故障的同時,大大降低數(shù)據(jù)泄露風(fēng)險,幫助用戶搭建無人值守數(shù)據(jù)中心,提高運維效率,降低運維成本,保障數(shù)據(jù)中心安全、可靠、穩(wěn)定運行.