構(gòu)架電網(wǎng)信息系統(tǒng)狀態(tài)的監(jiān)控和評(píng)價(jià)論文
0 引 言
“十二五”期間,國(guó)家電網(wǎng)公司全面建設(shè)堅(jiān)強(qiáng)智能電網(wǎng),推動(dòng)公司和電網(wǎng)創(chuàng)新發(fā)展、集約發(fā)展、安全發(fā)展,信息化工作已成為國(guó)家電網(wǎng)公司實(shí)現(xiàn)戰(zhàn)略發(fā)展目標(biāo)的基礎(chǔ)工程和重要保障[1].國(guó)家電網(wǎng)公司SG186 信息系統(tǒng)、SG - ERP 系統(tǒng)等業(yè)務(wù)信息系統(tǒng)[2]的大量投入運(yùn)用,在對(duì)公司業(yè)務(wù)工作支撐力不斷提升和主營(yíng)業(yè)務(wù)大幅度融合的同時(shí),也使信息系統(tǒng)的規(guī)模急劇膨脹,而新系統(tǒng)、新技術(shù)的不斷應(yīng)用,使系統(tǒng)出現(xiàn)故障的可能性也隨之加大,對(duì)系統(tǒng)穩(wěn)定性和系統(tǒng)管理者的要求也隨之提高。如何提高信息系統(tǒng)檢修的工作效率、工作質(zhì)量、安全、穩(wěn)定等問題也隨之突顯。因此,采用創(chuàng)新的管理思想和現(xiàn)代計(jì)算機(jī)技術(shù)手段,保障信息系統(tǒng)的安全、降低生產(chǎn)成本、提高企業(yè)競(jìng)爭(zhēng)力,成為電網(wǎng)企業(yè)的當(dāng)務(wù)之急。正是在這種背景下,信息系統(tǒng)狀態(tài)檢修已然成為電網(wǎng)檢修模式改變的一種必然趨勢(shì)。
基金項(xiàng)目:國(guó)網(wǎng)四川省電力公司研究開發(fā)項(xiàng)目( 52199713504A)信息系統(tǒng)狀態(tài)檢修的基礎(chǔ)是對(duì)于信息系統(tǒng)狀態(tài)的監(jiān)控與評(píng)價(jià),國(guó)家電網(wǎng)公司企業(yè)信息系統(tǒng)現(xiàn)階段主要采用 B/S 構(gòu)架,B/S 模式信息系統(tǒng)主要結(jié)構(gòu)包括應(yīng)用服務(wù)器和數(shù)據(jù)庫(kù)服務(wù)器,因此對(duì)于應(yīng)用服務(wù)器和數(shù)據(jù)庫(kù)服務(wù)器內(nèi)部狀態(tài)和外部狀態(tài)的監(jiān)控與評(píng)價(jià)成為信息系統(tǒng)狀態(tài)評(píng)價(jià)研究中最為重要的環(huán)節(jié)。
信息系統(tǒng)檢修是信息運(yùn)維人員工作的重要內(nèi)容,信息系統(tǒng)的狀態(tài)檢修也是必然發(fā)展趨勢(shì)[3 -4].目前國(guó)內(nèi)對(duì)于信息系統(tǒng)狀態(tài)檢修的研究還處于起步階段,大部分研究者對(duì)于信息系統(tǒng)狀態(tài)的監(jiān)控和評(píng)價(jià)僅停留在整體的設(shè)計(jì)思路上面,并沒有繼續(xù)向下延伸到各具體部分狀態(tài)的研究。也正是基于此,給出了一種對(duì)于 B/S 信息系統(tǒng)狀態(tài)全面監(jiān)控與評(píng)價(jià)的方法,并給出對(duì)于信息系統(tǒng)狀態(tài)短期預(yù)測(cè)的方法,為信息系統(tǒng)狀態(tài)檢修提供更為具體的研究思路和實(shí)現(xiàn)技術(shù)參考。
1 評(píng)價(jià)系統(tǒng)總體設(shè)計(jì)
國(guó)家電網(wǎng)公司企業(yè)信息系統(tǒng)現(xiàn)階段主要采用 B/S 構(gòu)架,下面主要針對(duì) WebLogic 服務(wù)器和Oracle 數(shù)據(jù)庫(kù)服務(wù)器搭配技術(shù)路線的大型信息系統(tǒng)開展研究。圖 1 為信息系統(tǒng)狀態(tài)評(píng)價(jià)系統(tǒng)的總體設(shè)計(jì)框架。
由圖 1 可知,所述系統(tǒng)主要包括健康狀態(tài)劃分與測(cè)試、健康數(shù)據(jù)采集、狀態(tài)評(píng)價(jià)與預(yù)測(cè)和健康狀態(tài)存儲(chǔ)系統(tǒng)這 4 個(gè)部分。健康狀態(tài)劃分與測(cè)試主要是建立所述評(píng)價(jià)系統(tǒng)的評(píng)價(jià)指標(biāo)體系以及對(duì)于信息系統(tǒng)健康度的合理劃分; 健康數(shù)據(jù)采集模塊是實(shí)現(xiàn)對(duì)WebLogic 服務(wù)器和 Oracle 數(shù)據(jù)庫(kù)服務(wù)器內(nèi)在及外在狀態(tài)數(shù)據(jù)的監(jiān)控,并將監(jiān)控?cái)?shù)據(jù)存儲(chǔ)于健康狀態(tài)存儲(chǔ)數(shù)據(jù)庫(kù)中,為狀態(tài)評(píng)價(jià)模塊提供實(shí)時(shí)數(shù)據(jù)來源;狀態(tài)評(píng)價(jià)與預(yù)測(cè)模塊實(shí)現(xiàn)對(duì)信息系統(tǒng)當(dāng)前狀態(tài)的評(píng)價(jià),并結(jié)合信息系統(tǒng)歷史狀態(tài)數(shù)據(jù)給出對(duì)信息系統(tǒng)狀態(tài)的短期預(yù)測(cè); 健康狀態(tài)存儲(chǔ)系統(tǒng)即建立的存儲(chǔ)數(shù)據(jù)庫(kù),負(fù)責(zé)所述評(píng)價(jià)系統(tǒng)涉及的所有數(shù)據(jù)的存儲(chǔ)。
2 健康狀態(tài)劃分與測(cè)試
2. 1 健康狀態(tài)劃分
根據(jù) B/S 架構(gòu)系統(tǒng)的特性,將整個(gè)系統(tǒng)狀態(tài)劃分成兩部分,即 WebLogic 服務(wù)器狀態(tài)和 Oracle 服務(wù)器狀態(tài)。這兩個(gè)服務(wù)器又有各自不同的子狀態(tài),這些狀態(tài)量,根據(jù) WebLogic 和 Oracle 數(shù)據(jù)庫(kù)的官方文檔、書籍介紹和運(yùn)維人員的建議,對(duì)采集到的指標(biāo)進(jìn)行了狀態(tài)劃分,每一種狀態(tài)有相應(yīng)的閾值,這些閾值也是參考的文檔、書籍以及運(yùn)維人員的經(jīng)驗(yàn),得到每一個(gè)狀態(tài)量都劃分為 4 種狀態(tài): 正常狀態(tài)、注意狀態(tài)、異常狀態(tài)、危險(xiǎn)狀態(tài),各狀態(tài)對(duì)應(yīng)給出分?jǐn)?shù)如表1 所示。
2. 2 基于 LoadRunner 的測(cè)試實(shí)驗(yàn)
LoadRunner 是一種預(yù)測(cè)系統(tǒng)行為和性能的負(fù)載測(cè)試工具[5].測(cè)試分析是根據(jù) LoadRunner 自動(dòng)生成的各項(xiàng)指標(biāo)測(cè)試結(jié)果統(tǒng)計(jì)圖,如測(cè)試簡(jiǎn)述圖、事務(wù)平均時(shí)間響應(yīng)圖、系統(tǒng)資源圖等,從中了解和判斷被測(cè)系統(tǒng)在不同壓力測(cè)試下的運(yùn)行狀況以及系統(tǒng)資源的使用情況,對(duì)它們進(jìn)行關(guān)聯(lián)分析,從而確定系統(tǒng)指標(biāo)不同狀態(tài)的閾值。通過模擬上千萬(wàn)用戶實(shí)施并發(fā)負(fù)載和實(shí)時(shí)性監(jiān)測(cè)的方式來確認(rèn)和查找問題,將測(cè)試得到的性能指標(biāo)值與定義的.指標(biāo)狀態(tài)閾值進(jìn)行對(duì)比,從而驗(yàn)證閾值的正確性。同時(shí),經(jīng)過測(cè)試實(shí)驗(yàn),定義了各級(jí)指標(biāo)權(quán)重如表 2 所示。
3 狀態(tài)數(shù)據(jù)采集
根據(jù) B/S 系統(tǒng)的分層,將狀態(tài)監(jiān)視采集系統(tǒng)也分成相應(yīng)的子模塊分別對(duì)每層進(jìn)行監(jiān)視。狀態(tài)監(jiān)視采集系統(tǒng)由 3 個(gè)子狀態(tài)監(jiān)視采集系統(tǒng)構(gòu)成[6 ~7].分別是 Weblogic 服務(wù)器數(shù)據(jù)采集程序、Oracle 數(shù)據(jù)庫(kù)數(shù)據(jù)采集程序、Oracle 宿主機(jī)數(shù)據(jù)采集程序。它們對(duì)相應(yīng)的模塊按照設(shè)定的頻率進(jìn)行采集,將采集到的數(shù)據(jù)持久化后,由主程序進(jìn)行讀取,然后按照狀態(tài)定義分別對(duì)數(shù)據(jù)進(jìn)行相應(yīng)狀態(tài)的劃分,最后得出當(dāng)前系統(tǒng)狀態(tài)的評(píng)價(jià)。
3. 1 Weblogic 服務(wù)器數(shù)據(jù)采集程序
Weblogic 服務(wù)器數(shù)據(jù)采集程序[8]能夠獲得服務(wù)器內(nèi) JMS 信息、進(jìn)程信息、線程信息、JVM 內(nèi)存信息、CPU 使用率等一系列服務(wù)器數(shù)據(jù)。在獲得信息狀態(tài)數(shù)據(jù)之后,可以對(duì)數(shù)據(jù)進(jìn)行分析,從而得出服務(wù)器現(xiàn)階段狀態(tài)。
邏輯流程如圖 2 所示。程序啟動(dòng)后,首先檢測(cè)Weblogic 服務(wù)器是否啟動(dòng),如果沒有啟動(dòng),則進(jìn)行報(bào)錯(cuò),提示服務(wù)器沒有正常啟動(dòng)。如果 Weblogic 服務(wù)器正常啟動(dòng)后,則啟動(dòng)系統(tǒng)數(shù)據(jù)采集子程序以及Weblogic 服務(wù)器數(shù)據(jù)采集子程序,相應(yīng)的子程序按照相應(yīng)的時(shí)間頻率刷新重新采集相應(yīng)指標(biāo),主程序按照相應(yīng)的時(shí)間頻率獲得相應(yīng)數(shù)據(jù)后,程序?qū)?shù)據(jù)寫入到 MySql 數(shù)據(jù)庫(kù)中。
3. 2 Oracle 數(shù)據(jù)庫(kù)數(shù)據(jù)采集程序
Oracle 數(shù)據(jù)庫(kù)數(shù)據(jù)采集程序能夠獲得服務(wù)器內(nèi)執(zhí)行隊(duì)列、等待執(zhí)行隊(duì)列、數(shù)據(jù)庫(kù)命中率、SQL 讀寫數(shù)、數(shù)據(jù)庫(kù)使用率等一系列數(shù)據(jù)庫(kù)服務(wù)器狀態(tài)。在獲得信息狀態(tài)數(shù)據(jù)之后,將數(shù)據(jù)寫入到 MySql 數(shù)據(jù)庫(kù)中。
流程邏輯如圖 3 所示。程序啟動(dòng)后,首先實(shí)例化 3 個(gè)子數(shù)據(jù)采集程序,并設(shè)置相應(yīng)的采集頻率。
設(shè)置完畢后,則按照相應(yīng)的頻率各子程序采集數(shù)據(jù),3. 3 Oracle 宿主機(jī)數(shù)據(jù)采集程序Oracle 宿主機(jī)數(shù)據(jù)采集程序能夠獲得客戶端服務(wù)器的 CPU 狀態(tài)信息、交換區(qū)信息、內(nèi)存信息、硬盤信息等一系列客戶端服務(wù)器狀態(tài)信息。在獲得狀態(tài)信息數(shù)據(jù)之后,可以將數(shù)據(jù)儲(chǔ)存到 MySql 數(shù)據(jù)庫(kù)中。
流程邏輯如圖4 所示。程序啟動(dòng)后,首先實(shí)例化4 個(gè)子程序監(jiān)控系統(tǒng),并設(shè)置相應(yīng)的采集頻率。設(shè)置完畢后,則按照相應(yīng)的頻率各子程序采集數(shù)據(jù),并將采集得到的數(shù)據(jù)反饋到服務(wù)器上。在獲得相應(yīng)數(shù)據(jù)后,程序?qū)?shù)據(jù)進(jìn)行分析并進(jìn)行相應(yīng)的狀態(tài)提醒。
4 狀態(tài)評(píng)價(jià)與預(yù)測(cè)
4. 1 基于聚類回歸的狀態(tài)評(píng)價(jià)模型
一般研究認(rèn)為低負(fù)載的系統(tǒng)健康度高于高負(fù)載的系統(tǒng),然而在實(shí)際系統(tǒng)運(yùn)行過程中,一個(gè)系統(tǒng)正常態(tài)可能是適中的負(fù)載,也可能是高負(fù)載的。正是考慮到這樣的情況存在,專門設(shè)計(jì)了一個(gè)基于系統(tǒng)歷史狀態(tài)聚類與回歸的評(píng)價(jià)模型。
實(shí)際系統(tǒng)運(yùn)行過程中,對(duì)于穩(wěn)定運(yùn)行的系統(tǒng)而言,可以認(rèn)為多數(shù)情況下系統(tǒng)是正常的,因此利用聚類的方法,將訓(xùn)練集合或者采集到的歷史數(shù)據(jù)劃分成 K 類,取數(shù)量最多的前 N 類作為系統(tǒng)正常態(tài)的代表。選取每一個(gè)指標(biāo)中心點(diǎn),各指標(biāo)偏離中心點(diǎn)一定范圍,依靠線性扣分,超出范圍,以指數(shù)扣分,分?jǐn)?shù)扣完為止。依據(jù)指標(biāo)得分健康數(shù)目,劃分等級(jí),每個(gè)指標(biāo)得分不到其分配得分的 β( β 默認(rèn)取 0. 6) ,則認(rèn)為指標(biāo)異常,結(jié)合利用 M5Rules 回歸模型,計(jì)算各個(gè)指標(biāo)相互間的回歸關(guān)系,以偏離回歸方程的 4 級(jí)指標(biāo)前 n 個(gè),且偏離比例超過 0. 3( 計(jì)算方式為( |實(shí)際值 - 回歸值 |) /回歸值) 的指標(biāo)作為異常指標(biāo)。如果有 n 個(gè)指標(biāo),所有指標(biāo)正常則為正常,如果超過0. 1*n 個(gè)指標(biāo)出現(xiàn)異常為整個(gè)系統(tǒng)為注意狀態(tài),超過 0. 2*n 個(gè)指標(biāo)異常為異常狀態(tài),0. 3*n 個(gè)指標(biāo)出現(xiàn)異常則為危險(xiǎn)狀態(tài)。
這種模型不僅可以避免對(duì)于本身就是高負(fù)載系統(tǒng)的狀態(tài)評(píng)價(jià)誤差,而且不僅是通過由低級(jí)指標(biāo)直接線性組合成為高級(jí)指標(biāo)判斷系統(tǒng)狀態(tài),其對(duì)每一個(gè)底層指標(biāo)聚類分析,指導(dǎo)判斷每一個(gè)指標(biāo)的健康度,充分考慮了影響信息系統(tǒng)狀態(tài)的因素,從指標(biāo)的健康度來度量系統(tǒng)整體的健康度,避免誤報(bào)、漏報(bào)。
4. 2 基于隱馬爾科夫的短期狀態(tài)預(yù)測(cè)模型
隱馬爾可夫模型( hidden Markov model,HMM)是馬爾可夫鏈的一種,它的狀態(tài)不能直接觀察到,但能通過觀測(cè)向量序列觀察到,每一個(gè)觀測(cè)向量都是通過某些概率密度分布表現(xiàn)為各種狀態(tài),每一個(gè)觀測(cè)向量是由一個(gè)具有相應(yīng)概率密度分布的狀態(tài)序列產(chǎn)生。所以,隱馬爾可夫模型是一個(gè)雙重隨機(jī)過程即具有一定狀態(tài)數(shù)的隱馬爾可夫鏈和顯示隨機(jī)函數(shù)集。在充分研究各經(jīng)典預(yù)測(cè)模型并結(jié)合電網(wǎng)信息系統(tǒng)狀態(tài)特性的基礎(chǔ)上,選擇引入隱馬爾科夫模型建立了信息系統(tǒng)狀態(tài)短期預(yù)測(cè)模型。
這種模型以大量系統(tǒng)狀態(tài)歷史數(shù)據(jù)作為訓(xùn)練樣本,對(duì)模型進(jìn)行充分訓(xùn)練。對(duì)于當(dāng)評(píng)價(jià)模型正常運(yùn)行一段時(shí)間后,按照時(shí)間順序記錄系統(tǒng)四級(jí)指標(biāo)的得分,便可以通過隱馬爾科夫模型預(yù)測(cè)將來的一次或多次得分,最終預(yù)測(cè)三級(jí)、二級(jí)和一級(jí)指標(biāo)狀態(tài)。為了保證預(yù)測(cè)的實(shí)時(shí)性和有效性,周期性更新隱馬爾科夫模型。
5 實(shí)驗(yàn)驗(yàn)證
將所述狀態(tài)評(píng)價(jià)系統(tǒng)應(yīng)用于四川省電力公司SG186安全監(jiān)督與管理業(yè)務(wù)應(yīng)用系統(tǒng),它的應(yīng)用服務(wù)器和數(shù)據(jù)庫(kù)服務(wù)器分別是 Weblogic 和 Oracle.為測(cè)試所述評(píng)價(jià)系統(tǒng)數(shù)據(jù)采集以及評(píng)價(jià)預(yù)測(cè)功能,設(shè)置如表 3 所示測(cè)試場(chǎng)景,可得到結(jié)果如表 4、表 5 所示。
從表 4 數(shù)據(jù)分析可以看出,Oracle 服務(wù)器采集程序能夠采集此宿主機(jī)的硬件的動(dòng)態(tài)信息。從場(chǎng)景1 到場(chǎng)景 3,cpu、內(nèi)存、swap 的使用率是遞增的,這與測(cè)試用戶數(shù)成倍增長(zhǎng)相符,說明采集的數(shù)據(jù)是正確的,User Transaction Per Sec 的最大值從場(chǎng)景 1 的1. 8 到場(chǎng)景 2 的 1. 96,再到場(chǎng)景 3 的 2. 1,依次遞增,與場(chǎng)景的用戶數(shù)遞增相符,說明采集程序的 Oracle數(shù)據(jù)庫(kù)采集模塊能夠正常工作。同樣,Weblogic 服務(wù)器采集程序正常工作。從表 5 數(shù)據(jù)分析可以看出,評(píng)價(jià)系統(tǒng)充分評(píng)價(jià)信息系統(tǒng)當(dāng)前狀態(tài),并能有效預(yù)測(cè) 1 min 后信息系統(tǒng)狀態(tài)。在充分訓(xùn)練預(yù)測(cè)模型的條件下,預(yù)測(cè)時(shí)間可以更長(zhǎng)。
6 總結(jié)與展望
提出了一種電網(wǎng)信息系統(tǒng)狀態(tài)評(píng)價(jià)方法。通過充分探討建立了信息系統(tǒng)狀態(tài)評(píng)價(jià)指標(biāo)體系,并根據(jù)各級(jí)指標(biāo)重要程度賦予其相應(yīng)權(quán)重。實(shí)現(xiàn)對(duì) B/S構(gòu)架信息系統(tǒng)整體狀態(tài)狀態(tài)的監(jiān)控和評(píng)價(jià),并以信息系統(tǒng)歷史狀態(tài)作為訓(xùn)練樣本預(yù)測(cè)其短期狀態(tài),成果將作為重要部分應(yīng)用于電網(wǎng)信息系統(tǒng)狀態(tài)檢修。
參考文獻(xiàn)
[1] 李向榮,郝悍勇,樊濤,等。 構(gòu)筑數(shù)字化電網(wǎng) 建設(shè)信息化企業(yè)[J]. 電網(wǎng)技術(shù),2007( 17) : 1 -5.
[2] 曾德君。 SG186、ERP、IPSS 三者關(guān)系論述[J]. 華東電力,2009( 9) : 1442 -1444.
[3] 劉賢杰,劉旭生。 信息通信狀態(tài)檢修系統(tǒng)中狀態(tài)評(píng)價(jià)體系的探索與實(shí)踐[J]. 電力信息化,2012( 5) :64 -69.
[4] 張涵。 開展信息系統(tǒng)狀態(tài)檢修提高系統(tǒng)運(yùn)維水平[J].農(nóng)村電氣化,2014( 6) : 32 -34.
【構(gòu)架電網(wǎng)信息系統(tǒng)狀態(tài)的監(jiān)控和評(píng)價(jià)論文】相關(guān)文章:
和諧論文藝美學(xué)的理論特征和邏輯構(gòu)架的論文05-28
監(jiān)控硬件工作狀態(tài)的硬件監(jiān)控芯片 -電腦資料01-01
教師繼續(xù)教育監(jiān)控及評(píng)價(jià)方式論文01-20
電網(wǎng)建設(shè)項(xiàng)目社會(huì)評(píng)價(jià)體系的構(gòu)建論文11-29
基于ACARS的發(fā)動(dòng)機(jī)狀態(tài)監(jiān)控08-17
徐樓節(jié)制閘工程安全狀態(tài)評(píng)價(jià)論文04-16
虛擬現(xiàn)實(shí)技術(shù)在電網(wǎng)監(jiān)控中的應(yīng)用11-05