IT運(yùn)維的困惑
當(dāng)前,隨著企業(yè)業(yè)務(wù)的不斷擴(kuò)張,IT設(shè)備以及硬件也隨著業(yè)務(wù)的擴(kuò)張而不斷增加,隨之帶來的是運(yùn)維工作變得越來越復(fù)雜:以成長型的企業(yè)來講,過去100人規(guī)模企業(yè)它的IT運(yùn)維人員也需要5人左右,但當(dāng)企業(yè)規(guī)模達(dá)到500人以后,現(xiàn)有的IT運(yùn)維人員已經(jīng)不能滿足企業(yè)的需求,對于IT運(yùn)維人員來講,過去維護(hù)一臺PC或者一組網(wǎng)絡(luò),可以很親松,很快的完成,但當(dāng)企業(yè)的PC迅速增長的時(shí)候,增加了IT運(yùn)維人員復(fù)雜度,并且無法及時(shí)的了解IT的故障。IT運(yùn)維人員不斷的呼吁,有沒有能夠減少我們工作中的工作量?有沒有可以減少故障的發(fā)生率?
IT自動化管理這一趨勢顯然正在受到運(yùn)維人員關(guān)注,據(jù)了解,當(dāng)前許多的IT運(yùn)維人員很是希望可以通過自動化的運(yùn)維平臺來綜合管理,但目前由于市場上的產(chǎn)品“琳瑯滿目”,并不了解,哪些運(yùn)維產(chǎn)品能夠真正滿足,適應(yīng)運(yùn)維的需求,在再加上有限的IT預(yù)算,使IT自動化管理在企業(yè)中應(yīng)用的并不是很理想。
針對于IT運(yùn)維人員的困惑,IT168記者日前走訪IT運(yùn)維領(lǐng)域相關(guān)的服務(wù)商,就IT運(yùn)維產(chǎn)品的功能特點(diǎn)采訪了相關(guān)人員,以饗讀者。以下是IT168記者采訪NEC本部第二IT軟件事業(yè)部統(tǒng)括部長 山崎正史,就NEC的運(yùn)維新產(chǎn)品MasterScope功能特點(diǎn)進(jìn)行了詳解。
簡單自動化 運(yùn)維新啟點(diǎn)
提到NEC相信并不陌生,從成立到現(xiàn)在已經(jīng)有百年的歷史,NEC主要涉及的領(lǐng)域很廣包括IT專業(yè)的服務(wù)、IT相關(guān)的產(chǎn)品、網(wǎng)絡(luò)產(chǎn)品、電子科技、社會基礎(chǔ)設(shè)施以及個(gè)人解決方案等等。而在IT運(yùn)維領(lǐng)域,NEC更是“推舊呈新”于不久前推出適合于不同企業(yè)規(guī)模的IT運(yùn)維產(chǎn)品——MasterScope。
據(jù)NEC本部第二IT軟件事業(yè)部統(tǒng)括部長山崎正史介紹, MasterScope產(chǎn)品在日本的政府、金融、醫(yī)療等行業(yè)都有眾多的成功案例。如今中國客戶的業(yè)務(wù)飛速增長,為了更好地為中國客戶服務(wù),NEC發(fā)布MasterScope了中文版。
據(jù)了解,MasterScope是包括服務(wù)器、網(wǎng)絡(luò)、OS、中間件等IT管理組件的產(chǎn)品群,例如控制虛擬資源是由平臺運(yùn)維管理等產(chǎn)品進(jìn)行;作為綜合運(yùn)維管理的產(chǎn)品群涵蓋面非常廣泛,從各個(gè)產(chǎn)品中得到的信息,聚集在綜合運(yùn)維管理的產(chǎn)品。在系統(tǒng)以及服務(wù)上進(jìn)行自動化管理,故障處理以及恢復(fù),實(shí)現(xiàn)“簡單運(yùn)維管理”。
為了簡單管理多樣的系統(tǒng),MasterScope采用集成架構(gòu),以共同運(yùn)維管理基礎(chǔ)MasterScope FrameWork為核心。MasterScope FrameWork提供GUI消息管理、軟件管理等運(yùn)維管理基礎(chǔ)功能。這些基礎(chǔ)功能在服務(wù)器管理、存儲管理、網(wǎng)絡(luò)管理等各個(gè)組件里共同使用。
而在過去需要使用不同的工具進(jìn)行故障監(jiān)視、系統(tǒng)更改、版本管理的工作,現(xiàn)在可以實(shí)現(xiàn)標(biāo)準(zhǔn)化的統(tǒng)一管理,從綜合控制臺的一個(gè)畫面可以簡單的掌握系統(tǒng)的全體,從而有效地進(jìn)行運(yùn)維管理。
MasterScope具有靈活的擴(kuò)展性,應(yīng)用于大規(guī)模用戶、云計(jì)算數(shù)據(jù)中心以及中小規(guī)模用戶。在MasterScope系列中,在云領(lǐng)域重點(diǎn)開發(fā)的兩個(gè)新產(chǎn)品,CloudManager和vDC Automation。
據(jù)NEC相關(guān)負(fù)責(zé)人稱,在這兩年內(nèi),MasterScope以實(shí)現(xiàn)云數(shù)據(jù)中心的整體管理為目標(biāo):
一、運(yùn)營成本最優(yōu)化;
二、IT資源最優(yōu)化;
三、能源成本最優(yōu)化。
以運(yùn)營成本最優(yōu)化為例,系統(tǒng)性能分析產(chǎn)品Invariant Analyzer利用性能分析引擎來自動檢測故障,通過容量管理來預(yù)測未來的擴(kuò)容需要。
NEC(中國)IT網(wǎng)絡(luò)平臺事業(yè)部軟件銷售部經(jīng)理律戩詳細(xì)的從五方面介紹了MasterScope的功能,他指出:
第一、云環(huán)境中的系統(tǒng)運(yùn)維管理
云計(jì)算的發(fā)展讓應(yīng)用越來越方便,而且業(yè)務(wù)系統(tǒng)的使用者不需要考慮系統(tǒng)架構(gòu)、系統(tǒng)維護(hù)相關(guān)的問題。這一問題就交給運(yùn)維管理者去考慮。那么,云環(huán)境系統(tǒng)運(yùn)維帶來哪些變化呢?
首先,在云環(huán)境中所有的設(shè)備、服務(wù)器、網(wǎng)絡(luò)、存儲都會變得更為集中,設(shè)備的大集中會使云環(huán)境變得非常復(fù)雜。第二、在云環(huán)境中大量使用虛擬化的技術(shù),虛擬化的使用首先是帶來需要管理目標(biāo)的增加,另外就是系統(tǒng)架構(gòu)會隨著業(yè)務(wù)的變化而不斷的發(fā)生動態(tài)的變更。這些給運(yùn)維管理帶來一些新的需求,而運(yùn)維管理為了適應(yīng)這一需求會發(fā)生動態(tài)變化、虛擬化的環(huán)境,必須做出相應(yīng)的調(diào)整。
針對云環(huán)境中的系統(tǒng)運(yùn)維的特性,為了實(shí)現(xiàn)運(yùn)維的負(fù)荷和成本的優(yōu)化,關(guān)鍵在于兩個(gè)方面、一是可視化,二是自動化。通過可視化,可以實(shí)時(shí)的掌控云環(huán)境整體架構(gòu)的狀況和IT服務(wù)及功能要素的相關(guān)性能。通過自動化,可以提供維護(hù)的效率。
這些問題通過MasterScope產(chǎn)品群得到解決,實(shí)現(xiàn)運(yùn)維的最佳狀態(tài)。MasterScope提供的功能有幾方面:
一、綜合監(jiān)視;
二、物理架構(gòu)和虛擬架構(gòu)德克士華管理;
三、維護(hù)作業(yè)的自動化。
這些都圍繞著可視化和自動化兩個(gè)關(guān)鍵所做。
第二、MasterScope產(chǎn)品體系
首先,MasterScope最底層有一個(gè)IT基礎(chǔ)架構(gòu)管理的層面,IT基礎(chǔ)架構(gòu)是對服務(wù)器、對網(wǎng)絡(luò)、存儲及應(yīng)用程序分別有獨(dú)立的產(chǎn)品對它進(jìn)行管理和控制。
在運(yùn)維管理的操作層面提供工具,其中包括自動化的批處理作業(yè)管理JobCenter,還有軟件分發(fā)、平臺管理及備份管理產(chǎn)品這些工具實(shí)現(xiàn)運(yùn)維管理的自動化,提高管理的效率。
運(yùn)維管理里面最核心的應(yīng)該是對系統(tǒng)的監(jiān)控,通過系統(tǒng)監(jiān)控的層級示意圖,看一下產(chǎn)品的架構(gòu)。首先看到金字塔型的示意圖展示的是我們的系統(tǒng)從最底層的硬件平臺到上一層的服務(wù)器及服務(wù)器相關(guān)資源到最上一層的應(yīng)用。每個(gè)環(huán)節(jié)都有相關(guān)的產(chǎn)品對它進(jìn)行監(jiān)控,監(jiān)控層面也就是剛才介紹的IT基礎(chǔ)架構(gòu)的管理這樣一個(gè)層面。這些產(chǎn)品監(jiān)控的結(jié)果由綜合管理產(chǎn)品來做一個(gè)統(tǒng)一的管理,它可以把每一個(gè)環(huán)節(jié)的監(jiān)控狀況統(tǒng)一管理起來,并且提供綜合管理的相關(guān)功能。
針對統(tǒng)一管理所有的性能和信息,通過Invariant Analyzer來做一個(gè)自動化的分析,從中尋找系統(tǒng)當(dāng)中存在的性能問題或者為性能優(yōu)化做相關(guān)的指導(dǎo)。
第三、實(shí)現(xiàn)IT系統(tǒng)的可視化管理
運(yùn)維人員在云環(huán)境中對整個(gè)系統(tǒng)進(jìn)行管理首先要判斷的就是網(wǎng)絡(luò)的拓?fù)浣Y(jié)構(gòu)圖,產(chǎn)品提供的網(wǎng)絡(luò)拓?fù)淇梢暬δ埽紫葧詣影l(fā)現(xiàn)網(wǎng)絡(luò)中所存在的設(shè)備包括網(wǎng)絡(luò)設(shè)備服務(wù)器、存儲等等,并且自動展示各個(gè)設(shè)備之間的拓?fù)潢P(guān)系。可以根據(jù)這些設(shè)備物理存放的實(shí)際位置,按照層級展示,可以按照地域的分布狀況,可以按照樓層的分布狀況甚至按照機(jī)架的位置。還可以統(tǒng)一管理不同廠商各種各樣的網(wǎng)絡(luò)設(shè)備和服務(wù)器,在我們的網(wǎng)絡(luò)拓?fù)渲凶鲆粋€(gè)統(tǒng)一的管理。
同時(shí)還可對虛擬環(huán)境,包括虛擬機(jī)、底層的虛擬平臺,通過與不同廠商架構(gòu)的對接,可以實(shí)時(shí)掌握虛擬架構(gòu)當(dāng)中發(fā)生動態(tài)變化的狀況。當(dāng)虛擬環(huán)境根據(jù)業(yè)務(wù)的要求,在不同物理架構(gòu)之間進(jìn)行遷移時(shí),可以實(shí)時(shí)掌握遷移狀況,并且通過一個(gè)圖形化的界面展示出來。除此之外,還可以自動化的調(diào)度虛擬平臺的功能。
系統(tǒng)性能的可視化管理,管理人員日常工作當(dāng)中更關(guān)心的是整體的系統(tǒng)性能狀況如何,首先可以通過產(chǎn)品展示出網(wǎng)絡(luò)設(shè)備、服務(wù)器,甚至于應(yīng)用程序詳細(xì)的性能詳細(xì),通過這些性能詳細(xì)的圖形化展示,還有預(yù)值的監(jiān)視,可以分為兩級對預(yù)值進(jìn)行監(jiān)視,可以實(shí)時(shí)掌控系統(tǒng)性能的狀態(tài)如何,并且通過數(shù)據(jù)定期輸出的功能,把所監(jiān)控到的性能信息輸入到一個(gè)數(shù)據(jù)庫當(dāng)中,為我們創(chuàng)建性能報(bào)表做出相關(guān)的準(zhǔn)備。
第四、實(shí)現(xiàn)IT系統(tǒng)運(yùn)維自動化。在MasterScope系統(tǒng)中,很多的運(yùn)維處理,比如備份、補(bǔ)丁很多時(shí)候都是固定、定期的處理,它的重復(fù)很高。如果我們能夠把這些處理通過我們的程序把它標(biāo)準(zhǔn)化、流程化,把它定義到我們的系統(tǒng)當(dāng)中去,由我們的系統(tǒng)自動調(diào)度、完成處理,那么運(yùn)維管理效率會得到大幅提高,并且運(yùn)維管理的發(fā)生誤操作的情況也會杜絕。
系統(tǒng)構(gòu)成信息的自動更新。以往在傳統(tǒng)的IT系統(tǒng)當(dāng)中做資源的管理可能很多都需要去做手動的管理工作,比如拓?fù)鋱D之類的。在云環(huán)境當(dāng)中會根據(jù)系統(tǒng)的應(yīng)用狀況,客戶需求的狀況,會發(fā)生非常頻繁的系統(tǒng)構(gòu)成的變更。如果不能夠及時(shí)的掌握最新的系統(tǒng)狀況,運(yùn)維管理的操作會變得非常被動。通過與虛擬平臺的對接,不但可以把最新的狀況實(shí)時(shí)展示出來,還能自動更新,甚至基于自動更新業(yè)務(wù)需要,自動調(diào)度整個(gè)業(yè)務(wù)平臺,調(diào)度虛擬架構(gòu),適合新的業(yè)務(wù)的需求。
對整體性能自動化的分析功能,NEC提供了一個(gè)性能分析的產(chǎn)品Invariant Analyzer,它在大規(guī)模系統(tǒng)當(dāng)中,可以對整個(gè)系統(tǒng)所有的性能指標(biāo)做一個(gè)綜合的分析。
它的分析原理是:根據(jù)正常運(yùn)行狀態(tài)下的性能狀況,去建一個(gè)數(shù)學(xué)模型,各個(gè)性能指標(biāo)之間的邏輯關(guān)系,把模型建立起來之后,就會在日常的運(yùn)維過程中,對實(shí)時(shí)的數(shù)據(jù)和數(shù)學(xué)模型進(jìn)行比對,當(dāng)發(fā)現(xiàn)性能信息不符合數(shù)學(xué)模型的時(shí),就會找到發(fā)生異常的地方是在哪一臺服務(wù)器的哪一個(gè)性能指標(biāo)上面。
通過這種方式,可以自動分析出系統(tǒng)存在性能的地方是在哪里。以往沒有這種處理方式,經(jīng)常需要運(yùn)維管理的專家、數(shù)據(jù)庫專家、硬件專家去分析很長時(shí)間才能夠找到、定位找故障點(diǎn)在哪里,而有了這個(gè)工具,用非常短的時(shí)間就能自動發(fā)現(xiàn)問題的位置。通過這些自動化的功能,通過這些可視化的功能,可以非常高效管理云環(huán)境小的IT系統(tǒng)。
第五、MasterScope所提供的綜合管理功能。除了通過物理視角或者虛擬化的視角去分析,綜合管理還可以通過業(yè)務(wù)視角對系統(tǒng)進(jìn)行監(jiān)控和故障的分析。
綜合管理功能提供一個(gè)知識庫的功能,通過知識庫,可以確保服務(wù)級別的持續(xù)改善。故障發(fā)生之后去調(diào)查,調(diào)查之后解決,再進(jìn)行恢復(fù)。如果加入知識庫的功能,可以把運(yùn)維相關(guān)的知識全都放在知識庫里進(jìn)行統(tǒng)一的管理
首先,知識庫當(dāng)中會加入NEC在運(yùn)維當(dāng)中的相關(guān)經(jīng)驗(yàn)比如包括Windows OS、服務(wù)器和Oracel之類的,在故障發(fā)生時(shí),只要到知識庫當(dāng)中進(jìn)行查詢,可以得到與這個(gè)故障相關(guān)的指導(dǎo)信息,有了這個(gè)指導(dǎo)信息,去判斷故障的原因,分析故障的解決辦法來說,就會有一個(gè)相關(guān)的依據(jù)。跟實(shí)際情況進(jìn)行比對,我們找到真正故障相關(guān)解決辦法的時(shí)候,還可以把自己相關(guān)的一些經(jīng)驗(yàn)豐富到或者更新到知識庫當(dāng)中去。圍繞知識庫的運(yùn)維管理流程,可以通過知識庫不斷的改善整個(gè)運(yùn)維的水平,甚至可以去實(shí)現(xiàn)當(dāng)我們故障發(fā)生的時(shí)候,通過知識庫相關(guān)的功能,實(shí)現(xiàn)故障的自動處理。
知識庫的內(nèi)容包括如何去監(jiān)視這個(gè)系統(tǒng),我們發(fā)現(xiàn)什么指標(biāo)變動的時(shí)候,可以認(rèn)為這個(gè)系統(tǒng)發(fā)生故障了,可以設(shè)置相關(guān)的過濾條件。第二、如何通報(bào)、把這個(gè)故障通報(bào)給誰、通過什么方式。
第三、故障相關(guān)信息有哪些,如果故障發(fā)生的時(shí)候,可以自動匹配,最后展示給管理員。
最后是故障恢復(fù)方法,這個(gè)方法可能自動記入到相關(guān)信息里面去,也可能是一個(gè)自動腳本。這樣一個(gè)知識庫的功能可以實(shí)現(xiàn)高效的運(yùn)維,實(shí)現(xiàn)一個(gè)不亞于管理員個(gè)人能力的運(yùn)維水平。
實(shí)現(xiàn)大規(guī)模分布式環(huán)境的統(tǒng)一管理,面向目標(biāo)系統(tǒng)從幾十臺服務(wù)器多幾十萬臺服務(wù)器,不同規(guī)模都可以支持。對于大型的系統(tǒng)通過管理服務(wù)器分層級的功能去實(shí)現(xiàn)。在上層的管理系統(tǒng)匯總下面所有相關(guān)的信息,并且可以在兩層的管理服務(wù)器之間設(shè)立消息過濾的機(jī)制,只需要把上層管理員所關(guān)心的信息匯總上來就可以了。
用戶權(quán)限管理功能,大型的IT系統(tǒng)運(yùn)維管理系統(tǒng)當(dāng)中,會涉及到不同的管理員,不同級別的人員,需要給他分配不同的權(quán)限。比如說某一些用戶可以擁有完整的權(quán)限,某一些用戶可能僅有監(jiān)視的權(quán)限。通過用戶權(quán)限的管理,可以防止一些誤操作的發(fā)生,并提高整個(gè)系統(tǒng)的安全性。
操作審計(jì)日志管理功能,通過權(quán)限的管理,限定每一個(gè)工作人員所管理的范圍,通過審計(jì)日志,會記錄下來每一個(gè)管理人員他所做的所有操作,當(dāng)問題發(fā)生的時(shí)候,可以通過這個(gè)審計(jì)日志追溯到這個(gè)操作由于哪一個(gè)管理員做了哪一個(gè)操作影響的,可以通過一個(gè)審計(jì)的管理。