掃碼下載APP
及時接收最新考試資訊及
備考信息
一、背景說明
隨著IT技術在企業(yè)的應用,許多企業(yè)已經建立了核心業(yè)務系統(tǒng),如ERP、OA、數據倉庫等,業(yè)務策略驅動IT策略的建立,IT策略支持業(yè)務策略,由此,許多企業(yè)的運作已經離不開IT系統(tǒng)了,因此任何一個故障造成的損失,影響面是比較大,甚至影響整個企業(yè)的業(yè)務。而傳統(tǒng)的運行維護管理模式比較被動, 即只有當系統(tǒng)出問題時, 才會引起注意和得到解決, 或者當業(yè)務受影響, 并被業(yè)務部門匯報投訴,才發(fā)現(xiàn)問題。 這種管理模式已經不能適應目前環(huán)境下業(yè)務的需求。
其次,從生命周期的角度看,無論是硬件還是軟件,大致可分為規(guī)劃和設計、開發(fā)和測試、實施、運營和終止等5個階段。前面3階段從時間的角度看,只占生命周期的20%,其余80%的時間基本上是運維服務,如果整個IT的運維做得不好,那么這些花費大筆投資建立起來的系統(tǒng),無法帶來預期的效益,甚至于無法使用,因為使用者無法順利使用他們。
根據Gartner Group調查發(fā)現(xiàn),在經常出現(xiàn)的問題中,源自技術和產品方面的其實只占了20%,流程失誤占40%,人員疏失占40%。流程失誤包括變更管理沒有做好、超載、沒有測試等流程上的失誤或不完整,人員疏失包括遺忘、訓練不足、備份錯誤及安全疏忽等。這就說明IT運維方面的問題,更多的不是技術問題,而是來自管理方面,因此對IT系統(tǒng)需要一套管理系統(tǒng)來支撐,這就是運行維護系統(tǒng)。
二、信息系統(tǒng)運行維護面臨的挑戰(zhàn)
一般信息系統(tǒng)架構的層次如下:
由此,我們可以看到,為了保證應用系統(tǒng)的可用性,不但要保證應用程序本身的正確性和健壯性,同時還要保證從網絡到應用程序端到端的可用性,為此,從運行維護的角度來看,必須從整體的角度來規(guī)劃,對與應用系統(tǒng)相關的IT基礎設施、支撐平臺進行集中監(jiān)控,并與應用系統(tǒng)進行關聯(lián),一旦出現(xiàn)故障,可以迅速定位并解決;同時定義相關的流程保證一個應用的變更不會對其他應用產生影響,對出現(xiàn)的問題從根源上找出原因,并進行解決,從而保證系統(tǒng)的高可用性?;诒救藢T服務管理的理解,基于ITIL的框架,提出運行維護系統(tǒng)建立的一些想法。
三、運行維護系統(tǒng)的設計
那么如何設計IT運行維護系統(tǒng)呢?主要從兩方面著手,一是管理流程的設計,二是系統(tǒng)監(jiān)控的設計。在管理流程方面,目前ITIL(IT Infrastruct Library)基本上成為事實上的標準,它是最佳實踐的結晶;在系統(tǒng)監(jiān)控方面包括從IT基礎設施應用系統(tǒng)進行監(jiān)控,并實現(xiàn)事件的關聯(lián),以實現(xiàn)主動的監(jiān)控,實現(xiàn)故障的快速定位和預警,下面具體說明。
(一)運維系統(tǒng)的設計理念運維系統(tǒng)的設計理念基于ITIL-IT服務管理框架,ITIL 將IT 服務管理分為:
●信息和通信基礎框架管理,這部份將更側重于技術視角。
●服務管理,包括“提供IT 服務” 和“支持IT ”服務兩部分,關注在提供IT 服務過程中,監(jiān)控,管理,處理解決問題的整個過程。
●面向業(yè)務的管理,將從業(yè)務的視角來看管理,將管理IT 服務與IT 服務所支撐的業(yè)務關聯(lián)。
1. 信息和通信基礎
框架管理IT 基礎框架的智能管理是服務保障的基礎,應該是一個可以全面管理IT 基礎框架中所有產品和技術的平臺,并通過提供以下能力達到真正的業(yè)務價值、真正的投資回報、保障安全生產,提高服務水平。
IT 基礎框架的智能管理將覆蓋企業(yè)IT環(huán)境,提供包括廣域網,局域網,主機接入網絡,網絡安全設備,Internet 服務的全方位的IT 從網絡到系統(tǒng),應用,業(yè)務的監(jiān)控管理,以及面向IT運維的事件壓縮,事件相關性分析,故障診斷,根源故障分析,自動化的故障處理等一系列功能和工具。
2. 服務管理今天,正進行著服務
管理的革命。幾乎所有企業(yè)的IT 部門都正在向面向業(yè)務的服務提供者的轉變。IT部門就像一個合作伙伴一樣參與到企業(yè)的業(yè)務過程,主動的提供服務職能,并向它的客戶-業(yè)務部門負責。
ITIL 將企業(yè)的IT 服務管理分為:
提供IT服務,關注在提供IT 服務過程中和管理行為和手段;
支持IT 服務, 關注在支持IT 服務過程中,處理問題,變更等的動作和流程。
?。?)提供IT 服務提供IT 服務包括:制定規(guī)劃,為業(yè)務部門按計劃和服務質量提供服務保障提供服務的持續(xù)性。
在服務提供體系實現(xiàn)的主要任務是:
■服務水平管理
■可用性管理
■容量管理
■成本管理
■應急方案
(2)支持IT 服務支持IT 服務包括:為達到服務目標提供相關管理信息。為實現(xiàn)服務目標提供相應的支撐機制。
服務支持體系實現(xiàn)的主要任務是:
■配置管理
■幫助臺管理
■問題管理
■變更管理
■軟件控制和分發(fā)管理
3. 面向業(yè)務的管理面向業(yè)務的IT 管理是從客戶視角的端到端服務監(jiān)控管理,它的特點是:
提供直觀的監(jiān)控視圖,能夠實時判斷通信和IT 基礎框架故障對業(yè)務的影響;
在發(fā)生影響業(yè)務的故障時,IT服務保障部門能夠最快的獲知問題的發(fā)生,并迅速采取行動;
根據故障對業(yè)務的影響情況,決定處理的優(yōu)先級;
當業(yè)務服務發(fā)生問題時能夠確定故障所在的基礎框架層次;
通知相關客戶服務系統(tǒng)或大客戶,告知問題的狀況和解決進展;
面向客戶業(yè)務服務,提供基于Web 的多種視圖,包括端到端服務監(jiān)控層次模型,和監(jiān)控構成服務系統(tǒng)的各個組件;
面向業(yè)務管理的宗旨是通過全面的業(yè)務系統(tǒng)和IT 框架系統(tǒng)監(jiān)控,增強管理,提高管理水平,并最終保障業(yè)務的成功運行。實現(xiàn)IT基礎框架端到端的監(jiān)控和與業(yè)務的關聯(lián)。
?。ǘ┻\維系統(tǒng)的設計目標●確保IT流程支撐業(yè)務流程, 整體提高業(yè)務運營的質量。
●提高用戶的滿意度, 提升企業(yè)的社會效益和經濟效益。
●實時實現(xiàn)對從IT的基礎架構到應用系統(tǒng)的端到端的運行情況進行監(jiān)控。
●提供從業(yè)務角度分析IT基礎設施(包括系統(tǒng)、網絡、數據庫、應用服務器)的能力。
●建立完善的支持服務流程和支持模式。
●建立滿足服務水平要求的服務水平管理。
?。ㄈ┗贗TIL的理念建立規(guī)范的處理流程在ITIL中要建立許多管理流程,在實際應用中,我覺得至少需要建立下面幾個流程:
?。?)問題管理建立并應用問題處理程序,以實現(xiàn)對問題診斷和確定解決問題的方案, 并將解決方案記錄在配置數據庫中,針對服務水平管理確定并實現(xiàn)內部的問題升級時間標準。
?。?)資產管理對于每天發(fā)生的事件, 問題, 變更處理, 新服務的配置, 各個組件的信息,資產管理的職責就是提供和維護這些信息, 它是與服務管理相關的最重要的任務之一。
?。?)Help Desk管理擔當服務中與業(yè)務部門和客戶的主要接觸點(point-of-contac)。存儲事件, 確定問題嚴重級別, 綜合支持團隊的努力, 確保及時準確地解決問題, 并提供SLA統(tǒng)計, 證明能夠達到預期的服務級別。
(4)變更管理保證清楚的了解變更針對一個服務中任何組件的影響, 并保證對服務水平的影響最小, 變更管理包括SLA文檔和服務目錄的變更, 以及組織變更和針對軟件和硬件的變更。
?。?)故障管理故障管理的主要目標是盡可能快地恢復服務至服務級別協(xié)議(SLA)要求的水準,盡可能減少故障對服務運營的不利影響,以確保最好的服務質量和可用性級別。
?。ㄋ模┻\維系統(tǒng)的組成在一般的運維系統(tǒng)中,需要一個大房間,在大房間中分成以下幾個部分,每個部分都扮演相應的角色:
第一層:大屏幕分別顯示有,基于業(yè)務的視圖,基于IT基礎架構的視圖,基于網絡的視圖,當故障出現(xiàn)時能夠以特定的顏色顯示出來,同時可以顯示一些公司需要直觀顯示的數據。
第二層:服務臺(Help Desk),主要提供:
●接受客戶的請求
●提供客戶使用上的問題咨詢
●提供客戶業(yè)務咨詢
●記錄并跟蹤故障和客戶意見
●根據知識庫,盡快解決問題
●及時通知客戶其請求的當前狀況和最新進展
●根據服務級別協(xié)議,初步評估請求,經歷解決它們或安排給一線工程師解決
●對客戶的故障從提出到驗證及終止的整個過程進行管理
●協(xié)調一線工程師和值班工程師第三層:一線支持工程師
●根據提供的監(jiān)控界面迅速定位問題并解決
●對于臨時的解決辦法,還要把故障提交給問題處理流程
●根據服務級別,在問題未能及時解決時及時把問題提交給值班經理第四層:值班經理個人
●協(xié)調技術專家,根據服務協(xié)議的時間要求,解決問題
●協(xié)調供應商,根據維護協(xié)議要求,解決問題
?。ㄎ澹┻\維系統(tǒng)的功能設計基于ITIL設計理念,我們把ECC的實時監(jiān)控部分設計成層次架構,如下圖:
1. 事件采集層
在最基本的層次上,需要從被管理的IT基礎設施中獲取廣泛的,實時的數據,能夠從網絡、系統(tǒng)和應用層中捕獲、匯聚并處理大量數據的能力,我們通常稱之為事件管理。
事件管理是整個面向服務管理系統(tǒng)的核心,在數據采集階段(包括網絡、系統(tǒng)和應用層)采集的信息,只有經過事件管理服務器,轉變?yōu)榻y(tǒng)一的格式,再流入智能化的管理層,實現(xiàn)事件的相關性分析。
數據采集層是整個管理系統(tǒng)進行信息處理和智能化分析的基礎,因此需要充分獲得準確、實時、完整的管理數據。在數據采集層,應該進行原始數據的過濾、分類、分級等預處理操作,從中提煉出重要的管理信息。數據采集層獲取信息的實時和準確性,以及對原始信息的預處理能力,將在很大程度上影響整個管理系統(tǒng)的管理能力和效率。
2.事件處理層
數據收集僅僅是實現(xiàn)業(yè)務和通信及IT基礎框架管理的基礎,需求最簡單的先決條件。實現(xiàn)真正的基礎框架智能化意味著能夠從整個基礎框架產生的大量數據中,通過采用一系列先進的過濾,事件壓縮,關聯(lián)和診斷的技術進行處理,抽取管理人員需要關注的重要信息。好的基礎框架監(jiān)控管理系統(tǒng)能夠將網絡以至IT系統(tǒng)的專業(yè)化知識融入在管理系統(tǒng)中,根據基礎框架層各組成資源的特點,從原始的管理數據中智能分析系統(tǒng)的真實狀況,判斷資源實際的運行狀態(tài),分析故障發(fā)生的根源并提出解決建議,使運維人員解決問題更加準確和有效。一般包含以下功能:
?。?)事件的存儲將運行維護數據與歷史數據分開存儲, 以確保管理的效率。 一般管理信息需要保留6個月甚至更長的數據, 以進行統(tǒng)計分析和存檔, 而在日常運行管理中, 一般只需要查看最近一周甚至更短的信息, 一般采用運行數據與實時數據分開存儲, 運行數據采用高速的內存數據庫保證事件處理的實時性, 歷史數據采用穩(wěn)定的關系型數據庫保證事件存儲的可靠性和容量,這種結構使事件的處理更加合理。
?。?)事件壓縮IT資源事件中有很多重復事件, 尤其在系統(tǒng)組件不穩(wěn)定時, 有可能會產生事件風暴。過多的事件會使管理員的桌面上羅列大量事件條目,管理員無法獲取真正需要關注的重要事件,因此對重復事件進行合并使事件條目清晰, 幫助管理員快速找到需要處理的故障是非常重要的。重復事件壓縮就是這樣的一個過程: 通過將從下層數據源所報告的相似事件加以匯總,合并成一條事件,該事件的內容包含了該事件重復的次數以及發(fā)生的起止時間。
?。?)事件自動化處理可以對各類事件信息進行邏輯判斷, 并做出相應的動作, 如及時刪除不必要的信息、完成不同事件之間的關聯(lián)、對嚴重事件采用明顯的聲音報警、自動升級警告級別如果嚴重事件在一段時間內沒有人響應、發(fā)送郵件進行自動通知等等。
?。?)可用性的計算方法根據故障樹分析FTA(Fault Tree Analysis)方法,結合可用性的計算方法,來計算服務的可用性。
組件可用率的計算方法:組件可用率 = (AST-DT)/AST*100% AST——約定服務時間(Agreed service time)
DT——在約定時間內的實際停機時間(Actual downtime)
?。?)可用性的評估指標通常我們采用下面幾個指標來對可用性進行評估:
?、倨骄鶡o故障時間(MTBF-Mean Time Between Falures),它指的是從某次事故修復到下次事故發(fā)生之間的平均間隔時間,又稱為正常運營時間(Uptime),它是用來描述服務的可靠性。
?、谄骄迯蜁r間(MTTR-Mean Time To Repair),它指的是事故發(fā)生到服務恢復之間的平均間隔時間,又稱為停機時間(Downtime),它是用來描述服務的可維護性和適用性。
3.業(yè)務關聯(lián)層業(yè)務影響分析, 基于CFIA等分析法,定義事件和業(yè)務系統(tǒng)的關聯(lián)關系, 自動找到故障所影響的業(yè)務和服務, 并根據關聯(lián)結果創(chuàng)建新的服務事件報警。
4.呈現(xiàn)層提供基于Web方式的監(jiān)控視圖, 可以為不同的管理人員提供不同的監(jiān)控窗口, 以實時監(jiān)控相關的事件信息, 事件窗口可以通過分組顯示不同類型、級別、源、時間段內的事件信息, 管理員可以一目了然的看到目前是否有事件發(fā)生, 級別如何, 并對事件進行一系列的處理工作。
5.報表處理層各種監(jiān)控信息存儲在關系數據庫中,可以利用報表工具進行信息統(tǒng)計分析,生成各種格式的報表。
報表應用可以與實時故障監(jiān)視環(huán)境實現(xiàn)無縫集成,為運維提供一種長期的綜合視圖。報表應用幫助管理人員了解其各種基礎設施在各種不同期間的行為特點,從不同設備、系統(tǒng)和服務的層次上對各種基礎架構的長期行為特點進行查看和分析。
?。┻\維系統(tǒng)的設計要求
1.基于ITIL框架設計, 結構先進運維系統(tǒng)的設計要求基于ITIL的框架, ITIL的框架是最佳實踐的結晶。
2.可擴展性如果需要一個新的展示層或者事件關聯(lián),必須能夠無縫擴充或集成到現(xiàn)有的管理框架中。為了保證隨著系統(tǒng)架構的延伸擴展而產生的越來越多的事件信息的處理性能,在任意一個層次增加都不會影響整體框架結構。
3.集成性集成企業(yè)現(xiàn)有以及未來可能要擴充的設備和管理系統(tǒng)。如果需要增加新的監(jiān)控對象,則最多只需簡單地增加一個探針,或增加一個新的關聯(lián)層 .
4.集中化已經處理的事件(重復壓縮和事件關聯(lián))集中在一個地方。因此管理員可以共享整個系統(tǒng)的事件信息。
5.關聯(lián)因為事件關聯(lián)功能在整個系統(tǒng)管理中是分布的,因此為一個新服務增加新的事件關聯(lián)是非常容易的。
6.冗余數據顯示層和關聯(lián)層的設計將考慮冗余設計,當任何一個服務器失敗,數據采集層的探針將會自動切換到另一個服務器。
綜上所述,運維系統(tǒng)的設計,主要從兩個方面來實現(xiàn),一是管理流程的設計,二是系統(tǒng)監(jiān)控的設計,通過上面的描述,我們看到,系統(tǒng)監(jiān)控的作用:當系統(tǒng)出現(xiàn)故障時通過對系統(tǒng)各個層面的監(jiān)控以及事件的關聯(lián),能夠保證快速定位故障,從而快速解決故障,使得故障對業(yè)務的影響降到最小,同時通過對系統(tǒng)性能的監(jiān)控,進行預警,可以做到防范于未然,防范故障于萌芽狀態(tài),保證系統(tǒng)的可用性;而規(guī)范的管理流程,保證所有的問題在每一個階段得到有效的處理
Copyright © 2000 - m.yinshua168.com.cn All Rights Reserved. 北京正保會計科技有限公司 版權所有
京B2-20200959 京ICP備20012371號-7 出版物經營許可證 京公網安備 11010802044457號