|
在多年的網路管理軟體開發和項目實施中,我接触了許多的一線工程師,并專門拿出時間和這些每天出入在机房的工程師溝通,收集他們在管理工作中遇到的實際需求,專注于將令其"頭痛"的問題通過SiteView集中解決。
針對各种懸在頭頂的難題,我總結出了網路管理七大實戰兵法,希望可以給您一些啟發。
第一計:重中之重——關鍵業務流程
需要監測的關鍵業務流程包括:1、單位內部的關鍵業務流程。如項目管理信息系統、生產管理信息系統等。2、網路吞吐量大的業務流程。主要是一些复雜和交互式的業務流程,資金集中管理系統、公文流轉系統等。3、對系統造成大的壓力,頻繁使用數据庫的業務流程。4、同其它系統集成的業務流程,這些集成會提高應用失敗的風險。
這些業務系統龐大而牽涉面眾多,需要一個綜合業務管理平台進行整體的監測整合。好的解決方案是引進網管系統,對業務系統是否正常運行、各項具體參數指標是否超標等進行精确掌控,避免或降低業務系統故障的發生率。
第二計:用戶體驗同系統性能指標相關聯
在制定監控策略時,應該考慮將網路中的所有網路基礎架构都進行集中監測,包括對數据庫服務器、應用服務器、路由器、交換机、防火牆的監控,從而判斷哪里出了問題導致公司網路暢通運行。信息服務管理網的網管工程師通過使用SiteView網管工具收集網路運行信息,將性能數据同單位內部用戶的體驗相結合來分析網路的性能狀況,診斷系統瓶頸。
第三計:建立網路運行基准指標并觀察趨勢
長期監測并建立基准指標對于保持網路和性能的正常性能水平是非常必要的。通過對網路運行的觀察,運維工程師可以知道網路性能的變化和流量等指標的運行趨勢;及時發現網路偏离系統基准模型時的异常狀況,分析是單一故障,還是嚴重問題的前兆,達到預警的目的,防止更嚴重問題的發生。
第四計:設計報警策略,避免警報泛濫
報警是管理網路和業務系統最重要的功能之一,配置報警的依据是根据信息服務管理網的網路運維目標,報警設置的原則:1、對影響網路和業務的重要指標設置報警;2、消除誤報和重复報警;3、報警應該以多种方式及時發送給相應的運維工程師。
第五計:創建自動化、規范化事件處理程序
信息服務管理網運維工程師人員少,日常處理事務較多,他們需要在網路、鏈路和系統運行出現問題時能夠有自動化、規范化的處理問題程序,快速處理各种潛在故障并且分配他們到合适的管理工程師,幫助他們提高工作效率。建立規范事件處理程序的另一個好處,是將工程師長期積累的知識和工作經驗系統化和固化,達到快速定位故障的目的。
第六計:網路服務質量SLA的量化管理
提高服務質量的第一步是設立量化指標,將其作為整個網路運維管理團隊的整體目標。信息服務管理網網路性能管理的總體目標包括網路和設備、業務的可用性、網路的吞吐量、帶寬使用百分比、網路延時、CPU和MEMORY的負載,對于不同的網路指標還要根据網路的上下級連接關系分解到每一個子指標,作為對網路故障診斷和性能管理的依据。
第七計:制定網路的升級和改進策略
網路的升級和改進應該以對現有網路和系統性能數据的測量為前提,以對網路整體運行的現狀及趨勢分析為依据。通過對單一網路系統和整體網路系統性能數据的比較、單一網路組件和其它網路組件的數据比較、系統負載量最大時的性能數据和一般負載時的性能數据的比較等,判斷是否需要對系統的局部或者整體進行升級,發現網路系統性能的瓶頸,提出網路系統改進的方法。
|