王 翔
建設(shè)目的
隨著中國移動通信數(shù)據(jù)業(yè)務(wù)的飛速發(fā)展,上海移動所提供的數(shù)據(jù)業(yè)務(wù)也越來越多。目前上海移動的主要數(shù)據(jù)業(yè)務(wù)包括城域網(wǎng)、GPRS、短信、WLAN、VOIP、WAP、LBS、EMAIL等業(yè)務(wù)。這些業(yè)務(wù)系統(tǒng)的網(wǎng)管主要采用設(shè)備提供商提供的網(wǎng)管系統(tǒng),基本停留在網(wǎng)元管理層次,無法滿足“集中監(jiān)控、集中維護(hù)、集中管理”現(xiàn)代化網(wǎng)絡(luò)管理模式的需要。為了提高網(wǎng)絡(luò)的管理、維護(hù)能力,為業(yè)務(wù)實現(xiàn)和實施提供有效的管理維護(hù)手段,全面提升數(shù)據(jù)業(yè)務(wù)的服務(wù)質(zhì)量,上海移動公司進(jìn)行了數(shù)據(jù)網(wǎng)綜合網(wǎng)管的建設(shè)。
數(shù)據(jù)網(wǎng)綜合網(wǎng)管的實現(xiàn)和功能介紹
1.網(wǎng)絡(luò)架構(gòu)簡介
2臺SUN680作為核心服務(wù)器,通過HA軟件進(jìn)行負(fù)荷分擔(dān),并共享1個磁盤陣列,SUNV480-1作為流量采集服務(wù)器,SUN V480-2作為業(yè)務(wù)采集服務(wù)器,這些設(shè)備均連接在綜合網(wǎng)管系統(tǒng)的核心交換機上,核心交換機通過防火墻連接到城域網(wǎng)。
考慮到網(wǎng)管系統(tǒng)的安全性,除城域網(wǎng)、VOIP業(yè)務(wù)等系統(tǒng)外,其他的業(yè)務(wù)系統(tǒng)(包括短信網(wǎng)關(guān)、LBS系統(tǒng)等)采用帶外管理,由SUNV480-2、路由器2621、交換機2948組成一個私網(wǎng)采集系統(tǒng)負(fù)責(zé)這些業(yè)務(wù)的采集。通過劃分不同的VLAN和響應(yīng)的訪問列表隔離這些系統(tǒng)的互訪,提高網(wǎng)絡(luò)安全性。
核心服務(wù)器安裝了存儲備份軟件和磁帶庫,負(fù)責(zé)對系統(tǒng)的數(shù)據(jù)進(jìn)行各種備份操作。告警數(shù)據(jù)可聯(lián)機存貯1個月,性能(包括設(shè)備性能、鏈路性能)、業(yè)務(wù)數(shù)據(jù)、流量流向數(shù)據(jù)可聯(lián)機存貯6個月;資源配置數(shù)據(jù)可聯(lián)機存貯3個月的標(biāo)準(zhǔn)計算存儲空間。所有數(shù)據(jù)均可脫機存儲1年。
2.采集方式
網(wǎng)管系統(tǒng)必須保證所采集數(shù)據(jù)的完整性、準(zhǔn)確性,同時應(yīng)保證網(wǎng)管系統(tǒng)在采集數(shù)據(jù)時不影響被管設(shè)備的正常運行。主要采用如下這些方式進(jìn)行采集:
通過SNMP方式獲取網(wǎng)元設(shè)備MIB信息;
通過周期或不定時發(fā)送ping數(shù)據(jù)包,判斷設(shè)備的工作狀態(tài);
通過監(jiān)聽代理的TRAP消息獲取故障信息;
接受網(wǎng)絡(luò)設(shè)備發(fā)送的流量數(shù)據(jù)包,如:Netflow;
通過讀取SYSLOG獲取數(shù)據(jù),如華為NAS設(shè)備;
為特定應(yīng)用、服務(wù)開發(fā)的管理代理,如:在服務(wù)器上安裝 CA AGENT代理,獲取信息;
通過數(shù)據(jù)庫、文件等接口采集數(shù)據(jù),如:夢網(wǎng)網(wǎng)關(guān)的性能統(tǒng)計報表;
通過模仿用戶行為,獲取網(wǎng)絡(luò)服務(wù)性能數(shù)據(jù);
通過手工錄入相關(guān)數(shù)據(jù);
其它合理的采集方式。
3.系統(tǒng)實現(xiàn)功能
上海移動數(shù)據(jù)網(wǎng)綜合網(wǎng)管系統(tǒng)利用東信公司的IPNetManager達(dá)到了對數(shù)據(jù)業(yè)務(wù)的監(jiān)控和管理。完成功能情況如圖2所示。
下面將對數(shù)據(jù)網(wǎng)綜合網(wǎng)管主要實現(xiàn)的功能進(jìn)行相關(guān)介紹。
資源管理
對全網(wǎng)資源配置信息(包括軟硬件信息)組織到一起,使維護(hù)人員和管理人員能在一個統(tǒng)一的網(wǎng)管平臺上實時查看、監(jiān)控、統(tǒng)計和分析這些信息,進(jìn)行網(wǎng)絡(luò)資源調(diào)配和優(yōu)化。資源管理模塊的數(shù)據(jù)來源于SNMP代理采集和用戶手工錄入。
資源管理在功能上主要包括配置管理和資產(chǎn)管理。配置管理幫助采集、監(jiān)控、統(tǒng)計和管理整個網(wǎng)絡(luò)的配置信息,供維護(hù)人員查詢網(wǎng)絡(luò)運行參數(shù)和配置狀況;可根據(jù)網(wǎng)絡(luò)管理其他功能生成的事件和維護(hù)人員的命令調(diào)整網(wǎng)絡(luò)設(shè)備配置,以保持整個網(wǎng)絡(luò)的正常操作。配置管理可以自動獲取設(shè)備的配置文件,與過去的配置文件進(jìn)行比較。
資產(chǎn)管理對網(wǎng)絡(luò)中的各種離線設(shè)備和在線設(shè)備的資產(chǎn)信息進(jìn)行管理。如備品備件、軟件清單、以及資產(chǎn)分類統(tǒng)計等。
資源管理提供豐富的資源信息統(tǒng)計報表,包括路由器版本信息一覽表、設(shè)備基本配置信息一覽表、網(wǎng)關(guān)節(jié)點設(shè)備數(shù)量分類統(tǒng)計、交換機節(jié)點設(shè)備數(shù)量分類統(tǒng)計等報表。
流量管理
數(shù)據(jù)網(wǎng)綜合網(wǎng)管流量管理主要對上海移動城域網(wǎng)業(yè)務(wù)進(jìn)行網(wǎng)絡(luò)流量狀況的檢測,保證網(wǎng)絡(luò)能夠有效、平穩(wěn)、安全地運行。并通過對網(wǎng)絡(luò)設(shè)備流量數(shù)據(jù)的采集和分析,向維護(hù)部門、管理部門提供相應(yīng)的運行數(shù)據(jù),供維護(hù)人員、管理人員根據(jù)網(wǎng)絡(luò)運行狀況制定合適的運行策略,使網(wǎng)絡(luò)運行在最高效的狀態(tài)下。同時對用戶專線鏈路的流量進(jìn)行實時檢測。
流量數(shù)據(jù)采集主要由兩部分組成,MRTG部分和NETFLOW部分。MRTG通過SNMP協(xié)議從設(shè)備處獲得流量信息,分析路由設(shè)備各個接口的物理流入/流出流量;NETFLOW部分用于采集由協(xié)議號和服務(wù)號所反映出的網(wǎng)絡(luò)業(yè)務(wù)流量、由路由器接口號反映出的鏈路流量、由自治域號反映出的網(wǎng)際流量,對上海移動城域網(wǎng)上承載的的流量內(nèi)容和流向進(jìn)行分析。流量管理以圖表的方式把流量數(shù)據(jù)提供給維護(hù)人員
提供網(wǎng)絡(luò)SLA管理,SLA管理模塊通過對城域網(wǎng)的主要鏈路進(jìn)行實時和定時采集,測量內(nèi)容包括物理鏈路的最大時延、最小時延、平均時延和丟包率。
把流量管理和告警管理進(jìn)行相應(yīng)的關(guān)聯(lián),當(dāng)流量指標(biāo)超過預(yù)先設(shè)定的范圍時,系統(tǒng)觸發(fā)流量告警。
故障與告警管理
故障與告警管理實現(xiàn)對數(shù)據(jù)網(wǎng)內(nèi)所有設(shè)備的告警監(jiān)測和故障定位,實時采集故障信息和實時性故障告警,進(jìn)行告警過濾和相關(guān)性分析、告警的實時顯示和報表生成、分析來自網(wǎng)元的告警和故障信息,準(zhǔn)確預(yù)警、定位和解決網(wǎng)絡(luò)中的故障。
故障與告警管理提供了5個級別的告警,不同級別的告警以不同的顏色和相應(yīng)的聲、光在告警窗口中顯示,并通過郵件和短消息把告警信息發(fā)給制定的維護(hù)人員,在一定時間內(nèi)未排除的告警,告警級別會自動上升;提供知識庫功能,記錄維護(hù)人員對不同告警情況的不同處理手段,以供查詢、共享排障經(jīng)驗。
性能管理
性能管理主要負(fù)責(zé)數(shù)據(jù)網(wǎng)內(nèi)設(shè)備的性能監(jiān)視、性能控制和性能分析,定期采集網(wǎng)絡(luò)設(shè)備、主機、數(shù)據(jù)庫性能信息。性能管理不但能及時收集設(shè)備的內(nèi)存利用率、CPU利用率,通過在主機和數(shù)據(jù)庫上安裝CAAgent軟件還可以監(jiān)視系統(tǒng)進(jìn)程信息、磁盤利用率、數(shù)據(jù)庫進(jìn)程信息等數(shù)據(jù)。性能管理當(dāng)前閾值越過閾值設(shè)定時,會產(chǎn)生相應(yīng)級別的告警。根據(jù)采集性能管理數(shù)據(jù)及各個方面的性能指標(biāo)、統(tǒng)計值,提供直觀的性能報表,供維護(hù)人員及時了解設(shè)備的性能指標(biāo),達(dá)到改善網(wǎng)絡(luò)總體性能水平的目的。
業(yè)務(wù)管理
數(shù)據(jù)網(wǎng)綜合網(wǎng)管提供豐富的業(yè)務(wù)管理,提供的業(yè)務(wù)管理包括VOIP業(yè)務(wù)、NAS業(yè)務(wù)、WAP業(yè)務(wù)、夢網(wǎng)網(wǎng)關(guān)業(yè)務(wù)、WLAN業(yè)務(wù)、MMS業(yè)務(wù)、DSMP業(yè)務(wù)、Email業(yè)務(wù)等,且還在不斷擴充中。把各個專業(yè)網(wǎng)管系統(tǒng)的業(yè)務(wù)管理模塊都集成到數(shù)據(jù)網(wǎng)綜合網(wǎng)管系統(tǒng)里面,這是數(shù)據(jù)網(wǎng)綜合網(wǎng)管的特色,它有自己獨立的數(shù)據(jù)模型和數(shù)據(jù)庫,實現(xiàn)各專業(yè)網(wǎng)管的功能。綜合網(wǎng)管的數(shù)據(jù)來源于網(wǎng)元或設(shè)備廠家自帶的網(wǎng)元層/網(wǎng)絡(luò)層管理系統(tǒng),具體方式根據(jù)各個專業(yè)廠家的實際情況來定。數(shù)據(jù)網(wǎng)綜合網(wǎng)管根據(jù)每個業(yè)務(wù)的自身特點提供相應(yīng)的管理,并提供完善的報表統(tǒng)計功能。
安全管理
安全管理對全網(wǎng)安全起保證作用,安全管理模塊提供對用戶進(jìn)行認(rèn)證和授權(quán)的功能,采用CA的eTrustAccessControl產(chǎn)品,基于角色-用戶的安全管理,以映射崗位責(zé)任制的機構(gòu)組織結(jié)構(gòu)。用戶根據(jù)自己的崗位獲得相應(yīng)的權(quán)限,訪問相應(yīng)資源。并提供日志管理,記載網(wǎng)管系統(tǒng)的系統(tǒng)事件,包括用戶登錄訪問時間、用戶IP地址、操作資源、操作成功或失敗等事件。
系統(tǒng)配置了IDS入侵檢測,IDS作為防火墻的功能延伸和補充,能檢測防火墻內(nèi)部的網(wǎng)絡(luò)和主機上發(fā)生的非法行為,這些行為多半發(fā)起于內(nèi)部系統(tǒng),防火墻無法觸及。
IDS入侵檢測、防火墻和eTrustAccessControl三者的結(jié)合,形成了一個立體的防護(hù)體系,從網(wǎng)絡(luò)入口、系統(tǒng)內(nèi)部互訪、操作系統(tǒng)資源訪問控制等方面加強了IP網(wǎng)絡(luò)管理系統(tǒng)的安全性,從而有效地保障了網(wǎng)管系統(tǒng)持續(xù)、可靠和可控的運行,以及網(wǎng)管數(shù)據(jù)的傳輸和存儲安全。
其它功能
數(shù)據(jù)網(wǎng)綜合網(wǎng)管除了上述幾種主要功能外,還提供報表管理、網(wǎng)絡(luò)拓?fù)、事?wù)管理、IP地址管理等功能。
報表管理是把數(shù)據(jù)網(wǎng)綜合網(wǎng)管各個管理模塊提供的報表都在報表管理模塊中進(jìn)行日匯總,維護(hù)人員可以到查詢到各個管理模塊提供的報表。
網(wǎng)絡(luò)拓?fù)涮峁┥虾?a class="channel_keylink" href="/search.asp">移動城域網(wǎng)和多個業(yè)務(wù)系統(tǒng)的網(wǎng)絡(luò)拓?fù)鋱D。在網(wǎng)絡(luò)拓?fù)鋱D上可以呈現(xiàn)網(wǎng)絡(luò)資源配置信息、故障信息、性能信息等各種信息
事務(wù)模塊提供維護(hù)人員維護(hù)流程化管理功能,主要功能包括待處理事務(wù)記錄、值班管理、局?jǐn)?shù)據(jù)記錄管理、維護(hù)日志管理、查詢信息管理等,并提供與電子工單系統(tǒng)的接口。
IP地址管理模塊提供被管網(wǎng)絡(luò)的IP地址規(guī)劃、IP地址信息組織和IP地址信息管理等功能,可以按照網(wǎng)段、子網(wǎng)、主機IP地址的固有從屬屬性,并結(jié)合地理位置、從屬業(yè)務(wù)類型等呈現(xiàn)不同從屬關(guān)系的各種樹圖。
實現(xiàn)后的優(yōu)點
IP綜合網(wǎng)管一期工程建設(shè)完成以后,維護(hù)人員提高了故障的及時響應(yīng)速度、加強了網(wǎng)絡(luò)和業(yè)務(wù)數(shù)據(jù)的收集和統(tǒng)計、網(wǎng)絡(luò)狀態(tài)的圖形化呈現(xiàn)等方面的能力。
1) 故障的及時響應(yīng)
IP綜合網(wǎng)管把采集到各種網(wǎng)絡(luò)告警經(jīng)過相應(yīng)處理后,以WEB頁面的方式加以不同的聲光告警級別直觀地體現(xiàn)在維護(hù)人員的面前,同時采用郵件、短信的方式,相比以前維護(hù)人員經(jīng)常登錄到相關(guān)系統(tǒng)查看告警的方式,目前網(wǎng)管的采用大大縮短了網(wǎng)絡(luò)和業(yè)務(wù)故障的處理時間。
網(wǎng)絡(luò)和業(yè)務(wù)數(shù)據(jù)的自動收集和統(tǒng)計
以前大量的網(wǎng)絡(luò)和業(yè)務(wù)的統(tǒng)計報表都需要維護(hù)人員手工收集數(shù)據(jù)和制表,費時費力,目前這部分工作由網(wǎng)管系統(tǒng)自動完成,定時產(chǎn)生各種統(tǒng)計報表,并且可以靈活設(shè)置采集時間,提高了效率和數(shù)據(jù)的準(zhǔn)確性。
配置數(shù)據(jù)的自動保存
對網(wǎng)絡(luò)設(shè)備配置數(shù)據(jù)的保存采用人工登錄的方式進(jìn)行采集保存,目前由網(wǎng)管系統(tǒng)定時采集、定時保存?zhèn)浞,同時提供對配置數(shù)據(jù)變化的合法性進(jìn)行判斷。
結(jié)束語
數(shù)據(jù)網(wǎng)網(wǎng)管系統(tǒng)是數(shù)據(jù)網(wǎng)網(wǎng)絡(luò)質(zhì)量控制、資源配置、業(yè)務(wù)調(diào)度的核心,對于提高網(wǎng)絡(luò)運維效率、降低網(wǎng)絡(luò)故障時延起到重要的作用。上海移動數(shù)據(jù)網(wǎng)綜合網(wǎng)管已經(jīng)完成了一期工程建設(shè),基本上滿足了需求。但是,市場的發(fā)展及變化、維護(hù)人員和客戶的需求,對業(yè)務(wù)的質(zhì)量、管理維護(hù)的效能都提出了更高的要求,我們還需要不斷改進(jìn)和完善數(shù)據(jù)網(wǎng)綜合網(wǎng)管的功能,如提供大客戶管理、SLA業(yè)務(wù)管理、動態(tài)資源建模等功能,建立全網(wǎng)資源的信息模型的,提供網(wǎng)絡(luò)層的綜合分析評估手段。