上海鐵通公司 田文
在目前的通信運(yùn)營網(wǎng)絡(luò)中,SDH技術(shù)受到了廣泛的應(yīng)用。就鐵通上海分公司目前大規(guī)模的城域傳送網(wǎng)建設(shè)來看,四個(gè)跨區(qū)大環(huán)及其用于擴(kuò)容功能的延伸環(huán)都采用華為公司的Metro3000和Metro1000設(shè)備,滿足上海鐵通公司的傳輸業(yè)務(wù)需求。
由于傳輸業(yè)務(wù)中斷故障對(duì)電信運(yùn)營商的影響是很大的,因此要求盡快地給予定位和排除,F(xiàn)結(jié)合鐵通上海分公司使用的華為傳輸設(shè)備的故障判斷處理情況進(jìn)行闡述。
一﹑業(yè)務(wù)中斷的原因
業(yè)務(wù)中斷的可能原因是多方面的,如外部的供電電源故障、交換機(jī)故障、光纖電纜故障,人為的誤操作、配置錯(cuò)誤以及設(shè)備本身的故障等。設(shè)備問題引起的業(yè)務(wù)中斷,有些可能是由于指針調(diào)整太大引起的,有些可能是誤碼過大引起的,保護(hù)倒換失效也會(huì)導(dǎo)致的業(yè)務(wù)中斷。
二﹑處理業(yè)務(wù)中斷故障的一般過程與方法
各種類型的業(yè)務(wù)中斷故障,除瞬斷問題處理比較特殊和復(fù)雜外,其它類型故障都可以按一般的業(yè)務(wù)中斷故障的處理方法進(jìn)行處理。對(duì)于業(yè)務(wù)瞬斷問題,只能通過長期對(duì)全網(wǎng)告警、性能數(shù)據(jù)的仔細(xì)分析,通過對(duì)設(shè)備、單板運(yùn)行狀態(tài)的深入查詢,并通過替換法等多種方法,逐一排除電源低壓?jiǎn)栴}、光纖電纜問題、接地不良問題、單板軟硬件穩(wěn)定性等問題,最終將故障排除。
處理一般業(yè)務(wù)中斷故障的過程和方法和非中斷故障的處理方法相仿,處理原則為1.先外部,后內(nèi)部,也就是先考慮傳輸設(shè)備以外的因素,比如光纖,電源等;2.先單站,后單板;3.先線路,后支路;4.先高階,后低階。
具體的處理過程和方法如下:
1.排除外部設(shè)備故障
先通過自環(huán)法、替換法、告警分析法等方法排除外部設(shè)備故障的可能性。
2.定位故障在單站
然后,在通過告警性能事件分析法一時(shí)無法確定故障點(diǎn)的情況下,應(yīng)用逐段環(huán)回法迅速將故障定位到單站;故障定位到站點(diǎn)后,再利用狀態(tài)、配置數(shù)據(jù)檢查、分析法排除掉人為誤操作、配置錯(cuò)誤、設(shè)備狀態(tài)異常等情況,最后通過更換單板、重下配置、更改配置、復(fù)位、掉電重啟等方法將故障排除。
我們知道,通過逐站自環(huán)的方法,可以將故障定位到單站或兩站之間的光板上。下面講述的是通過自環(huán)法將故障定位到單站或兩個(gè)站間的光板之后,如何再進(jìn)一步排除業(yè)務(wù)中斷故障。
3.故障定位到兩站之間的光板后的業(yè)務(wù)中斷故障處理
第一步:分析故障現(xiàn)象,并根據(jù)各種單板處理信號(hào)的特性,判斷可能是哪個(gè)站的哪塊板有問題。如,對(duì)于SS31T16板,該板一片芯片處理的是連續(xù)四個(gè)奇數(shù)或偶數(shù)個(gè)VC4通道信號(hào);而SS31R16板一片芯片處理的是四個(gè)連續(xù)的VC4通道。若此時(shí)故障現(xiàn)象是四個(gè)連續(xù)的偶數(shù)個(gè)VC4通道有問題,則可以判斷是T16的問題。
第二步:若通過分析法無法定位故障的單板,則只能帶上備用光板,到現(xiàn)場(chǎng)通過對(duì)光口硬自環(huán)的方法判斷出問題的光板了。
應(yīng)該注意的是,對(duì)于復(fù)用段環(huán),硬自環(huán)前,應(yīng)首先鎖定保護(hù)倒換或停止保護(hù)倒換協(xié)議。對(duì)于軟內(nèi)自環(huán)業(yè)務(wù)正常的光板,若再使用光纖硬自環(huán)(注意光功率不要過載),業(yè)務(wù)也正常,則可判斷該板沒有問題,問題出在對(duì)端光板。應(yīng)到對(duì)端站點(diǎn),換掉有問題的光板,排除故障;若再硬自環(huán)后,業(yè)務(wù)不通,則說明該板有問題,可通過更換該板排除故障。
4.故障定位到單站后的業(yè)務(wù)中斷故障處理
a.若能通過告警性能事件分析法迅速定位出故障的單板,則通過更換單板排除故障。
b.若一時(shí)無法定位出故障位置,則按以下步驟進(jìn)行。
第一步:檢查有無誤操作。如支路板、線路板通道有無軟自環(huán)或硬自環(huán)的現(xiàn)象等。
第二步:檢查一些基本配置是否正確。如對(duì)于通道環(huán),應(yīng)檢查邏輯系統(tǒng)屬性以及支路板通道屬性配置是否正確;對(duì)于復(fù)用段,應(yīng)檢查邏輯系統(tǒng)屬性以及節(jié)點(diǎn)參數(shù)配置是否正確;檢查時(shí)隙配置、母板類型配置、業(yè)務(wù)裝載配置是否正常等。這一步在改動(dòng)了網(wǎng)元數(shù)據(jù)的場(chǎng)合尤為重要(比如升級(jí)擴(kuò)容),因?yàn)槲覀兘?jīng)常發(fā)現(xiàn)由于命令行配置文件的小錯(cuò)誤而導(dǎo)致業(yè)務(wù)中斷。
第三步:檢查系統(tǒng)自動(dòng)生成的數(shù)據(jù)以及單板狀態(tài)參數(shù)是否正確。如,對(duì)于通道環(huán),檢查交叉板備用總線生成的數(shù)據(jù)是否正確;對(duì)于復(fù)用段,檢查各頁面數(shù)據(jù)是否正確;檢查單板的狀態(tài)參數(shù),如內(nèi)、外定時(shí)、總線選擇等參數(shù)是否正確。
第四步:若通過以上步驟都無法定位故障,則使用經(jīng)驗(yàn)處理法,如重下配置、復(fù)位拔插單板、掉電重啟等方法嘗試能否排除故障。
第五步:若以上處理法都無效,則只能通過逐一更換單板的方法,排除故障。
三﹑傳輸網(wǎng)上常見的業(yè)務(wù)中斷問題
1.配置沒有下發(fā)到單板
a.對(duì)單板的autoload狀態(tài)缺省為“enable”。如果設(shè)置為“disable”,重新下發(fā)配置也不能下發(fā)到單板;
b.如果設(shè)置為“disable”,網(wǎng)元掉電、單板復(fù)位可以正常開工,但是用網(wǎng)管更改配置(如時(shí)隙)卻不能下發(fā)到單板。
查詢配置是否正確下發(fā)到單板,可以用cfg-get-autoload查詢,也可以使用“:cfg-check-board:板位,板類型;”命令。此命令是將單板側(cè)bddb庫中的內(nèi)容和主機(jī)側(cè)bsdb庫中的內(nèi)容相比較,如果一致則返回成功
2.OPtiX 設(shè)備處在保護(hù)倒換狀態(tài)時(shí)不允許配置業(yè)務(wù)
交叉板在倒換時(shí)是不允許進(jìn)行業(yè)務(wù)配置的。交叉在保護(hù)倒換時(shí)不允許配置業(yè)務(wù),這是出于保護(hù)當(dāng)前業(yè)務(wù)的目的,在交叉進(jìn)入保護(hù)時(shí),表明原有業(yè)務(wù)已經(jīng)處于保護(hù)態(tài)了,這時(shí)還下發(fā)新的配置是不合理的。此時(shí)如果配置業(yè)務(wù)會(huì)導(dǎo)致:
a.下發(fā)了新的業(yè)務(wù)配置,主機(jī)校驗(yàn)后,向所有相關(guān)板發(fā)送新的配置,包括線路板、支路板、交叉板。線路和支路接受了新的配置,但交叉板不理睬,從而導(dǎo)致業(yè)務(wù)不通;
b.然后主機(jī)產(chǎn)生新的復(fù)用段的保護(hù)頁面數(shù)據(jù);
c.這時(shí)停止協(xié)議時(shí),主機(jī)下發(fā)部分新的數(shù)據(jù)(交叉連接),業(yè)務(wù)還是不通的,因?yàn)榻徊姘宓钠渌渲梦聪掳l(fā)。
d.因此這種情況下必須拔插或復(fù)位交叉板,修改的數(shù)據(jù)才能加載到單板。
3.刪除邏輯系統(tǒng)導(dǎo)致業(yè)務(wù)中斷
邏輯系統(tǒng)被刪除后,其相應(yīng)的業(yè)務(wù)也被刪除。
這就要求進(jìn)行網(wǎng)管操作的時(shí)候特別小心,考慮清楚以后再進(jìn)行下一步的操作
四﹑保護(hù)倒換失效所導(dǎo)致的業(yè)務(wù)中斷處理
1.通道環(huán)業(yè)務(wù)中斷故障處理的基本思路和方法
在處理通道環(huán)的業(yè)務(wù)中斷故障時(shí),首先應(yīng)檢查一下邏輯系統(tǒng)的屬性和支路板的通道保護(hù)屬性這兩項(xiàng)基本配置是否正確。邏輯系統(tǒng)屬性配置為“通道保護(hù)環(huán)”,支路板通道屬性配置為“保護(hù)”,如果這兩個(gè)屬性配置錯(cuò)誤,業(yè)務(wù)倒換就無法實(shí)現(xiàn)。
在故障定位的時(shí)候,可以采用硬件和軟件的方式強(qiáng)制支路板選取主環(huán)或備環(huán)的業(yè)務(wù)。硬件方式,一般我們將通道環(huán)改造成兩條鏈來進(jìn)行處理——東向一條鏈和西向一條鏈。方法比較簡(jiǎn)單,任意斷掉一個(gè)站東向或西向一側(cè)的收、發(fā)兩根光纖即可。當(dāng)然,若業(yè)務(wù)中斷時(shí),通道環(huán)已經(jīng)是一個(gè)斷環(huán),則不需改造了。改造成鏈后,先排除一個(gè)方向主備通道的問題,再排除另一個(gè)方向主備通道的問題。軟件方式,可以用命令強(qiáng)制支路板選取主環(huán)或備環(huán)業(yè)務(wù),看是支路板的倒換有問題還是主備環(huán)業(yè)務(wù)路徑的其他環(huán)節(jié)有問題。
當(dāng)然,任何故障都一樣,若能通過故障現(xiàn)象的簡(jiǎn)單分析就可以定位出故障的單板,則不需要上面繁瑣的操作步驟了。
2.復(fù)用段環(huán)業(yè)務(wù)中斷故障處理的基本思路和方法
查看APS協(xié)議是否正常
對(duì)于復(fù)用段保護(hù)倒換故障,首先要判斷APS協(xié)議是否正常,判斷的依據(jù)是APS參數(shù)、狀態(tài)、事件和aps_fatal庫的內(nèi)容。若倒換協(xié)議異常,如協(xié)議不能正常啟停、保護(hù)倒換不動(dòng)作或部分站點(diǎn)倒換狀態(tài)不對(duì)、交叉板頁面切換錯(cuò)誤等,則首先要排除協(xié)議問題,然后再排除設(shè)備存在的其它問題。
排除協(xié)議問題后的處理
如果已經(jīng)排除了協(xié)議異常的問題,則此時(shí)的業(yè)務(wù)中斷有兩種情況:一種是全網(wǎng)保護(hù)倒換處于正常狀態(tài),保護(hù)倒換還沒有動(dòng)作;還有一種情況是保護(hù)倒換已經(jīng)正常動(dòng)作。