故障定位的基本思路
在排除比較復雜網(wǎng)絡的故障時,常常要從多種角度來測試和分析故障的現(xiàn)象,準確確定故障點,在實際應用中通常采用的分析模型和方法如下。
(1)7層的網(wǎng)絡結(jié)構分析模型方法。從網(wǎng)絡的7層結(jié)構的定義和功能上逐一進行分析和排查,這是傳統(tǒng)的且最基礎的分析和測試方法。這里有自下而上和自上而下兩種思路。自下而上是從物理層的鏈路開始檢測直到應用,白上而下是從應用協(xié)議中捕捉數(shù)據(jù)包,分析數(shù)據(jù)包統(tǒng)計和流量統(tǒng)計信息,以獲得有價值的資料。
(2)網(wǎng)絡連接結(jié)構的分析方法。從網(wǎng)絡的連接構成來看,大致可以分成客戶端、網(wǎng)絡鏈路、服務器端3個模塊。
客戶端具備網(wǎng)絡的7層結(jié)構,也會出現(xiàn)從硬件到軟件、從驅(qū)動到應用程序、從設置錯誤到病毒等的故障問題。所以在分析和測試客戶端的過程中要有大量的背景知識,有時PC發(fā)燒友的經(jīng)驗也會有所幫助,也可以在實際測試過程中詢問客戶端的用戶,分析他們反映的問題是個性的還是共性的,這將有助于自己對客戶端的進一步檢測作出決定。
來自網(wǎng)絡鏈路的問題通常需要網(wǎng)管、現(xiàn)場測試儀,甚至需要用協(xié)議分析儀來幫助確定問題的性質(zhì)和原因。對于這方面的問題分析需要有堅實的網(wǎng)絡知識和實踐經(jīng)驗,有時實踐經(jīng)驗會決定排除故障的時間。
在分析服務器端的情況時更需要有網(wǎng)絡應用方面的豐富知識,要了解服務器的硬件性能及配置情況、系統(tǒng)性能及配置情況、網(wǎng)絡應用及對服務器的影響情況。
工具型分析方法。有強大的各種測試工具和軟件,它們的自動分析能快速地給出網(wǎng)絡的各種參數(shù)甚至是故障的分析結(jié)果,這對解決常見網(wǎng)絡故障非常有效。1
故障定位功能故障定位功能的目的是確定設備中故障的位置。為確定故障根源,常常需要將診斷、測試及性能監(jiān)測獲得的數(shù)據(jù)結(jié)合起來進行分析。故障定位的手段主要有診斷、試運行及軟件檢查。
1.診斷
故障診斷一般利用專門的診斷程序進行。診斷常常是打擾性的,即在診斷進行期間,被診斷的設備不能運行正常的用戶業(yè)務。
2.試運行
試運行是將一部分網(wǎng)絡設備隔離,利用設備正常的輸入輸出端口和測試器,系統(tǒng)地測試被隔離網(wǎng)絡設備的所有服務特性。
3.軟件檢查
利用軟件進行的檢查有核查、校驗和運行測試、程序跟蹤等。2
定位及排除方法告警性能分析法通過網(wǎng)管獲取告警和性能信息進行故障定位。例如,某一供電局使用了BTTA網(wǎng)管,可以對全局的網(wǎng)絡設備進行管理,平時多觀察各設備CPU負載率和各線路的流量,當有人反映不能連接至網(wǎng)絡或網(wǎng)速很慢時,可通過網(wǎng)管觀察計算機與交換機的連接情況,是否有時斷時通的現(xiàn)象,交換機CPU負載率是否很高,線路流量是否很大,通過觀察設備端口狀態(tài),分析和觀察交換機哪個端口所接的計算機發(fā)包量不太正常。
替換法替換法就是使用一個工作正常的物體去替換一個工作不正常的物體,從而達到定位故障、排除故障的目的,這里的物件可以是一段線纜、一個設備和一塊模塊。
配置數(shù)據(jù)分析法查詢、分析當前設備的配置數(shù)據(jù),通過分析以上的配置數(shù)據(jù)是否正常來定位故障,若配置的數(shù)據(jù)有錯誤,需進行重新配置。