常見網(wǎng)絡(luò)丟包故障分析及處理
我們在管理維護網(wǎng)絡(luò)的過程中經(jīng)常會遇到數(shù)據(jù)包丟失的現(xiàn)象。使用ping命令進行連通性測試,則會發(fā)現(xiàn)ping包延時遠遠超過正常值,甚至無法到達,同時還伴隨有網(wǎng)絡(luò)服務(wù)應(yīng)用障礙,如打開網(wǎng)站速度很慢,嚴重時甚至打不開網(wǎng)頁,在線瀏覽時語音也會不連貫,圖像像是馬賽克。
網(wǎng)絡(luò)丟包是網(wǎng)絡(luò)中常見的故障之一,它會引起網(wǎng)速降低甚至造成網(wǎng)絡(luò)中斷,今天我們就幾種常見的網(wǎng)絡(luò)丟包現(xiàn)象進行分析。
1. 網(wǎng)絡(luò)丟包概述
所謂網(wǎng)絡(luò)丟包是我們在使用ping命令對目的站進行詢問時,數(shù)據(jù)包由于各種原因在信道中丟失的現(xiàn)象。Ping命令使用了ICMP回送請求與回送回答報文。ICMP回送請求報文是主機或路由器向一個特定目的主機發(fā)出的詢問。收到此報文的及其必須給源主機發(fā)送ICMP回送回答報文。這種詢問報文用來測試目的站是否可達到以及了解其狀態(tài)。
2. 網(wǎng)絡(luò)丟包常見故障分析及處理方法
(1)網(wǎng)絡(luò)數(shù)據(jù)包發(fā)送時通時斷,丟包嚴重
故障現(xiàn)象:通常故障發(fā)生時,該方向網(wǎng)絡(luò)出現(xiàn)震蕩性中斷。使用ping命令測試,發(fā)現(xiàn)在一段時間內(nèi)數(shù)據(jù)包發(fā)送延時比正常值略高,間隔一小段時間數(shù)據(jù)包又全部丟失,丟包率超過60%,丟包曲線呈規(guī)則狀,網(wǎng)絡(luò)服務(wù)基本不可用。
故障分析:在局域網(wǎng)中引起網(wǎng)絡(luò)發(fā)生振蕩性時斷時通,一般可能是由于互連的交換機中的某兩個交換機間出現(xiàn)了環(huán)路,或者某個交換機的兩個端口直接相連。這樣就會造成局域網(wǎng)的生成樹協(xié)議構(gòu)建失敗,不斷重復檢查并試圖構(gòu)建新的生成樹網(wǎng)絡(luò),從而導致網(wǎng)絡(luò)振蕩性通斷,同時伴隨著交換機間不斷重復地發(fā)送廣播包,就會形成“廣播風暴”,使交換機負擔過重,網(wǎng)絡(luò)傳輸通道嚴重被堵塞,無法正常的處理通信數(shù)據(jù)。環(huán)路雖然可能出現(xiàn)在某個接入交換機上,但會影響整個以三層交換機為核心的局域網(wǎng)的穩(wěn)定運行。
故障處理:當發(fā)現(xiàn)網(wǎng)絡(luò)數(shù)據(jù)包發(fā)送時通時斷,丟包嚴重,特別是整個單位或整個樓層出現(xiàn)振蕩性中斷現(xiàn)象時,則可以判定應(yīng)該是該單位的某個交換機上出現(xiàn)了環(huán)路所致。作為網(wǎng)絡(luò)管理人員應(yīng)首先查看各接入交換機的指示燈閃爍狀態(tài),通常出現(xiàn)環(huán)路狀況會指示燈會急速閃爍,次數(shù)每秒4次以上,所環(huán)交換機更為突出。逐個撥出交換機級聯(lián)接入網(wǎng)線,同時實時監(jiān)控交換機狀態(tài),在撥下某端口網(wǎng)線后,交換機指示燈恢復正常狀態(tài),再進一步查找,會發(fā)現(xiàn)該連接線的末端有線路形成環(huán)路,清理該網(wǎng)線后,網(wǎng)絡(luò)恢復暢通。
(2)網(wǎng)絡(luò)數(shù)據(jù)包發(fā)送超時現(xiàn)象嚴重,時有不規(guī)則丟包
故障現(xiàn)象:網(wǎng)絡(luò)突然出現(xiàn)嚴重堵塞,日常辦公程序不能正常運行,打開網(wǎng)頁速度緩慢,有時會因超時而中斷。未發(fā)現(xiàn)網(wǎng)絡(luò)設(shè)備有任何問題,該網(wǎng)絡(luò)中有幾臺計算機在入網(wǎng)后速度明顯變慢,在禁用網(wǎng)卡或者中斷網(wǎng)絡(luò)后恢復正常。
故障分析:
首先,在一臺用戶終端上ping網(wǎng)關(guān)測試,結(jié)果可以ping通網(wǎng)關(guān),但是數(shù)據(jù)包發(fā)送超時現(xiàn)象嚴重,丟包率30%左右,丟包不規(guī)律。
其次,登陸用戶交換機,運行arp -a命令,發(fā)現(xiàn)網(wǎng)關(guān)IP和網(wǎng)關(guān)MAC地址指向正確。通過上面的測試基本排除網(wǎng)絡(luò)設(shè)置錯誤以及ARP欺騙,丟包表現(xiàn)了一定的隨機性而沒有連續(xù)性和振蕩性的通斷,基本排除網(wǎng)絡(luò)環(huán)路問題,初步判斷這種現(xiàn)象可能是病毒攻擊等引起的。為此,需要進一步獲取ARP信息、網(wǎng)絡(luò)中傳輸?shù)脑紨?shù)據(jù)包等信息。
再次,部署抓包分析。在該交換機上配置鏡像端口,并將維護終端接到此端口上,啟動網(wǎng)絡(luò)協(xié)議分析工具(sniffer)捕獲分析網(wǎng)絡(luò)的數(shù)據(jù)通信,約10分鐘后停止。在網(wǎng)絡(luò)分析系統(tǒng)主界面左邊的節(jié)點瀏覽器中發(fā)現(xiàn),網(wǎng)絡(luò)中可能存在偽造IP地址攻擊或自動掃描攻擊。選擇連接視圖,發(fā)現(xiàn)在10分鐘內(nèi),網(wǎng)絡(luò)中共發(fā)起了12000多個連接,且狀態(tài)大多都是客戶端請求同步。據(jù)此,斷定網(wǎng)絡(luò)中存在自動掃描攻擊。
最后,詳細查看連接信息,發(fā)現(xiàn)這些連接大多都是由同一主機發(fā)起,選中任意一個連接,選擇數(shù)據(jù)包視圖,查看傳輸數(shù)據(jù)的原始解碼信息,發(fā)現(xiàn)這臺計算機正在主動對網(wǎng)絡(luò)中其它主機的TCP 445端口進行掃描攻擊,可能是主機感染病毒程序,或者有人正使用掃描軟件。通過分析圖表視圖,進一步確定主機肯定存在自動掃描攻擊。
故障處理:找到問題根源后,對主機進行隔離,經(jīng)過一段時間的測試,網(wǎng)絡(luò)丟包現(xiàn)象有所緩解,但沒有從根本上解決問題。于是再次啟動網(wǎng)絡(luò)協(xié)議分析系統(tǒng)捕獲并分析,又發(fā)現(xiàn)了1臺相似情況的主機。據(jù)此基本可以斷定兩臺主機都是感染了病毒,且該病毒會主動掃描網(wǎng)絡(luò)中其他主機是否打開TCP 445端口,如果某主機打開該端口,就攻擊并感染這臺主機。如此循環(huán),即引發(fā)了上述的網(wǎng)絡(luò)故障。立即對新發(fā)現(xiàn)感染病毒的兩臺主機進行物理隔離,網(wǎng)絡(luò)通信立刻恢復正常,再對該終端進行殺毒處理。
(3)網(wǎng)絡(luò)數(shù)據(jù)包發(fā)生嚴重延時現(xiàn)象,下載、瀏覽等服務(wù)不能正常使用
故障現(xiàn)象:局域網(wǎng)內(nèi)部日常數(shù)據(jù)共享正常,但是出局瀏覽外網(wǎng)和下載數(shù)據(jù)時速度明顯降低,使用Ping命令發(fā)現(xiàn)到某個方向網(wǎng)絡(luò)時延特別大,甚至有少量丟包現(xiàn)象。
故障分析:一般通過telnet遠程登陸到該方向的交換機,以華為系列交換機為例,輸入下列命令:
#Display cpu 查看交換機CPU利用率,
#Display memory 查看內(nèi)存利用率,
發(fā)現(xiàn)兩者都非常高,再通過輸入命令
#Display interface端口號,檢查各端口下的數(shù)據(jù)流量,發(fā)現(xiàn)其中的兩個端口數(shù)據(jù)流量特別大,遠高于正常使用的網(wǎng)絡(luò)流量。對其數(shù)據(jù)流進行抓包分析,發(fā)現(xiàn)多線程指向某網(wǎng)站電影欄目,為避免影響整個網(wǎng)絡(luò)的暢通,對所接入交換機進行處理。
故障處理:進入該端口配置界面下,輸入Shutdown命令,強制關(guān)閉該端口使其斷網(wǎng),聯(lián)系該終端使用人員,令其終止下載進程后,再恢復其網(wǎng)絡(luò)。
造成網(wǎng)絡(luò)丟包的因素很多,具有隨機性和偶然性。因此,作為網(wǎng)絡(luò)管理人員,一定要考慮各種因素,掌握網(wǎng)絡(luò)排故技巧,積累實踐經(jīng)驗,才能快速定位并排除網(wǎng)絡(luò)故障。
友聯(lián)華10年專業(yè)從事工業(yè)交換機、光端機、光纖收發(fā)器等工業(yè)通信設(shè)備的研發(fā)、生產(chǎn)和銷售,歡迎了解更多。