交換機一般部署位置為接入層和核心層。在企業網或園區網絡環境中。個人而言,運維常見的均與接入有關。如線路質量或配置問題造成的生成樹震蕩。鏈路聚合問題。ARP攻擊或ARP欺騙。私接路由器造成的dhcp沖突。生成樹問題之前是通過各種參數,如bpdu guard,bpdu filter,root guard等技術解決。目前隨著堆疊技術的普及。接入到核心的生成樹徹底得到解決。ARP欺騙和攻擊是常見問題。在沒有做二層安全的時候比較考驗網關經驗。通常是找出可疑mac,在接入層做mac地址列表。最笨的方式就是逐個拔線,順藤摸瓜的方式找到問題點。dhcp問題就是做dhcp snooping。它也可做防護ARP攻擊。但貌似效果不理想。目前主流的是通過部署準入系統進行防護。如H3C的imc+ead或者Cisco的ise系統。都可對準入進行多種策略的控制。
網絡運維丨故障診斷應該實現的三個目的:
1. 確定網絡的故障點,恢復網絡的正常運行
2. 發現網絡規劃和配置中欠佳之處,改善和優化網絡的性能
3. 觀察網絡的運行狀況,及時預測網絡通信質量
網絡故障診斷以網絡原理、網絡配置和網絡運行的知識為基礎。從故障現象出發,以網絡診斷工具為手段獲取診斷信息,確定網絡故障點,查找問題的根源,排除故障,恢復網絡正常運行。
網絡故障通常有以下幾種可能:
1. 物理層中物理設備相互連接失敗或者硬件及線路本身的問題;
2. 數據鏈路層的網絡設備的接口配置問題;
3. 網絡層網絡協議配置或操作錯誤;
4. 傳輸層的設備性能或通信擁塞問題;
網絡故障診斷的過程應該沿著OSI七層模型從物理層開始向上進行。首先檢查物理層,然后檢查數據鏈路層,以此類推,設法確定通信失敗的故障點,直到系統通信正常為止。
網絡診斷可以使用包括局域網或廣域網分析儀在內的多種工具:
路由器診斷命令;網絡管理工具和其它故障診斷工具。查看路由表,是解決網絡故障診斷開始的好地方。ICMP的ping、trace命令、debug命令是獲取故障診斷有用信息的網絡工具。
我們通常使用一個或多個命令收集相應的信息,在給定情況下,確定使用什么命令獲取所需要的信息。譬如,通過IP協議來測定設備是否可達到的常用方法是使用ping命令。ping從源點向目標發出ICMP信息包,如果成功的話,返回的ping信息包就證實從源點到目標之間所有物理層、數據鏈路層和網絡層的功能都運行正常。
如何在互聯網絡運行后了解它的信息,了解網絡是否正常運行,監視和了解網絡在正常條件下運行細節,了解出現故障的情況。監視那些內容呢?利用 show interface命令可以非常容易地獲得待檢查的每個接口的信息。
另外show buffer命令提供定期顯示緩沖區大小、用途及使用狀況等。Show proc命令和 show proc mem命令可用于跟蹤處理器和內存的使用情況,可以定期收集這些數據,在故障出現時,用于診斷參考。
網絡故障診斷以某種癥狀表現出來,故障癥狀包括一般性的(象用戶不能接入某個服務器)和較特殊的(如路由器不在路由表中)。對每一個癥狀使用特定的故障診斷工具和方法都能查找出一個或多個故障原因。一般故障排除模式如下:
1. 當分析網絡故障診斷時,首先要清楚故障現象。應該詳細說明故障的癥侯和潛在的原因。為此,要確定故障的具體現象,然后確定造成這種故障現象的原因的類型。例如,主機不響應客戶請求服務。可能的故障原因是主機配置問題、接口卡故障或路由器配置命令丟失等。
2. 收集需要的用于幫助隔離可能故障原因的信息。向用戶、網絡管理員、管理者和其他關鍵人物提一些和故障有關的問題。廣泛的從網絡管理系統、協議分析跟蹤、路由器診斷命令的輸出報告或軟件說明書中收集有用的信息。
3. 根據收集到的情況考慮可能的故障原因。可以根據有關情況排除某些故障原因。例如,根據某些資料可以排除硬件故障,把注意力放軟件原因上。對于任何機會都應該設法減少可能的故障原因,以至于盡快的策劃出有效的故障診斷計劃。
4. 根據最后的可能的故障原因,建立一個診斷計劃。開始僅用一個最可能的故障原因進行診斷活動,這樣可以容易恢復到故障的原始狀態。如果一次同時考慮一個以上的故障原因,試圖返回故障原始狀態就困難的多了。
5. 執行診斷計劃,認真做好每一步測試和觀察,直到故障癥狀消失。
6. 每改變一個參數都要確認其結果。分析結果確定問題是否解決,如果沒有解決,繼續下去,直到解決。
網絡故障分層診斷技術
1. 物理層及其診斷
物理層是OSI分層結構體系中最基礎的一層,它建立在通信媒體的基礎上,實現系統和通信媒體的物理接口,為數據鏈路實體之間進行透明傳輸,為建立、保持和拆除計算機和網絡之間的物理連接提供服務。
物理層的故障主要表現在設備的物理連接方式是否恰當;連接電纜是否正確;MODEM、CSU/DSU等設備的配置及操作是否正確。
2. 數據鏈路層及其網絡故障診斷
數據鏈路層的主要任務是使網絡層無須了解物理層的特征而獲得可靠的傳輸。數據鏈路層為通過鏈路層的數據進行打包和解包、差錯檢測和一定的校正能力,并協調共享介質。在數據鏈路層交換數據之前,協議關注的是形成幀和同步設備。
查找和排除數據鏈路層的故障,需要查看路由器的配置,檢查連接端口的共享同一數據鏈路層的封裝情況。每對接口要和與其通信的其他設備有相同的封裝。
3. 網絡層及其網絡故障診斷
網絡層提供建立、保持和釋放網絡層連接的手段,包括路由選擇、流量控制、傳輸確認、中斷、差錯及故障恢復等。排除網絡層故障的基本方法是:沿著從源到目標的路徑,查看路由器路由表,同時檢查路由器接口的IP地址。
如果路由沒有在路由表中出現,應該通過檢查來確定是否已經輸入適當的靜態路由、默認路由或者動態路由。然后手工配置一些丟失的路由,或者排除一些動態路由選擇過程的故障,包括RIP或者IGRP路由協議出現的故障。
例如,對于IGRP路由選擇信息只在同一自治系統號(AS)的系統之間交換數據,查看路由器配置的自治系統號的匹配情況。
您好,這個問題有ys0202來為您回答,點擊上方關注,查看更多相關問題哦!~
關于運維中交換機的常見問題,常見故障如下:
如下:
第一種:交換機電源故障
①、故障現象描述
某接入交換機(IP:X.X.X.X)電源模塊故障。查看設備狀態,電源fail等亮紅燈,命令行顯示bad。
②、故障處理過程
1、通過命令行查看,設備電源模塊1顯示bad,無電流輸入。查看該電源模塊SN號,并給思科打電話開RMA CASE。(case:XXXXXXXXX)
2、更換新電源
3、跟蹤設備狀態,檢查設備運行情況,一切正常,設備運行正常穩定。
③、后續工作計劃
1、定期查看交換機運行狀態。
2、及時對交換機配置進行備份,和異地備份,嚴防出現不可恢復性故障,可以在最短時間內進行業務和數據的恢復,保證交換機正常運行。
第二種:交換機引擎故障
①、故障現象描述
故障設備信息如下:
l 節點型號:WS-C4507R+E
l 軟件版本:cat4500e-entservicesk9-mz.150-2.SG4.bin
Case號:XXXXXXXX 統一服務平臺事件單號:INC-20161128-00049
2016年11月25日04:00分網絡團隊發現某DMZ交換機01出現告警,故障信息:%C4K_SUPERVISOR-2-SOFTERROR: memory inconsistency detected: 0x2000。
show log看到相關信息遂向思科開CASE并上報。
②、故障處理過程
1、 2016年11月25日04:00分網絡團隊發現某DMZ交換機01出現告警,故障信息:%C4K_SUPERVISOR-2-SOFTERROR: memory inconsistency detected: 0x2000;
2、 Show log 信息顯示外聯DMZ交換機1告警:內存存在奇偶校驗錯誤,每小時告警一次;
3、 聯系ciscoTAC 確認問題原因,告知“% C4K_SUPERVISOR-2-SOFTERROR:內存不一致性檢測”表示,檢測出一種矛盾中所指的內存信息。這通常表示一個柔軟的奇偶校驗錯誤,瞬態問題,如果你是第一次看到這個,可以忽略;
與TAC進行溝通后,cisco確認做RMA處理,備件已寄至行內,由于DMZ交換機連接某外聯區所有前置服務器,需聯系相關人員配合測試,待非業務時間段進行更換。
③、后續工作計劃
1、經過運維處領導同意后在2016年11月25日20:00分左右,進行引擎更換以保證網絡正常運行。并持續關注該設備引擎運行狀態。
第三種:交換機板卡poe故障
①、故障現象描述
故障時間:2016年8月13日15:52
故障現象:值班工程師通過網管監控發現四層樓層交換機第三、四塊板卡報警。工程師登陸設備查看后發現第三塊板卡poe健康檢查失敗,第四塊板卡poe健康檢查失敗,poe功能不斷重啟,發生讀寫錯誤。
②、故障處理過程
2016年8月13日 15:52
值班工程師通過網管監控發現四層樓層交換機第三、四塊板卡報警。同時領導反應網絡無法訪問,電話不停注冊。要求網絡工程師前去查看,工程師立即上樓查看故障現象。
2016年8月13日 16:20
工程師登陸設備查看交換機日志,設備poe狀態,發現第四塊板卡poe告警,提示板卡讀寫錯誤,poe服務不停重啟。
Aug 13 15:52:33: %C4K_CHASSIS-5-POERESTARTED: Poe restarted on slot 4 (count=1)
Aug 13 16:09:41: %C4K_CHASSIS-5-POERESTARTED: Poe restarted on slot 4 (count=1)
Aug 13 16:12:26: %C4K_SWITCHMANAGER-4-S2WERRORREPORT: (Suppressed 15 times)PimEthAutoNeg: S2w Read/Write Error for port Fa4/2.
Aug 13 16:31:23: %C4K_CHASSIS-5-POERESTARTED: Poe restarted on slot 4 (count=7)
Aug 13 16:31:23: %C4K_CHASSIS-5-POERESTARTED: Poe restarted on slot 4 (count=1)
Aug 13 16:31:26: %C4K_SWITCHMANAGER-4-S2WERRORREPORT: (Suppressed 15 times)PimEthAutoNeg: S2w Read/Write Error for port Fa4/34.
Aug 13 16:35:33: %C4K_CHASSIS-5-POERESTARTED: Poe restarted on slot 4 (count=17)
Aug 13 16:35:33: %C4K_CHASSIS-5-PORTSPOERESTARTED: Poe restarted for interfaces on slot 4 (count=1)
Aug 13 16:35:49: %C4K_CHASSIS-5-POERESTARTED: Poe restarted on slot 4 (count=1)
Aug 13 16:36:26: %C4K_SWITCHMANAGER-4-S2WERRORREPORT: (Suppressed 15 times)PimEthAutoNeg: S2w Read/Write Error for port Fa4/18.
catalyst4507#show env status
Power Fan Inline
Supply Model No Type Status Sensor Status
------ ---------------- --------- ----------- ------- -------
PS1 PWR-C45-2800AC AC 2800W good good good
PS2 PWR-C45-2800AC AC 2800W good good good
Power supplies needed by system : 1
Power supplies currently available : 2
Chassis Type : WS-C4507R
Power consumed by backplane : 40 Watts
Switch Bandwidth Utilization : 0%
Supervisor Led Color : Green
Module 1 Status Led Color : Green
Module 3 Status Led Color : Green PoE Led Color : Green
Module 4 Status Led Color : Green PoE Led Color : Green
Module 5 Status Led Color : Green PoE Led Color : Green
Module 6 Status Led Color : Green PoE Led Color : Green
Module 7 Status Led Color : Green
Fantray : Good
Fantray removal timeout : 240
Power consumed by Fantray : 50 Watts
同時,第3塊板卡提示poe健康檢查失敗
Aug 12 11:30:02: %C4K_CHASSIS-5-POEHEALTHCHECKFAILED: Poe Health Check failed on slot 3 (count = 95)
2016年8月13日 16:40
工程師和領導及行領導溝通,考慮到故障發生在周末臨近下班,下聯影響用戶較少,同意直接更換板卡,工程師立即聯系資產負責人拿到備件更換板卡。
2016年8月13日16:50
工程師取到板卡后立即前往更換板卡
2016年8月13日17:20
第4塊板卡更換完成,查看下聯用戶網絡恢復正常。
第3塊板卡雖然沒有影響下聯用戶,為保證不在工作時間出現問題,領導決定一并更換。
2016年8月13日18:00
第3塊板卡更換完成,查看下聯用戶網絡恢復正常,設備狀態正常。
③、后續工作計劃
1、后續將通過網管實時監控和提高對四層樓層交換機的巡檢頻率來及時發現可能存在的問題與隱患,確保網絡正常運行。
第四種:交換機板卡故障
①、故障現象描述
故障時間:2016年8月3日 8點 35分
故障現象:工程師在日常巡檢中通過show log發現某樓層十層豎井交換機日志提示交換機第六塊板卡出現讀寫錯誤,show env第六塊板卡燈正常,show module第六塊板卡的狀態正常。
②、故障處理過程
2016年8月3日8:35
工程師在日常巡檢中通過show log發現某樓層十層豎井交換機日志提示交換機第六塊板卡出現讀寫錯誤,show env第六塊板卡燈正常,show module第六塊板卡的狀態正常。
2016年8月3日:8:45
立即向領導報告,經過領導再次查看確認是交換機板卡故障。
2016年8月3日8:55
工程師通過領導審批決定更換板卡。
2016年8月3日9:00
立即從庫房拿出備件,由于正是上班時間,領導考慮到可能有用戶在辦公,為了不影響用戶的正常辦公,決定在17:30分下班以后再進行板卡更換。
2016年8月3日17:30
去十層豎井現場為交換機更換板卡
2016年8月3日 17:55
更換板卡完畢,交換機第六塊板卡提示燈恢復正常。
2016年8月3日 18:00
網絡恢復正常,用戶均可連接網絡。觀察日志第六塊板卡沒有再提示讀寫錯誤。
③、后續工作計劃
1、后續將通過網管實時監控和提高對某大廈十層豎井樓層交換機的巡檢頻率來及時發現可能存在的問題與隱患,確保網絡正常運行。
結語感謝閱讀,以上是我總結的交換機常見故障以及處理過程,如果您有不同意見,歡迎在評論區中發表自己不同的觀點,若有其他問題請在評論區留言,喜歡的朋友請多多關注轉發支持一下。
頭條號:ys0202
-------------------END-------------------