版權歸原作者所有,如有侵權,請聯(lián)系我們

[科普中國]-系統(tǒng)故障分析

科學百科
原創(chuàng)
科學百科為用戶提供權威科普內容,打造知識科普陣地
收藏

系統(tǒng)故障分析包括日志文件分析、系統(tǒng)啟動類故障排除和文件系統(tǒng)類故障排除。

日志文件分析日志的功能日志用于記錄系統(tǒng)、程序運行中發(fā)生的各種事件。通過閱讀日志,有助于診斷和解決系統(tǒng)故障1。

日志文件的分類1.內核及系統(tǒng)日志:由系統(tǒng)服務syslog統(tǒng)一進行管理,日志格式基本相似。
2.用戶日志:記錄系統(tǒng)用戶登錄及退出系統(tǒng)的相關信息。
3.程序日志:由各種應用程序獨立管理的日志文件,記錄格式不統(tǒng)一1。

主要日志文件介紹內核及公共消息日志:/var/log/messages;
計劃任務日志:/var/log/cron;
系統(tǒng)引導日志:/var/log/dmesg;
郵件系統(tǒng)日志:/var/log/maillog;
用戶登錄日志:/var/log/lastlog、/var/log/secure、/var/log/wtmp、/var/run/btmp1。

日志消息的級別0 EMERG(緊急):會導致主機系統(tǒng)不可用的情況;
1 ALERT(警告):必須馬上采取措施解決的問題;
2 CRIT(嚴重):比較嚴重的情況;
3 ERR(錯誤):運行出現(xiàn)錯誤;
4 WARNING(提醒):可能會影響系統(tǒng)功能的事件;
5 NOTICE(注意):不會影響系統(tǒng)但值得注意;
6 INFO(信息):一般信息;
7 DEBUG(調試):程序或系統(tǒng)調試信息等1。

用戶日志分析日志保存了用戶登錄、退出系統(tǒng)等相關信息。
/var/log/lastlog:最近的用戶登錄事件;
/var/log/wtmp:用戶登錄、注銷及系統(tǒng)開、關機事件;
/var/run/utmp:當前登錄的每個用戶的詳細信息;
/var/log/secure:與用戶驗證相關的安全性事件;
分析工具:users 、who、w、last、lastb1。

程序日志分析由相應的應用程序獨立進行管理,如下:
Web服務:/var/log/httpd/access_log、error_log;
代理服務:/var/log/squid/access.log、cache.log、squid.out、store.log;
FTP服務:/var/log/xferlog。
分析工具:文本查看、grep過濾檢索、Webmin管理套件中查看;awk、sed等文本過濾、格式化編輯工具;Webalizer、Awstats等專用日志分析工具1。

日志管理策略1.及時作好備份和歸檔;
2.延長日志保存期限;
3.控制日志訪問權限:日志中可能會包含各類敏感信息,如賬戶、口令等;
4.集中管理日志:便于日志信息的統(tǒng)一收集、整理和分析;杜絕日志信息的意外丟失、惡意篡改或刪除。

應用示例:調整syslogd服務設置,建立集中管理的日志服務器;將客戶機B中crond服務產(chǎn)生的日志消息,自動發(fā)送到服務器A的/var/log/cron文件中1。

系統(tǒng)啟動類故障分析MBR扇區(qū)故障故障原因:病毒、木馬等造成的破壞;不正確的分區(qū)操作、磁盤讀寫誤操作。
故障現(xiàn)象:找不到引導程序,啟動中斷;無法加載操作系統(tǒng),開機后黑屏。
解決思路:應提前作好備份文件;以RHEL5安裝光盤引導進入急救模式;從備份文件中恢復。

應用示例:
1.備份MBR扇區(qū)數(shù)據(jù):dd if=/dev/sda of=/backup/sda.mbr.bak bs=512 count=1;
2.模擬MBR被破壞的故障:dd if=/dev/zero of=/dev/sda bs=512 count=1;
3.RHEL5光盤引導,進入急救模式:boot: linux rescue;
4.從備份文件中恢復MBR扇區(qū):dd if=/tempdir/sda.mbr.bak of=/dev/sda bs=512 count=11。

GRUB引導故障故障原因:MBR中的GRUB引導程序遭到破壞;grub.conf文件丟失、引導配置有誤。
故障現(xiàn)象:系統(tǒng)引導停滯,顯示“grub>”提示符。
解決思路:嘗試手動輸入引導命令;進入急救模式,從備份中恢復 grub.conf;向MBR扇區(qū)中重建grub程序。

應用示例:在“grub>”提示符后,手動輸入引導命令;成功進入系統(tǒng)后,恢復或重建 grub.conf 配置文件1。

/etc/inittab文件丟失故障原因:inittab文件被誤刪除,或者存在配置錯誤。
故障現(xiàn)象:啟動中提示 “INIT: No inittab file found”;系統(tǒng)停滯,無法完成初始化。
解決思路:進入急救模式,從備份文件中恢復;或者,在急救模式中重新安裝 initscripts 軟件包即rpm -ivh --replacepkgs initscripts-8.45.14.EL.i386.rpm1。

遺忘root用戶的密碼故障原因:遺忘root用戶的密碼。
故障現(xiàn)象:無法進行需要root權限的管理操作;若沒有其他可用帳號,將無法登錄系統(tǒng)。
解決思路:引導進入單用戶模式,然后重設密碼;grub > kernel ... single 或 s 或 1;或進入急救模式,然后重設密碼1。

文件系統(tǒng)類故障分析修復文件系統(tǒng)故障原因:非正常關機、突然斷電、設備讀寫失誤等;文件系統(tǒng)的超級塊(super-block)信息被破壞。
故障現(xiàn)象:無法向分區(qū)中讀取或寫入數(shù)據(jù);啟動后提示“Give root password for maintenance” 。
解決思路:根據(jù)提示輸入root口令,進入修復狀態(tài);使用fsck命令進行修復2。

磁盤資源耗盡故障故障原因:磁盤空間已被大量的數(shù)據(jù)占滿,空間耗盡;雖然還有可用空間,但文件數(shù)i節(jié)點耗盡 。
故障現(xiàn)象:無法寫入新的文件,提示“… : 設備上沒有空間”;部分程序無法運行,甚至系統(tǒng)無法啟動。
解決思路:清理磁盤空間,刪除無用、冗余的文件;轉移或刪除占用大量i節(jié)點的瑣碎文件;進入單用戶模式、急救模式進行修復;為用戶設置磁盤配額2。

檢測磁盤環(huán)境故障原因:磁盤設備中存在壞道(邏輯的或物理的)。
故障現(xiàn)象:讀取磁盤中的數(shù)據(jù)時,磁盤設備發(fā)出異常聲響;訪問磁盤中的某個文件時,反復讀取且出錯,提示文件損壞;對于新建立的分區(qū)無法完成格式化;系統(tǒng)使用該磁盤時頻繁死機。

解決思路:檢測硬盤中是否存在壞道;修復硬盤,或更換新的硬盤2。