Linux檢查硬件錯誤工具—mcelog命令

一、簡介

mcelog 是Linux 系統上用來檢查硬件錯誤,特別是內存和CPU錯誤的工具。未糾正的錯誤是關鍵異常,若是 CPU 沒法恢復,每每會致使系統上的內核錯誤。這會致使應用程序重置和中斷。對於未糾正的錯誤,mcelog 捕獲錯誤的能力取決於錯誤致使熱重啓仍是硬重啓。若是是熱重啓,信息會被 mcelog 捕獲,恢復後可看到。硬重啓會致使數據丟失,並且 mcelog 可能捕獲不到該事件。node

二、安裝

 [root@RedHat_test ~]# yum install mcelog.x86_64

三、mcelog的啓動方式

 cron : 最老的方式,有肯定,定時任務,會丟失一些
 daemon : el7上用這種,守護進程的方式
 trigger : 高級一點的方式,觸發的時候,看man mcelog

四、mcelog相關文件

 /dev/mcelog 設備文件
 
 /var/log/mcelog messages日誌文件
 
 /etc/mcelog/mcelog.conf配置文件
 
 /var/run/mcelog.pid
 默認故障日誌只記錄在/var/log/mcelog,並不記錄到系統日誌中。
 若是須要在系統日誌中也體現,需修改/etc/mcelog/mcelog.conf文件,將前面#去掉,並保存。

五、mcelog後臺運行

 [root@RedHat_test ~]# mcelog --daemon

六、查看系統是否異常

1.手動運行mcelog的方式

 [root@RedHat_test ~]# mcelog --daemon

2.查看mcelog日誌

 [root@RedHat_test ~]# tail /var/log/mcelog
 # 什麼也沒有輸出,代表正常

3.查看mcelog守護進程是否檢測到錯誤信息

 [root@RedHat_test ~]# mcelog --client
 # 什麼也沒有輸出,代表正常

4.解析系統異常時的mcelog輸出

 [root@RedHat_test ~]# mcelog --ascii < file.log
 # or或者
 [root@RedHat_test ~]# mcelog --ascii --file file.log

七、測試

1.mce-inject用於測試mcelog可否正確的獲取硬件錯誤信息,並進行正確解碼,mce-inject能夠向內核注入指定的錯誤信息,所以,能夠很方便的瞭解到mcelog的功能是否正常。

注意的是,當用戶利用mce-inject工具向內核注入不可恢復錯誤(如:fatal)時,會發生死機從新啓動等現象,固然,能夠經過更改sys文件系統下的tolerate文件來避免此現象的發生。c++

 [root@RedHat_test ~]# cd /sys/devices/system/machinecheck/machinecheck0
 ----------------------------------------------------------------------------------------
 位置 : /sys/devices/system/machinecheck/machinecheck*/
 說明 : 其中machinecheck* 中的 *號由CPU的個數所決定的,若是是雙核的,則存在machinecheck0和machinecheck1兩個目錄,對應目錄裏都有一個tolerate文件,tolerate中存放容忍程度值。
 功能 : 向用戶提供一個可選擇的出現相應硬件錯誤時的容忍程度(tolerate),好比:當tolerate的值爲1時,出現fatal錯誤時就會死機,從新啓動,而且該錯誤信息並不被記錄;當tolerate的值爲3時(注意該值只用於測試),在出現fatal錯誤時,機器會容忍該錯誤不予響應,不會出現死機從新啓動現象,而且會記錄相關錯誤信息。
 ----------------------------------------------------------------------------------------
 [root@RedHat_test machinecheck0]# cat tolerant 
 1
 [root@RedHat_test machinecheck0]# echo 3 > tolerant
 ----------------------------------------------------------------------------------------
 數值含義
 tolerate的取值能夠爲0、一、二、3。
 0: always panic on uncorrected errors, log corrected errors
 1: panic or SIGBUS on uncorrected errors, log corrected errors
 2: SIGBUS or log uncorrected errors (if possible), log corrected errors
 3: never panic or SIGBUS, log all errors (for testing only)

2.安裝

 [root@RedHat_test ~]# yum install gcc.x86_64 gcc-c++.x86_64 flex.x86_64 dialog.x86_64 ras-utils.x86_64 git.x86_64 ras-utils

3.捏造文件

 [root@RedHat_test ~]# cat correct 
 CPU 1BANK 2
 STATUS corrected
 RIP 0x12341234

4.加載mce-inject模塊

 [root@RedHat_test ~]# modprobe mce-inject

5.在終端執行文件

 [root@RedHat_test ~]# mce-inject ./correct

6.查看/var/log/mcelog,/var/log/messages

 [root@RedHat_test ~]# tail /var/log/mcelog
 TIME 1581565856Thu Feb 1311:50:56 2020
 MCG status:
 MCi status:
 Corrected error
 Error enabled
 MCA: No Error
 STATUS 9000000000000000MCGSTATUS 0
 MCGCAP 100010a APICID 1SOCKETID 0
 MICROCODE 1
 CPUID Vendor Intel Family 6Model 63
 [root@RedHat_test ~]# cat /var/log/messages
 Feb 1311:59:01 RedHat_test systemd: [16423350.358386] Starting machine check poll CPU 1
 Feb 1311:59:01 RedHat_test systemd: [16423350.371252] [Hardware Error]: Machine check events logged

八、一樣的方式,在el7上設置

tail /var/log/messages 能夠看到日誌,可是,/var/log/mcelog文件默認在el7上,卻不存在!!緣由是,默認打到/var/log/messages ,不打到/var/log/mcelog。若是但願打到/var/log/mcelog,須要在mcelog 的service文件中,加入參數--logfile=/var/log/mcelog,而後重啓mceloggit

 ExecStart=/usr/sbin/mcelog --ignorenodev--daemon--syslog--logfile=/var/log/mcelog

若是文章有任何錯誤歡迎不吝賜教,其次你們有任何關於運維的疑難雜問,也歡迎和你們一塊兒交流討論。關於運維學習、分享、交流,筆者開通了微信公衆號【運維貓】,感興趣的朋友能夠關注下,歡迎加入,創建屬於咱們本身的小圈子,一塊兒學運維知識。羣主還經營一家貓小鋪飾品店,喜歡的小夥伴歡迎👏前來下單。
web





掃描二維碼shell

獲取更多精彩centos

運維貓公衆號微信



有須要技術交流的小夥伴能夠加我微信,期待與你們共同成長,本人微信:app



掃描二維碼運維

添加私人微信
ide

運維貓博主


掃碼加微信




最近有一些星友諮詢我知識星球的事,我也想繼續在星球上發佈更優質的內容供你們學習和探討。運維貓公衆號平臺致力於爲你們提供免費的學習資源,知識星球主要致力於即將入坑或者已經入坑的運維行業的小夥伴。



點擊閱讀原文  查看更多精彩內容!!!


本文分享自微信公衆號 - 運維貓(centos15)。
若有侵權,請聯繫 support@oschina.cn 刪除。
本文參與「OSC源創計劃」,歡迎正在閱讀的你也加入,一塊兒分享。

相關文章
相關標籤/搜索