Linux內核I/O系統報錯日誌與硬盤故障對應關係

日誌信息 故障現象描述 與硬盤關係
scsi1: ERROR on channel 0, id 7, lun 0, CDB: Read (10) 00 73 fc 62 bf 00 00 80 00
Info fld=0x73fc6326, Current sdi: sense key Medium Error
Additional sense: Unrecovered read error
SMART規範定義「Medium Error」錯誤是一種不可恢復的錯誤,可能因爲介質的缺陷或記錄的數據錯誤。該錯誤有別於「Hardware Error」。
出現Medium Error的主要緣由是硬盤壞,或者硬盤的數據沒法讀寫。
(1)硬盤扇區壞
或(2)硬盤與磁盤控制器鏈接信號質量不穩定,致使數據出現異常
mptbase: ioc1: IOCStatus=804b LogInfo=31080000
Originator={PL}, Code={SATA NCQ Fail All Commands After Error}, SubCode(0x0000) 

 

 

 

原生指令排序(Native Command Queuing,簡稱NCQ),原先是改善服務器硬盤存取控制技術,應用在SCSI和SATA 1.0/2.0/3.0接口硬盤讀寫的加速技術,其接口開啓磁盤陣列RAID亦有所提高。透過硬盤固件、硬盤控制器以及操做系統三者的互相配合,改善硬盤內部磁區的讀取順序,能夠提升硬盤效能約30%,亦可以輕微減輕硬盤損耗的速率。NCQ對用於服務器上的硬盤的效率提高尤其明顯。 

 

PL:Protocol Layer,指磁盤控制器中的協議層node

 

 

該信息與硬盤是否故障無直接聯繫
end_request: I/O error, dev sdi, sector 1945920256
EXT2-fs error (device sdi1): read_inode_bitmap: Cannot read inode bitmap – block_group = 222, inode_bitmap = 14547217
EXT2-fs error (device sdi1): ext2_get_inode: unable to read inode block – inode=951895, block=15202501
內核不能從硬盤上的文件系統讀取數據。 (1)硬盤扇區壞。
或(2)硬盤與磁盤控制器鏈接信號質量不穩定,致使數據出現異常。
mptbase: ioc1: IOCStatus=8000 LogInfo=31110d00
Originator={PL}, Code={Reset}, SubCode(0x0d00)
mptbase: ioc1: IOCStatus=804b LogInfo=31110d00
Originator={PL}, Code={Reset}, SubCode(0x0d00)
驅動準備讓磁盤控制器IOC單元復位,出現該操做緣由爲驅動發現屢次讀寫硬盤數據失敗。
IOCStatus=0x8000
磁盤控制器配置頁面處於共享的遞歸方式。 

 

IOCStatus=0x8048
嘗試讀取不存在的超級配置數據。服務器

IOCStatus=0x804b
超級數據序列號由0xffffffff變爲0ui

 

 

該信息不能做爲硬盤故障的依據。打印該信息的緣由,與硬盤/磁盤控制器IOC單元/硬盤與控制器之間的鏈路有關。IOC錯誤碼含義見前面。
mptscsih: ioc1: attempting task abort! (sc=000001007b4cf340)
scsi1 : destination target 8, lun 0
command = Read (10) 00 5f 2a 4d 3f 00 10 00 00
磁盤控制器驅動嘗試取消讀寫任務。本示例代碼中,代表取消在target 8,lun 0的讀數據任務。 該信息與硬盤是否故障無直接聯繫
mptbase: ioc1: IOCStatus=8048 LogInfo=31130000
Originator={PL}, Code={IO Not Yet Executed}, SubCode(0x0000)
磁盤控制器驅動報告報告當前IOC(I/O Controller)單元狀態碼 該信息與硬盤是否故障無直接聯繫
mptscsih: ioc1: task abort: SUCCESS (sc=000001007b4cf340) 磁盤控制器驅動報告讀寫任務取消成功 該信息與硬盤是否故障無直接聯繫
mptscsih: ioc1: attempting target reset!
mptscsih: ioc1: attempting bus reset! (sc=000001007b4cf340)
mptscsih: ioc1: Attempting host reset! (sc=000001007b4cf340)
mptbase: Initiating ioc1 recovery
磁盤控制器驅動嘗試復位target/bus/host,並從新恢復IOC(I/O Controller)單元 該信息不能做爲硬盤故障的依據。打印該信息的緣由,與硬盤/磁盤控制器IOC單元/硬盤與控制器之間的鏈路有關。
scsi: Device offlined – not ready after error recovery: host 1 channel 0 id 8 lun 0 硬盤offline,硬盤的位置爲host 1 channel 0 id 8 lun 0 硬盤處於故障狀態或丟失
SCSI error : <1 0 8 0> return code = 0x10000
end_request: I/O error, dev sdj, sector 1596607807
scsi1 (8:0): rejecting I/O to offline device
SCSI層報告在host 1 channel 0 id 8 lun 0設備上讀寫錯誤,返回碼爲0x10000,代表設備已不在位。 硬盤處於故障狀態或丟失
mptsas: ioc1: attaching sata device, channel 0, id 11, lun 0, phy 0 系統新加入新的硬盤,硬盤所在位置爲phy 0,即第一個物理槽位。 插入新的硬盤
mptsas: ioc0: removing sata device, channel 0, id 21, phy 2 從系統中拔掉一塊硬盤,硬盤對應的物理位置爲phy 2,即第3個物理槽位。 拔除一塊硬盤
Remounting filesystem read-only 文件系統變爲只讀,緣由爲文件系統遭到破壞 與硬盤是否故障無直接關係

注:本文以使用LSISAS1064E/1068E SAS控制器服務器Linux內核日誌信息爲例,即磁盤控制器驅動爲mptsas。 spa

相關文章
相關標籤/搜索