據瞭解,百度近三年來一直使用其主導研發的系統工具hdoctor。該創新工具的應用,使SATA 硬盤的故障返修率低於比其成本及可靠性更高的SAS硬盤,有效地解決了在大數據時代,大規模大容量SATA硬盤應用背景下的高故障率、低運維效率和存儲成本控制等難題,並對大幅下降雲存儲購置成本奠基堅實基礎。安全
現在,數據量迅速膨脹,據IDC統計,2012年全球數據總量已達到2.8ZB,而到2020年,預計將達到40ZB,至關於地球上全部海灘沙粒數量的57倍,地球上人均將擁有5247GB數據。海量數據讓全球面臨着數據存儲方面的嚴峻挑戰,這裏面既有技術上的難題,也有來自成本方面的壓力。而硬盤做爲數據中心存儲數據的核心部件之一,其返修率高、成本昂貴成爲衆多挑戰中的主要難題。服務器
據統計,在數據中心中,硬盤相關的故障佔所有硬件故障的85%以上。隨着大數據時代的到來,服務器數量大幅度增加,更多的存儲需求、更低成本硬盤的使用,以及高溫、高存儲密度等技術的應用,硬盤故障及報廢規模呈明顯增長趨勢。這對業務穩定、存儲成本和運維效率都形成了嚴重的影響。如何下降返修率一直困擾業界。運維
由於存儲着上百PB數據,百度——這家全球最大的中文搜索引擎公司擁有着數百萬塊硬盤,解決返修率問題極其迫切。也正是在這樣的背景下,百度於三年前就自主創新,主導研發了系統工具hdoctor。機器學習
hdoctor 最主要的成果是讓SATA硬盤的返修率低於SAS硬盤。工具
衆所周知,SATA硬盤的返修率高出SAS硬盤近40%以上,拿業界某知名硬盤廠商最新產品爲例:企業級10k SAS硬盤的年返修率(AFR)是0.44%;近線級的7.2k SATA 硬盤的AFR爲0.63%。而百度使用該工具後,不只減小了60%的SATA硬盤返修率,實現了所有硬盤故障處理及報廢擦除的全流程自動化,還經過與存儲系統的調度管理集成,提早處理潛在故障的硬盤,大幅縮小了故障對業務影響,有效下降運維成本,及人力、物力投入。能夠說,百度用更低成本獲得了更高的質量保證。性能
之因此能實現如上成果,主要得益於hdoctor從五個維度融合創新:學習
第一,硬盤故障檢測。hdoctor 經過日誌增量監控,整合系統設置、報錯類型、硬盤運行狀態等檢查環節,可在10秒內監控99% 的故障,覆蓋所有的機型;通過屢次驗證,準確度與硬盤廠商採用的硬件檢測分析方法(FA)至關。大數據
第二,硬盤故障修復。能在60秒內修復SATA硬盤60%的故障,包括潛在故障扇區修復、文件系統壞塊屏蔽、硬盤及陣列狀態設置校訂、硬盤狀態未就緒或超時的處理、數據/硬件故障排除、盤符先後漂移復位等常見的運維故障處理。而在未使用hdoctor的狀況下,因業務穩定性要求,一旦出現報錯,業界的一般作法是更換硬盤,這使得維護代價十分高昂。搜索引擎
第三,硬盤故障預警。基於數十萬片硬盤近30個月的硬盤運行及故障大數據,使用機器學習技術,挖掘、分析海量數據,打造了可自動迭代的故障預測系統,支持所有廠商全部型號的 SATA 硬盤故障預測,準確率超過98%;同時與系統調度集成,可以提早避免故障對業務形成不良影響,有效下降雲存儲系統的平均故障修復時間(MTTR)。雲計算
第四,硬盤報廢擦除。終捍衛雲端數據安全,集成三種國際認證的安全擦除方案,可在JBOD、RAID環境下,快速、高效、安全擦除包括SATA、SAS、SSD、Flash在內的各類存儲介質。
第五,自動運維支持。hdoctor提供全部類型硬盤的故障檢測、修復、上線、下線、報修、結單檢測等全方位的自動化運維API,同時按期維護和校訂硬盤的狀態運行信息,並且工具自己的運行機制也是自反饋和自維護的。
據瞭解,hdoctor已歷經了三個年頭。基於每個月積累的故障記錄,以及與硬盤相關的預警、負載、功耗、性能、溫度等數十億級別的大數據,該工具不斷地迭代升級,在下降故障率,提高運維效率和雲存儲系統可靠性的同時,有效助力硬盤資源調度、功耗管理、存儲分級等軟硬件協同工做,大規模下降雲存儲運營成本。
業內分析人士指出,百度hdoctor的創新成果具備極爲重要的產業意義。它解決了大規模大容量SATA硬盤應用背景下的高故障率、低運維效率和存儲成本控制等難題,爲業界實現更低成本、更高質量數據存儲起到示範與引領做用;更具將來發展意義的是,該工具的使用對將來將雲盤、歸檔盤等低成本存儲介質引入數據中心奠基了基礎,可以使雲存儲購置成本大幅下降。百度的創新技術,打破了雲計算和大數據產業發展中的一大阻礙,將有效推進產業更高速成長。