面向E級高性能計算的軟件棧(五)

4. 使用示例 在本節中,我們提出了一個PMIx接口的實際用例,該用例基於用戶級故障緩解(ULFM)規範來支持開放MPI中的容錯,該規範加強了檢測並協調對故障事件的響應。 響應故障是一個複雜的問題,因爲系統中的各種組件都可能報告事件,例如網絡驅動程序、來自故障MPI通信的帶內檢測、MPI進程資源環境、系統範圍的資源管理器RAS服務、交換機和SNMP陷阱。類似地,多個組件可能對錯誤事件感興趣並作出響
相關文章
相關標籤/搜索