上週,RiseML 博客對谷歌 TPUv2 與英偉爾 V100 進行了比較。現在,英特爾公司發佈了另外一篇博文,其中提到在利用 RNN 進行機器翻譯數據處理時,「英特爾 Xeon Scalable 處理器的 AWS Sockeye(https://github.com/awslabs/sockeye )神經機器翻譯模型性能可達英偉達 V100 的 4 倍。」git
很長一段時間以來,業界對 AI 基準測試需求的現實意義展開了激烈的探討與爭論。支持者們認爲,基準測試工具的缺失嚴重限制了 AI 技術的實際應用。根據 AI 技術先驅吳恩達在 MLPerf 聲明中的說法,「AI 正在給各個行業帶來改變,但爲了充分這項技術的真正潛力,咱們仍然須要更快的硬件與軟件。」咱們固然但願得到更強大的資源平臺,而基準測試方案的標準化進程將幫助 AI 技術開發人員創造出此類產品,從而幫助採用者更明智地選擇適合需求的 AI 選項。github
不止吳恩達,連谷歌機器學習大佬 Jeff Dean 也在推特上強烈推薦這款工具:算法
大意:谷歌很高興和斯坦福、伯克利、哈佛、百度、英特爾、AMD 等等企業一塊兒,成爲致力於將 MLPerf 做爲衡量機器學習性能的通用標準的組織之一。微信
MLPerf 項目的主要目標包括:框架
經過公平且實用的衡量標準加快機器學習發展進程。機器學習
對各競爭系統進行公平比較,同時鼓勵創新以改善業界領先的機器學習技術。ide
保持基準測試的成本合理性,容許全部人蔘與其中。工具
爲商業及研究社區提供服務。性能
提供可重複且可靠的測試結果。學習
對 AI 性能(包括 h/w 與 s/w 兩種方向)的比較此前一直由各既得利益方發佈,這次英特爾公司題爲《利用英特爾至強 Scalable 處理器實現使人驚豔的推理性能》的博文正是最好的例子。 這裏咱們並不針對英特爾——但必須認可,此類比較雖然包含重要看法,但一般也會經過故意設計確保某一供應商的方案表現優於其競爭對手。所以,標準化基準測試的存在將完全解決這種中立性缺失,從而提供公平且客觀的比較結果。
MLPerf 項目的定位參考了以往的相似方案,例如 SPEC(即標準性能評估集團)。MLPerf 項目聲明指出,「SPEC 基準測試的出現顯著推進了通用計算能力的改進。SPEC 由計算機公司聯盟於 1988 年推出,並在接下來的 15 年內實現了年均 1.6 倍的 CPU 性能提高。MLPerf 結合有原有基準測試領域的最佳實踐,包括 SPEC 使用的程序套件、SOR 使用的性能與創新性分別比較方法、DeepBench 的生產環境內軟件部署以及 DAWNBench 的時間精確性度量標準等等。」
Intersect360 Research 公司 CEO Addison Snell 指出,「AI 已經成爲目前衆多企業不可忽視的技術力量,所以任何中立性質的基準指導結論都很是重要——特別是在挑選競爭性技術方案的場景以內。然而,AI 同時也是一類多元化領域,所以隨着時間的推移,任何基準都有可能發展成唯一的主導性選項。五年以前,大數據與分析技術鼓動了整個科技業界的熱情 ; 然而時至今日,這一領域仍未出現一種統一的通用基準。我認爲 AI 領域可能也會發生一樣的狀況。」
Hyperion Research 公司高級研究副總裁 Steve Conway 表示,MLPerf 表明着「積極且實用的」一步,「由於多年以來買賣雙方一直缺乏必要的基準方案,用以證實不一樣 AI 產品與解決方案之間的差別。原有基準的存在僅僅是爲了解決早期 AI 發展階段中的有界類實際問題。而隨着無界類 AI 問題數量的快速增長,咱們顯然須要額外的基準工具對其進行評估,這一點在經濟層面極爲重要。所謂有限問題一般比較簡單,例如語音與圖像識別或遊戲 AI 等等。而無界類問題則包括診斷癌症與閱讀醫學影像內容等,其目標在於真正爲複雜的問題提供建議與決策。」
MLPerf 目前已在 GitHub 上發佈,但仍處於早期開發階段。正如 MLPerf 聲明當中所強調,「目前的版本尚屬於‘前 apha’階段,所以在不少方面仍然有待改進。基準測試套件仍在開發與完善當中,請參閱如下建議部分以瞭解如何參與項目貢獻。根據用戶的反饋,咱們預計 5 月底將會對項目進行一輪重大更新。」
目前,MLPerf 套件中的七項基準測試皆已提供參考實現方案(摘自 GitHub):
圖像分類– Resnet-50 v1,適用於 ImageNet。
對象檢測– Mask R-CNN,適用於 COCO。
語音識別– DeepSpeech2,適用於 Librispeech。
翻譯– Transformer,適用於 WMT English-German。
推薦– Neural Collaborative Filtering,適用於 MovieLens 20 Million (簡稱 ml-20m)。
情緒分析– Seq-CNN,適用於 IMDB 數據集。
強化– Mini-go,適用於預測遊戲行動。
每套參考實現皆提供如下內容:在至少一套框架當中實現模型的相關代碼,一個可在容器內運行基準測試的 Dockerfile,一個用於下載對應數據集的腳本,一個負責運行模型訓練並加以計時的腳本,外加關於數據集、模型以及機器設置的說明文檔。
根據 GitHub 頁面中的說明,此基準測試已經在如下設備配置中完成驗證:
16 CPU,單個英偉達 P100。
Ubuntu 16.04,包括支持英偉達硬件的 Docker。
600 GB 磁盤(實際上,大多數基準測試並不須要這麼大的存儲容量)。
咱們期待看到 AI 行業最終會迎來怎樣的基準測試前景——少數壟斷,仍是百家爭鳴。在這樣一個年輕的市場當中,相信會有不少廠商提供基準測試工具與服務。斯坦福大學就是 MLPerf 項目成員,其最近剛剛發佈了首個 DAWNBench v1 深度學習測試結果。
斯坦福大學報告稱:「2018 年 4 月 20 日,第一個深度學習端到端基準測試與性能衡量競賽正式啓動,旨在記錄普通深度學習任務達到最高準確度水平所需的時間和成本,以及達到此最高推理準確度水平的延遲和成本。專一於端到端性能,意味着咱們提供一種更爲客觀的方法,可用於對不一樣計算框架、硬件、優化算法、超參數設置以及影響實際性能的其它因素進行標準化比較。」
做爲參賽選手之一,fast.ai——一家年輕的人工智能訓練與人工智能軟件工具開發公司——取得了出色的成績。這些基準結果很是重要,斯坦福大學也確實在以嚴肅的態度對待此輪競賽。但除此以外,目前咱們顯然還須要更多與之相似的客觀、公平的比較平臺。在這方面,MLPerf 的出現應該可以幫助咱們早日突破困局,真正有理有據地選擇最適合實際需求的 AI 解決方案。
MLPerf 開源項目地址:
https://github.com/mlperf/reference
MLPerf 用戶指南連接:
https://mlperf.org/assets/static/media/MLPerf-User-Guide.pdf
原文連接:
https://www.hpcwire.com/2018/05/02/mlperf-will-new-machine-learning-benchmark-help-propel-ai-forward/