基於英特爾® 至強 E5 系列處理器的單節點 Caffe 評分和訓練

時間 2019-11-17

標籤基於英特爾 e5 系列處理器節點 caffe 評分訓練欄目 Intel 简体版

原文原文鏈接

在互聯網搜索引擎和醫療成像等諸多領域，深度神經網絡 (DNN) 應用的重要性正在不斷提高。 Pradeep Dubey 在其博文中概述了英特爾® 架構機器學習願景。英特爾正在實現 Pradeep Dubey 博文中勾勒的機器學習願景，並正在着手開發軟件解決方案以加速執行機器學習工做負載。這些解決方案將包含在將來版本的英特爾® 數學核心函數庫（英特爾® MKL）和英特爾® 數據分析加速庫（英特爾® DAAL）中。本技術預覽版展現了配備咱們正在開發的軟件後，英特爾平臺將有望實現的性能。這一版本僅可在支持英特爾® 高級矢量擴展指令集 2（英特爾® AVX2）的處理器上運行。在將來的文章中，咱們將介紹分佈式多節點配置可帶來的優點。git

本文介紹的預覽包功能有限，且並不是設計用於生產用途。此處討論的特性現已在英特爾 MKL 2017 測試版和英特爾 Caffe 分支 (fork) 中推出。github

Caffe 是伯克利願景和學習中心 (Berkeley Vision and Learning Center, BVLC) 開發的一個深度學習框架，也是最經常使用的用於圖像識別的社區框架之一。 Caffe 一般做爲性能指標評測與 AlexNet（一種圖像識別神經網絡拓撲）和 ImageNet（一種標籤圖像數據庫）一塊兒使用。數據庫

Caffe 可充分利用英特爾 MKL 中優化的數學例程，同時也將能夠經過應用代碼現代化技術，進一步提高基於英特爾® 至強® 處理器的系統的性能。經過合理使用英特爾 MKL、矢量化和並行化技術，相比未優化的 Caffe 方案，通過優化的方案有望將訓練性能提高 11 倍，將分類性能提高 10 倍。網絡

藉助這些優化，在整個 ILSVRC-2012 數據集上訓練 AlexNet* 網絡以在 80% 的時間實現排名前五的準確度，所需的時間從 58 天縮短至大約 5 天。架構

開始框架

咱們正努力爲軟件產品開發新功能，目前您可以使用本文附帶的技術預覽包再現展現的性能結果，甚至使用您本身的數據集訓練 AlexNet。機器學習

該預覽包支持 AlexNet 拓撲，並引入了「intel_alexnet」模型，它相似於 bvlc_alexnet，添加了 2 個全新的「IntelPack「和「IntelUnpack」層，以及優化的卷積、池化和規範化層。此外，咱們還更改了驗證參數以提升矢量化性能，將驗證 minibatch 的數值從 50 提升到 256，將測試迭代次數從 1000 減小到 200，從而使驗證運行中使用的圖像數量保持不變。該預覽包在如下文件中加入了 intel_alexnet 模型：分佈式

models/intel_alexnet/deploy.prototxt
models/intel_alexnet/solver.prototxt
models/intel_alexnet/train_val.prototxt.

「intel_alexnet」模型支持您訓練和測試 ILSVRC-2012 訓練集。函數

開始使用該預覽包時，請確保「系統要求和限制」中列出的全部常規 Caffe 依賴項均已安裝在系統中，而後：

對預覽包進行解包。
爲如下「intel_alexnet」模型文件中的數據庫、快照位置和圖像均值文件指定路徑。
- models/intel_alexnet/deploy.prototxt
- models/intel_alexnet/solver.prototxt
- models/intel_alexnet/train_val.prototxt
爲「系統要求和限制」部分列出的軟件工具設置運行時環境。
在 LD_LIBRARY_PATH 環境變量中添加 ./build/lib/libcaffe.so 路徑
設置線程環境：
$> export OMP_NUM_THREADS=<N_processors * N_cores>
$> export KMP_AFFINITY=compact,granularity=fine
使用如下命令在單節點上執行計時：
$> ./build/tools/caffe time \
-iterations <number of iterations> \
--model=models/intel_alexnet/train_val.prototxt
使用如下命令在單節點上執行訓練：
$> ./build/tools/caffe train \
--solver=models/intel_alexnet/solver.prototxt