深度學習加速綜述:算法、編譯器、體系結構與硬件設計

深度學習加速綜述:算法、編譯器、體系結構與硬件設計 概述 一、算法頂層 1.1 大規模分佈式機器學習 1.2 優化算法 1.3(輕量級)高效的神經網絡結構 1.4 神經網絡架構搜索 1.5 網絡量化剪枝 1.6 卷積運算的優化 二、深度學習編譯器 2.1 需求 2.2 TVM 2.3 Tensorflow XLA 2.4 Pytorch Glow 三、體系結構與硬件設計 3.0 關注指標 3.1
相關文章
相關標籤/搜索