Google Coral Edge TPU與 英偉達 Jetson Nano:快速深刻了解Edge AI 邊緣人工智能的性能。後端
最近我一直在閱讀,測試和寫一些關於邊緣計算的內容,主要關注邊緣AI。 最近很酷的新硬件上架,我渴望比較新平臺的性能,甚至測試它們與高性能系統的對比。性能
硬件學習
我感興趣的主要設備是新的英偉達 Jetson Nano(128CUDA)和Google Coral Edge TPU(USB加速器),我還將測試i7-7700K + GTX1080(2560CUDA),Raspberry Pi 3B +,以及我本身的老主力,一個2014年的macbook pro,包含一個i7-4870HQ(沒有支持CUDA的內核)。測試
軟件優化
我將使用MobileNetV2做爲分類器,在imagenet數據集上進行預訓練。我直接從Keras使用這個模型,我使用TensorFlow後端。使用GPU的浮點權重,以及CPU和Coral Edge TPU的8位量化tflite版本。人工智能
首先,加載喜鵲的模型和圖像。而後我執行1個預測做爲預熱(由於我注意到第一個預測老是比下一個預測慢不少)。我讓它睡了1秒,因此全部線程確定都完成了。而後腳本爲它運行,並對同一圖像進行250次分類。經過對全部分類使用相同的圖像,咱們確保在整個測試過程當中它將保持接近數據總線。畢竟,咱們對推理速度感興趣,而不是更快地加載隨機數據的能力。線程
使用CPU的量化tflite模型得分是不一樣的,但它彷佛老是返回與其餘人相同的預測,因此我想這在模型中是奇怪的,我很肯定它不會影響性能。設計
如今,由於不一樣平臺的結果是如此不一樣,因此很難想象,因此這裏有一些圖表,選擇你喜歡的...blog
分析開發
第一張圖中有3個條形圖跳入視圖。 (是的,第一張圖,線性刻度fps,是我最喜歡的,由於它顯示了高性能結果的差別)在這3個柱中,其中2個是由Google Coral Edge TPU USB加速器實現的,第3個是由英特爾i7-7700K輔助的全面NVIDIA GTX1080。
看得更近,你會看到GTX1080實際上被Coral擊敗了。讓它下沉幾秒鐘,而後準備被吹走,由於GTX1080最大功率爲180W,與Coral2.5W相比絕對是巨大的。
打擊太大??好的,讓咱們繼續:
接下來咱們看到的是,英偉達 Jetson Nano的得分並不高。雖然它有一個支持CUDA的GPU,但實際上並不比我原來的i7-4870HQ快得多。但這是一個問題,「不是更快」,它仍然比50W,四核,超線程CPU更快。幾年前,真的,但仍然。 Jetson Nano歷來沒有消耗過超過12.5W的短時間平均值,由於這就是個人動力。功耗下降75%,性能提高10%。
很明顯,它自己的Raspberry Pi並非什麼使人印象深入的東西,不是浮點模型,對量化模型來講仍然沒有任何用處。可是,嘿,不管如何我準備好了文件,它可以運行測試,因此更多的老是更好嗎?而且仍然有點有趣,由於它顯示了Pi中的ARM Cortex A53與Jetson Nano中的A57之間的差別。
英偉達 Jetson Nano
所以,Jetson Nano並無使用MobileNetV2分類器提供使人印象深入的FPS費率,但正如我已經說過的那樣,這並不意味着它不是一個頗有用的工程。 它很便宜,它不須要大量的能量來運行,也許最重要的屬性是它運行TensorFlow-gpu(或任何其餘ML平臺),就像你之前一直使用的任何其餘機器同樣。
只要您的腳本沒有深刻到CPU體系結構中,您就能夠運行與i7 + CUDA GPU徹底相同的腳本,也能夠進行培訓! 我仍然以爲NVIDIA應該使用TensorFlow預加載L4T,但我會盡可能再也不憤怒。 畢竟,他們對如何安裝它有一個很好的解釋(不要被愚弄,不支持TensorFlow 1.12,只有1.13.1)。
Google Coral Edge TPU
好吧,我很是喜歡設計精良,效率高的電子設備,因此我可能不是很客觀。 可是這件事......這是絕對美麗的事情!
Edge TPU就是咱們所說的「ASIC」(專用集成電路),這意味着它具備FET等小型電子部件和直接在硅層上燒製的容量的組合,這樣它就能夠徹底實現 它須要作的是加快推理。
推斷,是的,Edge TPU沒法執行向後傳播。
這背後的邏輯聽起來比如今更復雜。 (實際上建立硬件並使其工做,是徹底不一樣的事情,並且很是很是複雜。但邏輯功能要簡單得多)。 若是你真的對它的工做方式感興趣,能夠查看「數字電路」和「FPGA」,你可能會找到足夠的信息讓你在接下來的幾個月裏忙碌起來。 有時開始時比較複雜,但真的頗有趣!
但這正是爲何Coral在比較性能/瓦特數時處於如此不一樣的緣由,它是一堆電子設備,旨在完成所需的按位操做,基本上沒有任何開銷。
爲何GPU沒有8位模型?
GPU本質上被設計爲細粒度並行浮點計算器。所以,使用浮動正是它所創造的,以及它的優勢。 Edge TPU設計用於執行8位操做,而且CPU具備比徹底位寬浮點數更快的8位內容更快的方法,由於它們在不少狀況下必須處理這個問題。
爲什麼選擇MobileNetV2?
我能夠給你不少理由,爲何MobileNetV2是一個很好的模型,但主要緣由是,它是谷歌爲Edge TPU提供的預編譯模型之一。
Edge TPU還有哪些其餘產品?
它曾經是不一樣版本的MobileNet和Inception,但截至上週末,谷歌推出了一個更新,容許咱們編譯自定義TensorFlow Lite模型。但限制是,而且可能永遠是TensorFlow Lite模型。這與Jetson Nano不一樣,那個東西能夠運行任何你想象的東西。
Raspberry Pi + Coral與其餘相比
爲何鏈接到Raspberry Pi時Coral看起來要慢得多?答案很簡單直接:Raspberry Pi只有USB 2.0端口,其他的都有USB 3.0端口。並且因爲咱們能夠看到i7-7700K在Coral和Jetson Nano上的速度更快,但仍然沒有獲得Coral開發板在NVIDIA測試時的分數,咱們能夠得出結論,瓶頸是數據速率,不是Edge TPU。
我以爲這對我來講已經足夠長了,也許對你來講也是如此。 我對Google Coral Edge TPU的強大功能感到很是震驚。 但對我來講,最有趣的設置是NVIDIA Jetson Nano與Coral USB加速器的結合。 我確定會使用這種設置,感受就像是一個夢想。
說到Google Coral的開發板Dev Board,以及Edge TPU,那就順便提一下基於Coral Dev Board開發的Model Play。它由國內團隊研發,是面向全球 AI 開發者的 AI 模型共享市場。Model Play 不只爲全球開發者提供了 AI 模型展現交流的平臺,更能搭配含 Edge TPU 的 Coral Dev Board 進行使用,加速 ML 推理,經過手機實時預覽模型運行效果,助力 AI 由原型向產品拓展。
開發者既能發佈本身訓練的 AI 模型,也能夠訂閱並下載本身感興趣的模型,用於再訓練和拓展本身的 AI 創意,實現想法-原型-產品的過程。Model Play 中還預置了各類經常使用 AI 模型,例如 MobileNetV一、InceptionV2 等,並支持可再訓練模型的提交發布,方便用戶在本身業務數據上優化微調。
就如谷歌在今年的I/O大會上,號召開發者們,共同爲開發社區作出貢獻。與此同時,Model Play團隊也正在向全球開發者發出了AI模型召集令,徵集基於 TensorFlow、可在 Google Coral Dev Board 上運行的深度學習模型,以鼓勵更多開發者們參與活動,與全球千萬 AI 開發者,分享創意和想法。