【AI創新者】小蟻首架張駿峯：讓圖像AI人儘可用轉載

時間 2019-12-14

標籤 AI創新者首架圖像儘可轉載简体版

原文原文鏈接

張駿峯，小蟻科技首席架構師，負責小蟻AI圖像相關算法架構。主要包括：小蟻智能攝像機的智能報警服務、小蟻智能行車記錄儀的輔助駕駛ADAS服務、小蟻運動相機App的圖像風格遷移技術以及小蟻微單App的圖像視頻編輯技術。其團隊包括移動開發、前端、後臺、算法，成員分佈在北京及以色列。張駿峯於2015年加入小蟻，此前，張就任於微軟長達14年，參與過Windows, .Net Framework, MSN, Office, Lync, Skype等產品的研發工做。前端

小蟻科技成立於2013年，是一家年輕的互聯網硬件企業。小蟻專一探索智能、可穿戴、移動化的新型視頻類智能電子產品的開發，產品包括小蟻智能攝像機系列、小蟻行車記錄儀系列、小蟻運動相機系列、小蟻微單相機等智能硬件產品，以及和谷歌合做的YI Jump 360°3D VR拍攝設備。同時，小蟻還有一系列的移動應用和服務，幫助用戶更好地使用小蟻設備。算法

CSDN：駿峯您好，小蟻的產品主打視覺。那麼首先請您向你們介紹一下，在小蟻智能攝像機上，與AI相關的技術有哪些？小程序

張駿峯：咱們在小蟻智能攝像機上提供了多種智能服務。微信小程序

智能報警安全

大部分的智能攝像機都提供移動偵測服務。當攝像機檢測到畫面有大幅變更的時候，服務器會向用戶推送一條報警消息。服務器

小蟻智能攝像機提供了一樣的服務，同時，在報警的時候，向服務器上傳了一張圖片，和一段6秒鐘的視頻。這樣即便有人把攝像機拿走了，用戶仍是能夠看到發生了什麼事。微信

傳統的移動偵測方案，靈敏度是一個很難解決的問題。若是靈敏度過高，用戶會收到過多的無效報警，可能會錯太重要信息。若是靈敏度過低，會有重要事件發現而用戶收不到報警的狀況。咱們提供了一個拉桿，用戶能夠在高，中，低靈敏度選擇。網絡

咱們還提供了一種人形檢測的升級方案。當用戶把這個升級方案的開關打開後，若是檢測到畫面有大幅改動，攝像機會繼續對畫面進行進一步檢測，只有在攝像機認爲畫面中有人，纔會通知服務器給用戶推送報警信息。這樣能夠大大減小誤報的狀況。架構

小蟻智能攝像機還提供了寶寶哭聲檢測。若是攝像機檢測到持續的寶寶哭聲，也會向用戶推送報警。併發

手勢識別

小蟻智能攝像機還提供了手勢識別功能。當用戶在攝像機面前作出「攤開手掌-而後握拳」的組合動做時，攝像機會自動錄製10秒視頻，推送給手機App用戶。我家小孩特別喜歡這個功能，有事沒事他就會試一下這個功能，而後給我表演一段殭屍舞。

選擇「攤開手掌-而後握拳」這樣一個組合，是爲了減小誤觸發。

咱們還在研究其餘AI技術，好比人臉檢測，人臉識別，物體識別，如何經濟實惠地讓這些新技術給用戶帶來價值。

CSDN：除智能攝像機以外，小蟻也發售行車記錄儀。那麼在小蟻行車記錄儀上，與AI相關的技術有哪些？

張駿峯：咱們在小蟻行車記錄儀上爲用戶提供ADAS智能安全提醒系統，有效提供安全提醒並實時糾正駕駛行爲。主要是兩個功能：車道偏移預警，前車距離監測

車道偏移預警

當車輛在高速上行駛時，若是行車記錄儀檢測到車輛偏移道路時，會提醒用戶車輛已經偏移道路。

前車距離監測

行車時，若是行車記錄儀檢測到離前車距離愈來愈近，超過必定閾值時，會提醒用戶注意保持車輛距離。

CSDN：在上述兩種產品的模型訓練過程當中，訓練集與測試集從何而來，採用何種網絡及框架，在系統調優方面有何技巧？

張駿峯：開源的數據集和開源代碼提供了基礎的訓練集和測試集。

可是這樣的數據集訓練出來的模型，放在小蟻的產品上，出來的效果不是很滿意。

咱們是有一批內測攝像頭，免費送給用戶。用戶看到有意思的狀況，分享給咱們。內測用戶不少是小蟻員工。咱們根據用戶提供的數據，調整模型，更新算法。

在實際產品上，咱們採用的是一種「端+雲」的混合方式。端上先作一部分篩選，雲上再作進一步的處理。

限於硬件的計算能力，端上目前是用傳統方法處理。

雲上，咱們如今使用的是YOLO模型，基於咱們本身的狀況，作了一些優化。

CSDN：您認爲圖像分割、物體識別、目標跟蹤這一系列技術的難點在哪裏？

張駿峯：咱們遇到的困難主要有兩點：1.數據，2.優化

數據

雖然如今有不少開源數據集，可是，這些數據集是被用於學術界創新和研究的benchmark數據集。這些數據和真實場景下的用戶數據差異很大，場景也不足夠豐富。用開源數據訓練出來的模型，識別率每每不夠理想。所以，真實場景下的海量標註數據集是很是關鍵的。

小蟻產品的用戶量很大，用戶使用小蟻產品的場景各類各樣，環境也各不相同。有些用戶的使用場景也讓咱們大開腦洞。限於咱們的人力物力，咱們優先處理主要用戶場景。

優化

如前所述，小蟻採用的是一種「端+雲」的混合方式。不論是端仍是雲，優化始終是咱們最大的挑戰。

在端上，因爲硬件限制，沒法運行深度神經網絡，咱們目前使用的是傳統方法。即便這樣，如何更快的處理視頻，也是很大的挑戰。

在雲上，咱們用GPU服務器運行深度神經網絡，費用很高。小蟻的用戶量很大，用GPU服務器處理，成本壓力很大。

咱們迫切須要技術的發展，可以把不影響準確率太多的前提下，把處理成本降下來。

CSDN：除了小蟻目前正在作的，您對圖像跟蹤、識別這一系列技術的落地方向還有何構想？

張駿峯： AI技術如今已經很強大了。AlphaGo顛覆了人們對AI的理解。人臉識別的準確率不斷被刷新。可是，AI用到真正的場景上，仍是很是困難的。首先是數據問題。上面已經討論過了。而後是模型的訓練調參。這也是一個很是漫長痛苦的過程。而後是模型的驗證。周而復始。因爲這些問題，AI技術如今作好一個場景，須要花費很大的精力。

期待有一天，AI技術能夠作到像使用AWS API這樣簡單。

CSDN：自從生成網絡火爆，圖像風格遷移的APP便層出不窮，但彷佛都還僅停留在娛樂層面，沒有向更深更實用的方向發展，那麼小蟻作AI藝術這個應用的初衷是什麼，下一步將踩在哪裏？

張駿峯：小蟻除了硬件產品，還有不少相配套的移動應用配合硬件產品。其中，小蟻運動相機/小蟻微單App提供了完整的硬件控制，圖像視頻編輯，社區分享的流程。咱們一直在思考如何讓用戶玩得更好。

2015年末咱們已經知道風格遷移的論文，而且作了嘗試。那時候咱們沒有GPU機器，用cpu來實現處理算法，處理速度很是慢。嘗試過一次後咱們就放棄了。

Prisma的火爆，讓咱們意識到在風格遷移是能夠有很好的移動用戶體驗的。咱們開始使用購買GPU機器，用GPU來實現風格遷移算法。幸運的是，那時候已經有好幾篇論文，把風格轉換的速度提升了不少。咱們在前人的基礎上，實現了咱們本身的風格遷移算法，應用到小蟻的移動應用上。

小蟻AI藝術上線的時候，正好遇上微信小程序即將上線的消息。咱們馬上組織人員實現了小蟻AI藝術微信小程序版。因爲時間緊迫，咱們在最後一個星期六才提交審覈。幸運的是，咱們的小程序一次審覈經過，得以在小程序放開的第一天，讓用戶使用。大部分使用太小蟻AI藝術微信小程序的用戶，反饋都是很是正面的。在幾乎沒有推廣的狀況下，上線第一天得到了超過20萬的使用次數。

咱們最先上線的小程序只能處理圖片。春節以後，咱們更新了一版，最新的小蟻AI藝術微信小程序能夠處理小視頻。相信用戶用小蟻AI藝術處理太小視頻後，會有更深入的感覺。

如今的小蟻AI藝術，從用戶體驗上看，還有不少侷限性。首先，每一種風格，合適於某一類圖片。如今的體驗，用戶必須手動把全部風格都試一遍，才知道哪一種風格合適。某一種風格，或者合適於人像，或者合適於風景。對於同時有人有景的圖片，有時候須要作一個抉擇。

咱們能提供的風格模板也比較有限，用戶使用過一陣後，新鮮感減小。最好的用戶體驗，是讓用戶任意指定一張照片，和一種風格，咱們能把這張照片按照用戶指定風格處理。咱們如今的技術還沒法作到這一點。

CSDN：您以爲圖像風格遷移技術的難點在哪裏，如何落地，瓶頸是什麼？

張駿峯：首先是網絡設計。各類論文上的方法，須要咱們本身實現出來。可是按照論文方法實現出來後，咱們發現效果不是很好，照片處理後有一種很髒的感受。如何去髒，把照片弄乾淨，花了咱們不少時間。咱們對最終的效果仍是很滿意的。

而後就是風格的選取。選擇一個對大多數照片都合適的風格，是一件很繁瑣的事情。咱們一開始就定了一個方向：中國風。事實證實，傳統中國風，顏色比較簡單，大部分的照片，遷移以後效果不太好。咱們從兩個方面解決這個問題。一方面，咱們把中國近代的著名畫家都找了一遍，試了無數張，最後從中挑了8種風格作爲第一次的模板。同時，咱們針對這8種風格，每一種風格都作了不一樣的網絡優化。

整個過程當中，咱們發現，選擇一種好風格，很是花時間。咱們也但願能有一種工具，讓咱們很容易判斷這種風格是否好。但目前爲止，咱們尚未找到這樣的工具。

CSDN：小蟻AI藝術訓練所用數據來自哪裏，採用何種網絡及框架，在具體實施過程當中有何技巧？

張駿峯：對咱們來講，比較幸運的是，咱們已經有一個小蟻社區，用戶在社區上分享了不少照片。這些照片是咱們的測試數據集。風格的選取上，因爲咱們主打中國風，咱們主要的目標在中國近現代著名畫家的做品上。

網絡方面，主要是借鑑了李飛飛的網絡，根據咱們本身的風格，作了不一樣的調整。框架咱們用的是Torch。

咱們花了不少時間處理去髒的問題。這個也是一個開發靈機一動想到的辦法，而後就行了。很神奇。

CSDN：小蟻AI藝術主打「中國風」，請問爲什麼選擇這種風格？

張駿峯：由於咱們不想和其餘人同樣。不少App選擇了西方風格。咱們在中國，就應該選擇中國風。這種選擇讓咱們多了不少開發時間，但咱們認爲是值得的，也是咱們爲之驕傲的。

CSDN：在產品的研發過程當中，團隊遇到過哪些問題？是如何解決的？

張駿峯：服務端，小程序初上線的時候，不少人用，給服務器很大壓力。咱們使用的是阿里雲的服務。在阿里雲的HPC和阿里雲OSS之間，對於高併發有一些問題。咱們幾回反覆，和阿里雲支持團隊屢次交流，最後解決。

小程序方面，不少H5有的功能不能使用，也讓開發饒了一些彎路。好比，給圖片加水印，就試了好多條路，最後是在服務器上實現的。

開發AI藝術小視頻的時候，也遇到了不少問題。視頻的方向是一個大問題。視頻的處理時間比圖片長不少，這使得咱們不得不改架構。

大部分問題都解決了。可是在小程序上如何保存處理後的視頻，咱們始終沒有找到一個好方法。如今只能讓用戶在咱們提供的H5頁面上處理保存視頻。