（轉）20個使人驚歎的深度學習應用

時間 2019-11-16

標籤使人驚歎深度學習應用简体版

原文原文鏈接

20個使人驚歎的深度學習應用(歡迎補充)：Demo+Paper+Code

量子位

1 個月前

唐旭發自 RUC
量子位報道 | 公衆號 QbitAIhtml

從計算機視覺到天然語言處理，在過去的幾年裏，深度學習技術被應用到了數以百計的實際問題中。諸多案例也已經證實，深度學習能讓工做比以前作得更好。react

今天，量子位爲你們收集了20個深度學習方面的優秀應用——固然，這份榜單可能並不詳盡，但相信看過以後，你對這項技術在某些領域的潛力會有更清晰的認識。git

針對每一個應用，咱們還儘可能收集了相關的Demo、Paper和Code等信息。github

一、Face2Face：扮演特朗普

斯坦福大學的一個小組作了一款名爲Face2Face的應用，這套系統可以利用人臉捕捉，讓你在視頻裏實時扮演另外一我的，簡單來說，就是能夠把你的面部表情實時移植到視頻里正在發表演講的美國總統身上。算法

一樣的原理也能夠用於對視頻裏場景的3D重建、電影特效也能夠這麼幹。安全

這個應用的實際效果是這樣的：微信

Paper：網絡

http://www.graphics.stanford.edu/~niessner/papers/2016/1facetoface/thies2016face.pdfapp

二、Let there be color！：給黑白照片/視頻自動上色

左圖是拍攝於1937年的一幅礦工的照片，右圖是用Let there be color！從新自動上色後的效果。ide

上圖是拍攝於1909年的一張保齡球館的照片，下圖是用Let there be color！從新上色後的效果。

實際上，這是運用深度學習網絡學習天然存在於照片中的某些模式——好比，天一般是藍的，雲是白的或者灰的，草是綠的。經過這類規則，Let there be color！不須要人類的介入就能對照片進行從新上色。雖然有時它也會犯錯，但這種錯誤很難被發現。

一樣地，Let there be color！也能夠把黑白視頻變成彩色的。

Demo：

Automatic Image Colorization・白黒畫像の自動色付け

Paper：

http://hi.cs.waseda.ac.jp/~iizuka/projects/colorization/data/colorization_sig2016.pdf

Code：

satoshiiizuka/siggraph2016_colorization

三、Pixel Recursive Super Resolution：告別馬賽克

我爲何不看美劇CSI？緣由很簡單：太假了。裏面的主角動不動就把一段視頻拉近、放大——而後他們就獲得了一幅分辨率遠超真實狀況的影像。這根本不現實……

直到深度學習出現。今年早些時候，谷歌大腦的研究者們訓練了一個深度學習網絡，他們讓後者根據一些分辨率極低的人臉圖像來預測這些面孔真實的樣子。以下圖：

最左邊是輸入的8×8像素的原始影像，最右一列是被拍攝的人臉在照片中的真實效果，中間則是電腦的猜想。

能夠看到，雖然並不完美，但電腦預估出的結果已經與實際狀況十分接近。Google的研究者將這種方法命名爲 Pixel Recursive Super Resolution（像素遞歸超分辨率），用這種方法能顯著提高圖像的質量。

Paper：

[1702.00783] Pixel Recursive Super Resolution

四、實時多人動做預估

深度學習網絡已經能在預估動做方面幫動畫師很大的忙，現在，咱們甚至能作到實時預估。康奈爾大學Zhe Cao等人教會了一個神經網絡估算人類骨架位置的變化。

在以下的gif中，你能夠看到一羣人在街頭跳舞，而經過這種神經網絡，咱們能知道他們在哪、如何作動做。

深度學習實時預估多人動做_騰訊視頻

視頻

Paper：

https://arxiv.org/abs/1611.08050

五、Neural Talk：描述照片

用電腦來對照片進行自動分類已經很常見了。好比，Facebook能在分享的照片裏標記出你的好友，Google能夠爲你的照片打上標籤以便更有效率地進行搜索。

而現在，深度學習已經能夠對照片中的各類元素進行描述。在Andrej Karpathy和李飛飛所作的一項工做中，他們訓練了一個能對照片中不一樣區域內元素進行識別，並用一句話來描述照片的深度學習系統。

Demo：

Image Annotation Viewer

Paper：

http://www.cv-foundation.org/openaccess/content_cvpr_2015/papers/Karpathy_Deep_Visual-Semantic_Alignments_2015_CVPR_paper.pdf

六、DeepWarp：你瞅啥？再瞅把你作成表情包！

這個應用有點惡搞的意思。如今，無論你手裏拿到了誰的照片，用Ganin等人開發的這個深度學習網絡過一下，你就可讓他的眼睛動起來：你可讓他上下看、左右看，甚至繞着圈看……好吧，除了生產表情包，其實也不知道它還能幹什麼用……

這是一些例子，裏面有伊麗莎白女王、奧巴馬、莎拉波娃……等等：

DeepWarp Project Page

Demo：

DeepWarp Demo Page

Paper：

http://sites.skoltech.ru/compvision/projects/deepwarp/files/deepwarp_eccv2016.pdf

七、生成新照片

來自懷俄明州立大學的Anh Nguyen以及其餘幾位研究者開發了一套能用迭代的方式從已有照片中合成全新照片的深度學習網絡。如下是一些電腦合成的樣片，結果使人驚豔：

Paper：

https://arxiv.org/pdf/1612.00005.pdf

八、用卷積神經網絡來拯救鯨魚

衆所周知，卷積神經網絡在圖像識別分類領域有着很是好的前景。利用深度學習，咱們能夠將抓拍到的珍稀動物（好比鯨魚）照片進行分類，從而更好地估算某種動物的存活數量。

其餘的例子包括浮游生物、植物等等。

分類浮游生物的介紹：

Classifying plankton with deep neural networks

Code：

benanne/kaggle-ndsb

九、Pix2Pix：靈魂畫師

這個點子與以前提到的Let there be color！有點相似，不過要更有創造力一點。你能夠往電腦中輸入一幅簡筆畫，甚至一些色塊，而後讓電腦發揮本身的創造力輸出新的圖片。相似地，你也能夠把衣服航拍照片變成一幅地圖，將白天的場景變成夜晚。

前段時間特別火的信手畫貓(傳送門：人工智能拯救渣畫手，我分分鐘畫只貓給你看)，也是基於這個技術。

Paper：

https://arxiv.org/pdf/1611.07004v1.pdf

Code：

phillipi/pix2pix

十、Reading text in the Wild：用圖片找文字

牛津視覺幾何小組運用深度學習技術開發了一項應用，它能夠讀出視頻中的文字，輸入文字，就能夠直接搜出圖像中包含這些文字的BBC新聞視頻。好比，這是對「London」的一部分搜索結果：

Demo：

Visual Geometry Group Home Page

Paper：

[1412.1842] Reading Text in the Wild with Convolutional Neural Networks

十一、Google Sunroof：看你家房頂能收到多少太陽能

Google Sunroof首先會根據Google地球的航拍地圖爲你家的屋頂建立一個3D模型，而後再用深度學習將屋頂和周圍的數目區分開，接着根據太陽運行軌跡以及天氣情況，就能夠估算出安裝了太陽能電池板的房頂能收集到多少太陽能。

項目首頁：

https://www.google.com/get/sunroof#p=0

十二、AI制霸打磚塊

Google的Deepmind團隊用深度強化技術教會了AI玩《打磚塊》（Breakout，基本你們都玩過，具體是什麼請看下圖）。

測試過程當中，電腦並無依據任何遊戲規則被進行特殊的編成，他們只是將鍵盤的控制權交給AI，而後對它進行不斷地訓練。起初，AI玩得十分糟糕；但通過兩個小時的訓練以後，畫風就變成了這個樣子的：

Paper：

https://www.cs.toronto.edu/~vmnih/docs/dqn.pdf

Code：

https://sites.google.com/a/deepmind.com/dqn/

1三、制霸全場~

打磚塊還不夠？深度學習技術還被用來在更多遊戲領域訓練AI，包括：《小蜜蜂》、《毀滅公爵》、《乒乓》等幾十種遊戲。在大多數的遊戲裏，深度學習網絡已經玩的比有經驗的玩家更好，一樣全部的玩法都是AI本身摸索的。

Paper：

http://www.davidqiu.com:8888/research/nature14236.pdf

1四、LipNet：讓AI讀脣語

AI識別脣語_騰訊視頻

視頻

來自牛津大學和Deepmind的科學家共同完成了這一項目。LipNet在讀脣的準確率方面達到了驚人93%，遠超人類讀脣者52%的平均水平。

Paper：

https://arxiv.org/pdf/1611.01599.pdf

Code：

bshillingford/LipNet

1五、真·靈魂畫師

現在，運用深度學習技術，可讓AI對某一幅畫的風格、色彩、明暗等元素進行學習，而後將這幅畫上的風格移植到另外一幅上，並且效果很是不錯。

這麼說可能不夠直觀，來看幾個例子：

下面從左到右，依次是畢加索、梵·高和莫奈風格的蒙娜麗莎。

而這是某位老哥用AI創做的谷歌地圖風格的蒙娜麗莎……

Demo：

https://deepart.io/

Paper：

http://www.cv-foundation.org/openaccess/content_cvpr_2016/papers/Gatys_Image_Style_Transfer_CVPR_2016_paper.pdf

1六、AI寫字

如今電腦不光能用來打字，還能用來寫字了：多倫多大學的Alex Graves教會了電腦用多種不一樣的風格來書寫。

Demo：

http://www.cs.toronto.edu/~graves/handwriting.html

Paper：

[1308.0850] Generating Sequences With Recurrent Neural Networks

1七、深度學習預測城市熱人口和選舉結果

Gebru等人收集了5000萬張Google街景照片，而後用深度學習技術加以挖掘看看能發現什麼。結果，深度學習不只識別出了2200萬輛汽車的材質、車型、年份等，還從中發現了一些關聯，好比能夠經過對車型的識別來分析某片區域的人口情況。

更有趣的是，AI發現，若是在一段15分鐘長的駕駛路程上遇到的轎車比皮卡更多，那麼這個城市在下屆的總統選舉中有88%的概率將選票投給民主黨；不然，則有82%的概率投給共和黨。

Paper：

https://arxiv.org/pdf/1702.06683.pdf

1八、Deep Dreaming：AI也會白日作夢

Deep Dream_騰訊視頻

視頻

2015年，Google的研究者找到了一種用深度學習來加強圖像特徵的方法，隨後，他們就開發了Deep Dreaming——它可以在圖片中生成一些難以想象的幻象。由於有些和夢境十分類似，所以取名Deep Dreaming。具體生成什麼樣的幻想與這個深度學習系統最近被暴露在什麼樣的環境下有關，有時它甚至能生成嚇人的噩夢。

項目首頁：

https://research.googleblog.com/2015/06/inceptionism-going-deeper-into-neural.html

影集：

Google Deep Dream: 19 of the best images from mesmerising photo software

Code：

google/deepdream