利用深度學習算法 GAN 可實現動做追蹤與遷移,將某人物動做複製到其餘人,應用到舞蹈領域,人人皆可成舞王。算法
最近,《這!就是街舞》第二季開播,又一次燃起了全民熱舞的風潮。網絡
剛開播沒多久,這個全程高能的節目,就在豆瓣上就獲得了 9.6 的高分。舞者們在比賽中精彩的表演,讓屏幕前的吃瓜羣衆直呼「太燃了!」「驚豔!」,甚至不由自主跟着音樂抖起來了。架構
然而,真要本身跳起來,實際與想象之間,估計差了若干個羅志祥。想象中,本身是這樣的:框架

但實際上倒是這樣的:工具

對於舞者來講,他們的動做叫作 Hiphop,Breaking,Locking 等等,而對於吃瓜羣衆來講,就是抖來抖去,滾來滾去,指來指去……學習
可能這輩子和街舞無緣?仍是去跳跳廣場舞吧……網站
等等!先別急着放棄,加州大學伯克利分校的幾位大佬,爲各位研究了一個 AI「祕密武器」,讓你瞬間舞技爆發,成爲下一代舞王。編碼
人人都能當舞王
去年 8 月,加州大學伯克利分校的研究人員推出一篇題目爲《Everybody dance now》的論文,使用深度學習算法 GAN(Generative Adversarial Networks,生成式對抗網絡),能夠複製專業表演者的動做,並將動做遷移到任何人身上,從而實現「Do as I do」(舞我所舞)。人工智能
先來看複製舞蹈的結果展現,感覺一下:spa

以前 Deepfake 換臉技術大火,如今居然整我的均可以「Deepfake」了!咱們看一下這個神操做是怎麼實現的。
論文中介紹道,遷移動做方法總的分爲如下步驟:
- 給定兩個視頻,一個是動做源視頻,另外一個是目標人物視頻;
- 而後使用一種算法,從源視頻中檢測專業舞者的舞姿,並建立相應運動的火柴人框架;
- 接着,使用訓練的兩種生成對抗網絡(GAN)的深度學習算法,建立目標人物的所有圖像,併爲其生成更清晰、更逼真的視頻圖像。
最終結果是,該系統能夠把專業舞者的身體動做映射到業餘舞者的身上。除了模仿動做以外,它還可以完美地虛構人的聲音和臉部表情。
黑科技背後原理揭祕
這項黑科技具體原理是這樣的,將動做遷移管道一共分爲三個部分:
1. 姿態檢測:
團隊使用現有的姿式檢測模型 OpenPose(CMU 開源項目),從源視頻中提取身體、面部和手部的姿式關鍵點。這一步的本質是對身體姿式進行編碼,忽略掉身體外形等信息。

2. 全局姿態標準化:
計算給定幀內源和目標人物身體形狀、位置之間的差別,將源姿態圖形轉換到符合目標人物身體形狀和位置的姿態圖形。
3. 從標準化後的姿態圖形,推斷目標人物的圖像:
使用一個生成式對抗網絡模型,訓練模型學習從標準化後的姿態圖形映射到目標人物圖像。

在開發系統過程當中,團隊使用了 NVIDIA TITAN Xp 中的 GeForce GTX 1080 Ti GPU,和由 PyTorch 加速的 cuDNN 來訓練和推理。
在圖像轉換階段,採用了 NVIDIA 開發的對抗訓練的圖像翻譯 pix2pixHD 架構。經過 pix2pixHD 的全局生成器來預測面部殘差。他們對面部使用單個 70×70 PatchGAN 判別器。
訓練過程當中,源視頻和目標視頻數據的收集方式略有不一樣。爲確保目標視頻質量,使用手機相機,以每秒 120 幀的速度拍攝目標主體的實時鏡頭,每一個視頻時長至少 20 分鐘。
對於源視頻,只須要獲得合適的姿式檢測結果,因此用網上表演舞蹈的高質量視頻便可。

對於系統的結果,研究人員表示還不完美。儘管它產生的視頻大多仍是很是逼真的,可是偶爾也會露出馬腳,好比出現身體某部位消失,就像「融化」了之類的異常現象。
此外,因爲算法不對衣服編碼,沒法產生衣服隨動做飄舞的視頻,目標者必須穿緊身衣服才行。
若是暫且不計較這些缺點的話,這個技術的確使人興奮。
有了這個 AI 工具,即便你是個舞蹈方面的小白,或者四肢僵硬不協調,也能像郭富城,羅志祥,或者任何你喜歡的舞者那樣成爲「舞林高手」。即便是傑克遜的太空步,對你來講也都只是小菜一碟了。
不過,擁有一個舞蹈夢的,不止伯克利分校這一個團隊。谷歌在 AI 和跳舞的結合上也花了心思。
谷歌 AI 編出舞蹈新花樣
去年年末,谷歌藝術與文化部技術項目經理 Damien Henry 與英國編舞家 Wayne McGregor 合做,共同研發了一種可以自動生成特定風格的舞蹈編排工具。
擁有普利茅斯大學名譽科學博士學位的 McGregor ,對科學和技術素來感興趣。當他回顧本身 25 年來的舞蹈視頻時,想到可否經過技術來使表演保持新鮮感。因而他去向 Henry 請教,如何藉助技術不斷創做出新的舞蹈內容?
而 Henry 從一個科學網站的帖子得到了靈感。這個帖子介紹了使用神經網絡,可以用根據前一個字母中的筆跡預測下一個字母。
因而,他提出了一種相似算法,可以對給定運動進行預測。經過視頻捕獲舞者姿式,而後生成接下來最有可能進行的舞蹈動做,並在屏幕上實時顯示。

這個算法也一樣忽略了人的衣着,只是捕捉演員特定姿式的關鍵點,從而得出火柴人模型。
當他們錄入 McGregor 和他的舞蹈演員的舞蹈視頻後,AI 學會了如何跳舞,並且生成的舞蹈風格和 McGregor 的很類似。
雖然在舞蹈創造力上,人工智能仍是有必定的侷限性。這款谷歌 AI 工具並不能發明出它從未「見過」的動做。它只是預測在它學過的動做中,最有可能發生的動做。
此外,這個技術還能夠提供混合風格的舞蹈編排,好比在 McGregor 的錄像中插入巴西桑巴舞的錄像,AI 可能會給出一個全新的混合舞。Henry 並不擔憂它會給出一個四不像的舞蹈,由於學習的源頭仍是由人去輸入的。
AI 姿態追蹤,不止「舞蹈夢」
看了這麼多幫你「跳舞」的技術,是否是已經躍躍欲試了呢?
舞蹈 AI 能讓不敢動不想動的人,更自在更輕鬆地動起來,體驗舞蹈和運動的樂趣。但這背後的技術可不只僅只是博人一樂。
支撐起舞蹈 AI 的姿態估計,背後潛藏着巨大的能量,它可以幫助咱們更準確地完成形體動做,好比 3D 健身學習、體育項目姿式矯正,病人康復訓練,甚至是虛擬試衣,拍照姿式矯正上,都會帶來新的突破。

按照這樣的發展,機器會愈來愈瞭解咱們,愈來愈熟悉咱們的體態特徵和行爲方式,從而幫咱們更好地認識本身。
好了,先不說了,我要去跟 AI 學跳舞了。你要不要一塊兒來?