吃了這些數據集和模型,跟 AI 學跳舞,作 TensorFlowBoys

https://mp.weixin.qq.com/s/zmpvOFAjTc8r8sxJbidpGQ算法

By 超神經

場景描述:利用深度學習算法 GAN 可實現動做追蹤與遷移,將某人物動做複製到其餘人,應用到舞蹈領域,人人皆可成舞王。

關鍵詞:GAN  動做遷移  舞蹈

最近,《這!就是街舞》第二季開播,又一次燃起了全民熱舞的風潮。網絡

剛開播沒多久,這個全程高能的節目,就在豆瓣上就獲得了 9.6 的高分。舞者們在比賽中精彩的表演,讓屏幕前的吃瓜羣衆直呼「太燃了!」「驚豔!」,甚至不由自主跟着音樂抖起來了。架構

然而,真要本身跳起來,實際與想象之間,估計差了若干個羅志祥。想象中,本身是這樣的:框架

吃了這些數據集和模型,跟 AI 學跳舞,作 TensorFlowBoys

但實際上倒是這樣的:
吃了這些數據集和模型,跟 AI 學跳舞,作 TensorFlowBoyside

對於舞者來講,他們的動做叫作 Hiphop,Breaking,Locking 等等,而對於吃瓜羣衆來講,就是抖來抖去,滾來滾去,指來指去……工具

可能這輩子和街舞無緣?仍是去跳跳廣場舞吧……學習

等等!先別急着放棄,加州大學伯克利分校的幾位大佬,爲各位研究了一個 AI 「祕密武器」,讓你瞬間舞技爆發,成爲下一代舞王。測試

人人都能當舞王

去年 8 月,加州大學伯克利分校的研究人員推出一篇題目爲《Everybody dance now》的論文,使用深度學習算法 GAN(Generative Adversarial Networks,生成式對抗網絡),能夠複製專業表演者的動做,並將動做遷移到任何人身上,從而實現「Do as I do」(舞我所舞)。網站

先來看複製舞蹈的結果展現,感覺一下:編碼

吃了這些數據集和模型,跟 AI 學跳舞,作 TensorFlowBoys
左上角爲專業舞者,左下爲檢測到的姿式,中間和右邊是複製到目標人物的生成視頻

以前 Deepfake 換臉技術大火,如今居然整我的均可以「Deepfake」了!咱們看一下這個神操做是怎麼實現的。

論文中介紹道,遷移動做方法總的分爲如下步驟:

  • 給定兩個視頻,一個是動做源視頻,另外一個是目標人物視頻;

  • 而後使用一種算法,從源視頻中檢測專業舞者的舞姿,並建立相應運動的火柴人框架;

  • 接着,使用訓練的兩種生成對抗網絡(GAN)的深度學習算法,建立目標人物的所有圖像,併爲其生成更清晰、更逼真的視頻圖像。

最終結果是,該系統能夠把專業舞者的身體動做映射到業餘舞者的身上。除了模仿動做以外,它還可以完美地虛構人的聲音和臉部表情。

黑科技背後原理揭祕

這項黑科技具體原理是這樣的,將動做遷移管道一共分爲三個部分:

  1. 姿態檢測:

團隊使用現有的姿式檢測模型 OpenPose(CMU 開源項目),從源視頻中提取身體、面部和手部的姿式關鍵點。這一步的本質是對身體姿式進行編碼,忽略掉身體外形等信息。
吃了這些數據集和模型,跟 AI 學跳舞,作 TensorFlowBoys

對舞者進行姿態檢測,並編碼爲火柴人圖形

  1. 全局姿態標準化:

計算給定幀內源和目標人物身體形狀、位置之間的差別,將源姿態圖形轉換到符合目標人物身體形狀和位置的姿態圖形。

  1. 從標準化後的姿態圖形,推斷目標人物的圖像:

使用一個生成式對抗網絡模型,訓練模型學習從標準化後的姿態圖形映射到目標人物圖像。

吃了這些數據集和模型,跟 AI 學跳舞,作 TensorFlowBoys
訓練過程(上)與遷移過程(下)示意圖

在開發系統過程當中,團隊使用了 NVIDIA TITAN Xp 中的 GeForce GTX 1080 Ti GPU,和由 PyTorch 加速的 cuDNN 來訓練和推理。

在圖像轉換階段,採用了 NVIDIA 開發的對抗訓練的圖像翻譯 pix2pixHD 架構。經過 pix2pixHD 的全局生成器來預測面部殘差。他們對面部使用單個 70x70 PatchGAN 判別器。

訓練過程當中,源視頻和目標視頻數據的收集方式略有不一樣。爲確保目標視頻質量,使用手機相機,以每秒 120 幀的速度拍攝目標主體的實時鏡頭,每一個視頻時長至少 20 分鐘。

對於源視頻,只須要獲得合適的姿式檢測結果,因此用網上表演舞蹈的高質量視頻便可。

吃了這些數據集和模型,跟 AI 學跳舞,作 TensorFlowBoys
系統映射結果展現

對於系統的結果,研究人員表示還不完美。儘管它產生的視頻大多仍是很是逼真的,可是偶爾也會露出馬腳,好比出現身體某部位消失,就像「融化」了之類的異常現象。

此外,因爲算法不對衣服編碼,沒法產生衣服隨動做飄舞的視頻,目標者必須穿緊身衣服才行。

若是暫且不計較這些缺點的話,這個技術的確使人興奮。

有了這個 AI 工具,即便你是個舞蹈方面的小白,或者四肢僵硬不協調,也能像郭富城,羅志祥,或者任何你喜歡的舞者那樣成爲「舞林高手」。即便是傑克遜的太空步,對你來講也都只是小菜一碟了。

不過,擁有一個舞蹈夢的,不止伯克利分校這一個團隊。谷歌在 AI 和跳舞的結合上也花了心思。

谷歌 AI 編出舞蹈新花樣

去年年末,谷歌藝術與文化部技術項目經理 Damien Henry 與英國編舞家 Wayne McGregor 合做,共同研發了一種可以自動生成特定風格的舞蹈編排工具。

擁有普利茅斯大學名譽科學博士學位的 McGregor ,對科學和技術素來感興趣。當他回顧本身 25 年來的舞蹈視頻時,想到可否經過技術來使表演保持新鮮感。因而他去向 Henry 請教,如何藉助技術不斷創做出新的舞蹈內容?

而 Henry 從一個科學網站的帖子得到了靈感。這個帖子介紹了使用神經網絡,可以用根據前一個字母中的筆跡預測下一個字母。

因而,他提出了一種相似算法,可以對給定運動進行預測。經過視頻捕獲舞者姿式,而後生成接下來最有可能進行的舞蹈動做,並在屏幕上實時顯示。

視頻中演示了 AI 編舞並實時顯示在屏幕上的效果

這個算法也一樣忽略了人的衣着,只是捕捉演員特定姿式的關鍵點,從而得出火柴人模型。

當他們錄入 McGregor 和他的舞蹈演員的舞蹈視頻後,AI 學會了如何跳舞,並且生成的舞蹈風格和 McGregor 的很類似。

雖然在舞蹈創造力上,人工智能仍是有必定的侷限性。這款谷歌 AI 工具並不能發明出它從未「見過」的動做。它只是預測在它學過的動做中,最有可能發生的動做。

此外,這個技術還能夠提供混合風格的舞蹈編排,好比在 McGregor 的錄像中插入巴西桑巴舞的錄像,AI 可能會給出一個全新的混合舞。Henry 並不擔憂它會給出一個四不像的舞蹈,由於學習的源頭仍是由人去輸入的。

AI 姿態追蹤,不止「舞蹈夢」

看了這麼多幫你「跳舞」的技術,是否是已經躍躍欲試了呢?

舞蹈 AI 能讓不敢動不想動的人,更自在更輕鬆地動起來,體驗舞蹈和運動的樂趣。但這背後的技術可不只僅只是博人一樂。

支撐起舞蹈 AI 的姿態估計,背後潛藏着巨大的能量,它可以幫助咱們更準確地完成形體動做,好比 3D 健身學習、體育項目姿式矯正,病人康復訓練,甚至是虛擬試衣,拍照姿式矯正上,都會帶來新的突破。

吃了這些數據集和模型,跟 AI 學跳舞,作 TensorFlowBoys
姿態估計的用途普遍

按照這樣的發展,機器會愈來愈瞭解咱們,愈來愈熟悉咱們的體態特徵和行爲方式,從而幫咱們更好地認識本身。

好了,先不說了,我要去跟 AI 學跳舞了。你要不要一塊兒來?

超神經數據集

COCO 大型圖像數據集

COCO 數據集於 2014 年由微軟發佈,現已成爲圖像字幕的標準測試平臺。文件大小爲 83.39 GB。

COCO 數據集是一個大型圖像數據集,設計用於機器視覺領域的對象檢測、分割,人物關鍵點檢測,填充分割和字幕生成。COCO 數據集以場景理解爲目標,主要從複雜的平常場景中截取,圖像中的目標經過精確的分割進行位置的標定。

COCO 數據集具備如下幾個特徵:目標分割,情景中的感知,超像素分割,33 萬張圖像(20 餘萬個標籤),150 萬個目標實例,80 個目標類,91 個物品類,25 萬有關鍵點的人。

超神經HyperAI 蒐集並整理全球數百個公開數據集,並提供國內鏡像下載,對科研機構和開發者們提供免費服務。

更多相關數據集,請訪問 https://hyper.ai 下載

吃了這些數據集和模型,跟 AI 學跳舞,作 TensorFlowBoys

相關文章
相關標籤/搜索