對話微軟小冰三位首席科學家：微軟小冰的成長之路

時間 2020-01-11

標籤對話微軟三位首席科學家成長之路欄目 Microsoft 简体版

原文原文鏈接

「從 2014 年 5 月正式推出，五年以後的微軟小冰離「人」還有多遠？」

2010 年，蘋果公司花費 2 億美金收購了第三方文字聊天服務應用 Siri，正式拉開了語音助手開發爭奪戰的序幕。框架

以後的戰局就一發而不可收，微軟、亞馬遜、谷歌、百度、小米等公司紛紛入局，開發本身的語音助手。工具

但在入局以後，微軟小冰團隊的作法顯得有些不同凡響。 不一樣於業內廣泛在作的任務和知識問答（IQ），小冰團隊在作一個看起來比較虛但難度更大的事情 —— 情感（EQ）。學習

在今年 8 月份的微軟小冰第七代發佈會上，微軟全球執行副總裁、微軟人工智能事業部及微軟全球研究院負責人沈向洋提出了小冰團隊的觀點：大數據

「這麼多年下來，咱們對 IQ 和 EQ 的關係認識愈來愈清晰，一開始咱們以爲可能相對 IQ，EQ 是比較獨立的，可是事實上咱們以爲 EQ 多是更加劇要的基礎。」

可能正由於這一戰略方向上的差別，「特立獨行」的第七代微軟小冰已成爲全球最大的跨領域人工智能系統之一。人工智能

目前，微軟小冰單一品牌在全球已覆蓋 6.6 億在線用戶、4.5 億臺第三方智能設備和 9 億內容觀衆，技術方面在交互場景大幅拓寬的狀況下，微軟小冰與用戶的單次平均對話輪數（CPS）仍然可以達到 23 輪，顯著高於其它聊天機器人，甚至也高於人類之間的對話。spa

名詞解析：CPS
CPS（Conversation-turns Per Session），指指望的每次會話的對話輪數。3d

11 月 21 日，SegmentFault 受邀參加了微軟小冰的一場內部 WorkShop，微軟小冰首席科學家宋睿華、首席 NLP 科學家武威、首席語音科學家欒劍分享了微軟小冰今年在天然語言處理、語音學研究、多模態生成等領域研究進展，也讓咱們從技術層面瞭解到：blog

微軟小冰，真的「長大」了。ip

從左到右：微軟小冰首席 NLP 科學家武威、首席語音科學家欒劍、首席科學家宋睿華

武威：「朝向自我完備的對話機器人」

Self-Complete（自我完備）是武威老師本身造的詞，由於這個詞可以很好的囊括微軟小冰在近4年來在研究上、研發上的成果。開發

武威老師提出，一個可以自我完備的對話機器人應該擁有幾項能力：

能力一：學習。學習分爲兩個層次，第一是可以從人類的對話中學習怎樣去說話，第二是每一個機器人可能發展到專一於某一個領域，擁有本身領域的知識和技能。就像人同樣，每一個人各有所長。

能力二：可以自主管理。初級的層次是可以知道在對話單輪的時候如何進行表達；更高級的形態是說單輪表達管理作好了以後，可以把控整個的對話流程。

能力三：連結。連結的意思是，對話機器人可以連結散落在世界上的多模態的知識。

這三項能力貫穿起來就構成了一條縱線，這條縱線貫穿了對話機器人這些年來，甚至多是將來一段時間整個的研究與發展。以從人類對話中進行學習來舉例，經過小冰團隊打造的生成模型（Generation Models），小冰與人類的對話能夠從單獨進展到多輪、從簡單回覆進展到具有信息增量的內容等等。

武威老師分享到，對話機器人發展到今天，除了微軟小冰之外，其實是整個業界、工業界、學術界一塊兒努力獲得的成果。

小冰在裏面作了不少開創性的工做，但若是沒有整個業界的努力，對話機器人產業不會發展的這麼快。

欒劍：「作唱歌更具備挑戰」

2015 年的時候小冰提出了語音的聊天功能，也就是除了文字回覆之外還可以經過聲音來回復。這個功能剛推出的時候，受到業界以及不少 C 端用戶的普遍關注和好評。

欒劍老師在現場提到，微軟小冰團隊後來經過一年多的時間，給這個聲音加了不少技能，好比兒化音、中英文混雜的朗讀、講兒童故事、各類情感的表現。在添加了這些東西之後，發現在語音合成領域大方面的東西可能已經解決，但語義理解方面，可能還須要經過長時間的積累和技術的發酵。

因此，這個時候微軟小冰團隊開始尋找一個更有挑戰性的課題，最終選擇了唱歌。作唱歌主要有三個緣由：

第一個緣由，唱歌的門檻比說話高；第二唱歌的情感表達更加豐富激烈；第三它是一個很重要的娛樂形式。

深度學習其實在上世紀 90 年代就火過一陣，但那個時候爲何沒有取得像今天這麼大的成果，欒劍老師給出了兩個主要的緣由：

1.由於硬件技術的方法，當時的算力還不夠，如今有GPU，並且GPU還在不斷的升級，因此它的計算能力在提升。
2.另一個很重要的支撐就是數據，如今有大數據的支持，因此纔可以把深度學習作的這麼好。

接下來不論是人工智能創造，仍是唱歌提升上也好，都須要兩條腿走路，一邊要不斷提升模型，一邊要不斷挖據更多的數據，這兩個東西若是能作的更好，人工智能語音技術的質量會不斷獲得提升。

微軟也但願可以擴展在人工智能創造的領域，在更多領域爲你們提供更多的產品和成果。

宋睿華：「小冰能夠創造比喻麼？」

微軟小冰首席科學家宋睿華老師分享了小冰在比喻、聯想方面的進展，以及如何讓小冰像人同樣能將故事理解成畫面。

微軟小冰團隊一直想讓小冰更像人類，想讓小冰更好的理解對話、更好的理解語言，那就須要模擬人類的能力，在短短的語言背後找到一些很是常識性，所沒有說的暗含的意思。

此外，小冰像人同樣能將故事理解成畫面的能力，其實涉及到了當前很火的「跨模態理解」技術。宋睿華告訴現場的媒體，當前，AI 在常識領域依舊存在缺失，由於人類不會把習覺得常的東西寫進文字裏，好比人類不會專門說「我今天用兩條腿走路」。

宋睿華表示，在將來一兩年裏，微軟小冰將繼續往多模態方向發展，將來小冰若是有一個具體的形象，變成有攝像頭（有眼睛）、有麥克風（有耳朵），這種多模態 AI 技術也將會是行業將來的發展重點。

現場問答：

1.微軟小冰選擇唱歌這個領域，意義和價值體如今哪一方面？

欒劍：選擇 AI 創造這個方面有兩個考量。第一，從技術的方向來講，既不是特別的難，也須要具備必定的難度。第二方面，咱們但願作一些你們可以普遍接受的產品和成果。因此，咱們但願可以用這種更加普遍的交互形式，可以獲取更多的信息，幫助咱們把其它的方向也作的更好。

宋睿華：其實音樂是賺錢空間最大的創造，人對音樂的消費是很是有需求的。但寫歌和做曲是很難的事情，你們很須要這樣的一種能力，若是可以產生的話，它有巨大的經濟價值。我還有一個觀點，咱們其實想讓小冰更像人，若是你在某一瞬間有一個錯覺，以爲她有意識，這是很是好的一個點。

2.微軟小冰對將來的實際應用有多大的預期或者是指望？會帶來多大規模的收益？

欒劍：實際上咱們和不少公司有合做，一種方式是爲他們建虛擬歌手，去定製虛擬歌手，而後經過虛擬歌手能夠發一些單曲，或者幫他們完善這方面的歌手庫。另外一方面，咱們也正在製做一些工具，這些工具能夠是爲你們提供一個更便捷的平臺，去創做本身的歌曲。第二步可能咱們會把更多的人工智能創造的元素加進去，可能會輔助幫你做詞、做曲，或者是在你做詞、做曲的基礎上，幫你作一些修改和完善，就是作這樣的工做。

主持人：此外，微軟小冰已經在更普遍的領域進行內容創造。在有聲讀物領域，微軟小冰框架已經搭建了有聲讀物生產平臺（CCP），並基於平臺創造了三十多個角色化聲音，令人工智能技術可自動生成高度定製化的兒童有聲讀物。如今擁有完整版權的非定製兒童有聲讀物有 2300 小時，是目前中國規模較大的兒童有聲讀物庫，覆蓋國內 90% 以上的兒童智能硬件、非智能硬件及在線播出平臺。由於唱歌技術突破了不少技術上的坎兒，在創造有聲讀物領域就更容易去應用。

經過這場 workshop 分享，你大概也會跟我有一樣的感覺：

小冰愈來愈像人類了。

2014 年 5 月 29 日至今，微軟小冰五年迭了七代。若是說如何見證人工智能的進化速度，小冰無疑給當下的人工智能產業提供了一個範本。

在商業化方面，微軟小冰也已經獲得了一個比較明確的方向：以總體賦能、聯合擁有、跨界生態等三種方式逐步推動，去解決行業所面臨的問題。

與此同時，小冰團隊正式對外推出了 Avatar Framework 的第一個工具包版本。這個工具包與微軟小冰框架同源，包含對話、聲音、視覺、觀點、技能、知識及創造力等工具，能夠驅動兼容的 3D 人物模型進行實時交互。

也就是說，咱們每一個人均可以擁有專屬於本身的、獨一無二的小冰，這是一個與其餘單一語音助手很是不一樣的點。

雖然受限於商業合同，微軟沒法全面公佈小冰在商業化上取得的成績，但從 6.6 億在線用戶、4.5 億臺第三方智能設備和 9 億內容觀衆這三個數字中不難想象，微軟小冰正如她目前的設定同樣， 18 歲的花季少女，含苞待放，將來可期。

在今年的發佈會上，有人提了一個問題，小冰將來會一直定格在18歲嗎？

微軟小冰之父李笛是這樣回答的：

咱們內部曾經有過不少討論，甚至咱們說未來是否是有這樣一種商業模式，小冰跟着年齡長，到一天咱們賣一個卡，這個卡你能夠把她打回18歲，返老還童。
我仍是那句話，小冰最多也只不過是將來無數人工智能選擇中的一個，框架是整個森林，這一棵樹永遠18歲，但並不表明另外一棵樹也要用這樣的定義。

用戶永遠不會只喜歡小冰，但小冰有她的歷史意義，她是目前爲止全部 AI beings 之中，Avatar Framework 框架全球的第一個，她就是有這樣的歷史意義。但將來必定是屬於整個時代的，不是一棵樹。

掃碼加好友，給你聽「小冰」版「野狼Disco」

相關標籤/搜索

每日一句

每一个你不满意的现在，都有一个你没有努力的曾经。