華爲諾亞方舟實驗室主任李航:用漂亮的方式解決"污濁"的問題

非商業轉載請註明做譯者、出處,並保留本文的原始連接:http://www.ituring.com.cn/article/196610程序員

李航,華爲技術有限公司諾亞方舟實驗室主任,北京大學、南京大學兼職教授。他日本京都大學電氣電子工程系畢業,日本東京大學得到計算機科學博士學位。曾就任於日本NEC公司中央研究所,任研究員,以及微軟亞洲研究院,任高級研究員與主任研究員。李航博士的研究方向包括信息檢索,天然語言處理,統計機器學習,及數據挖掘。他一直活躍在相關學術領域,曽出版過三部學術專著,並在頂級國際學術會議和國際學術期刊上發表過上百篇學術論文,擁有40項受權美國專利。算法

圖片描述

機器學習的春天

「他說天然語言處理是「泥臭い」(污濁)的,用漂亮的方法是解決不了的;我說個人結論正好相反,正由於天然語言處理是「泥臭い」的,才必須用漂亮的方法去解決。"編程

問:您可否簡單介紹一下本身的經歷?服務器

我祖籍是天津,在哈爾濱出生,六歲時隨父母到西安,小學中學都是在西安唸的。高中畢業之後,考上西安交通大學。當時教育部有一個派遣本科生到國外留學的政策,我和全國各大高校的一些同窗被選拔去日本留學,咱們那批共有三十人。我在西安交大呆了半年之後,去長春學了一年日語,以後於1984年4月去了日本。微信

我在日本京都大學讀的本科和碩士,畢業之後就去了NEC公司的中央研究所。在那裏,一邊工做一邊學習,在東京大學得到博士學位。2001年6月回國,在微軟亞洲研究院工做了十一年。2012年5月來到香港,至今在華爲諾亞方舟實驗室工做。網絡

問:在京都大學學習的時候您是怎麼進入到機器學習領域的?app

我接觸人工智能仍是挺早的。我在京都大學本科的專業是電氣電子工程,入學之後不久,有一個參觀人工智能實驗室的機會。學校安排了一個研究生做爲個人tutor,領我去到他的實驗室,碰巧他是作人工智能的。大概那個時候我才真正看到大型的電子計算機,機房裏放着許多臺LISP機器,叫SYMBOLICS,由波士頓一家廠商生產,在當時是很昂貴的。在參觀的過程當中他們告訴我,他們專門研究計算機視覺、天然語言處理這方面的人工智能問題,我以爲這挺有意思。剛巧那個實驗室的學生們組織了一個讀書會,因而我也跟着去聽,可是基本上聽不太懂,相關的知識積累太少,當時日語也不夠好。機器學習

就這樣,我本科期間對人工智能一直抱有濃厚的興趣。後來大四的時候須要選實驗室和方向,我就選了這個實驗室。實驗室的教授是長尾真(Nagao Makoto),副教授開始是辻井潤一(Tsujii Junichi),後來是松本裕治(Matsumoto Yuji)。長尾老師研究天然語言處理和計算機視覺,辻井和松本老師主要研究天然語言處理,他們都作出了許多卓越的工做,在國際上享有很高的聲望。(辻井老師後來去東京大學任教授,他是我在東大的博士導師)。到了這個實驗室以後我就開始更多地接觸人工智能,學習LISP語言,C語言,Prolog語言,開始作天然語言處理相關的研究,大四和碩士都是在長尾實驗室度過的,研究課題是天然語言生成。工具

回到你提的問題,我那時接觸的主要是傳統的人工智能,對機器學習,特別是統計學習瞭解得並很少,只知道決策樹算法ID3。固然,那時統計學習尚未興起。性能

問:碩士畢業後,您就下定決心要從事人工智能方面的研究工做了嗎?

也不是。我當時挺猶豫的,還不知道將來要作什麼。雖然已經接觸到人工智能,也作過一點研究,可是都很膚淺,也不知道可否持續下去。那時我有一個學長去開公司,我想要不要也去嘗試一下。我也想過去美國讀博士,也考了TOEFL。

畢業前夕,碩士同年級的同窗們組織去日本大公司參觀,我就跟他們一塊兒去了。咱們看了好幾家公司,包括東芝、NEC、NTT、日立、富士通,當時是日本經濟的鼎盛時期,這幾家公司不只在日本,在國際上也作得很是好,他們的研究部門有很多優秀人才,也有很好的研究環境。日本有一個風氣,你們通常都不肯意讀博士,不少人讀完碩士之後就到企業去工做,作研究,經過寫論文這種方式拿博士學位,不多有人選擇在學校讀博士。我以爲在企業作研究也不錯,就跟另一個同窗一塊兒去了NEC的研究所。

在NEC的頭兩年,我在天然語言處理小組工做,主要作的是天然語言對話的研究,也不寫論文,主要是開發系統。我也沒有作機器學習相關的研究,由於九十年代初的時候,人工智能、天然語言處理主流還都是基於手寫規則的。我對本身的將來也仍是處於思考的狀態,沒有徹底下定決心去作研究。

在這段時間裏,人工智能領域發生了巨大的變化,特別是天然語言處理髮生了範式轉移(paradigm shift),基於數據驅動、統計學習的方法展示出其威力,引發了普遍的關注。(後來的二十多年裏基於統計學習的智能化成爲人工智能的主流,而轉折點正是九十年代初那個時期)。

坦率地說,我對傳統的人工智能一直喜歡不起來,我從骨子裏喜歡的是用漂亮的數學模型(principled approach)去有效地解決問題,而傳統的人工智能的方法要麼缺少數學模型,要麼不能解決實際問題,老是讓我感到哪裏不對。跟我一塊兒工做過的同事、同窗們,看過個人書籍、論文的同仁們,應該能感觸到個人這一信念:基於數學且有效的方法纔是科學的方法,是咱們應該追求的。我在高中時最喜歡、也最擅長的是物理,在我看來牛頓力學是科學方法論的第一個里程碑,而工程學也應該採起一樣的方法論,走一樣的路。當我看到IBM的Peter Brown等作的統計機器翻譯的工做的時候,感到強烈的震撼與由衷的欽佩,也開始傾向採用統計學習方法去解決天然語言處理的問題。記得當時還跟天然語言組的科長「吵了一架」。他說天然語言處理是「泥臭い」(污濁)的,用漂亮的方法是解決不了的;我說個人結論正好相反,正由於天然語言處理是「泥臭い」的,才必須用漂亮的方法去解決。

1992年我換了組。從原來的天然語言處理組轉到了機器學習組,科長是安倍直樹(Abe Naoki)和山西健司(Yamanishi Kenji),他們在機器學習領域都作出了許多出色工做,是世界一流的研究人員,我從他們那裏學到了不少東西,如今安倍是IBM研究院的主任研究員,山西是東京大學教授。也就是從那個時候開始,我從新溫習了大學學過的機率統計學知識,系統地鑽研了隱馬爾科夫模型、決策樹、最大熵原理、最小描述長原理(MDL)等統計學習方法,寫過的筆記有十幾本。

1992年也是我人生中的一個比較重要的時間點,那年我決定以研究做爲本身的職業。領導咱們的部長叫中村勝洋(Nakamura Katsuhiro),他在我人生中的關鍵點上給過我不少重要的幫助。有一次我跟他聊,談到本身將來的職業發展,他說:你還猶豫什麼呀?我對你很瞭解,你就適合作研究,甭想別的了。

問:能介紹一下您作的博士工做嗎?

從1992年到1998年得到博士學位這段時間,是我人生中最「苦」的時期,也是我在研究上成長最快的時期。咱們機器學習小組以研究機器學習理論爲主,考慮兩個應用領域:生物信息與天然語言處理。我負責天然語言處理的研究,目標採用統計學習的方法獲取語義知識,用於天然語言處理,我也把它看成可能的博士研究的題目。1995年辻井老師調到東京大學任教授,我在他的指導下,開始把公司裏的實際研究工做整理成爲博士論文,NEC的中央研究所在東京附近,去東大也很方便,我就開始常常去辻井實驗室,跟辻井老師討論問題。
個人博士論文提出了用最小描述長原理(MDL)學習語義語言知識的三個方法,工做主要是跟安倍作的,在天然語言處理頂級雜誌Computational Linguistics上發表了兩篇論文,以前好像沒有中國人在CL上發表過文章。辻井老師挺高興,他說:嗯,作得不錯,你們都說好。當時在天然語言處理領域裏你們都知道這些工做,算是我研究生涯的起點吧。

博士畢業後,我打算去美國發展,山西阻止了我,但願能跟他一塊兒啓動文本數據挖掘項目,在他的領導下,我開始作文本數據挖掘,我和另外兩個工程師開發了問卷自動分析系統,當時仍是挺先進的,我負責算法的開發與實現。NEC的這個產品在日本被普遍使用,聽說如今該產品還在銷售。我和山西還在KDD會議上發表了一篇論文,介紹相關的工做。

問:能介紹一下您在微軟亞洲研究院的工做嗎?

2001年,我拿到了Xerox PARC的offer,準備去美國。微軟亞洲研究院(MSRA)天然語言組的主任研究員黃昌寧老師邀請我去訪問,並建議我考慮加入。第一任院長李開復博士提出了要將研究院建設成世界一流,亞洲第一的研究機構。這個願景深深地打動了我,我因而決定回國,加入他們的行列。MSRA確實是了不得的研究機構,我有幸跟許多優秀的研究人員在一塊兒工做,從他們那裏學到了不少東西。

我在微軟作研究主要仍是圍繞着公司的產品需求進行。開始是作文本數據挖掘,以及企業搜索,比較偏產品開發。SQL Server 2005中的文本數據挖掘的工具就是咱們開發的,跟我一塊兒工做的主要是曹雲波博士。SharePoint 中的搜素功能也有很多咱們的貢獻,2007年、2009年的版本里都有咱們開發的技術,胡云華博士、徐君博士在這方面作了不少工做。

後來微軟決定作互聯網搜索,咱們又把研究方向放到了互聯網搜索,這期間我成爲主任研究員,領導更大的研究團隊。咱們在產品開發方面的成績並不太理想,有一些產品轉化,可是貢獻都不太大。其中一個緣由是跟Bing的團隊異地合做有很多困難。可喜的是咱們在搜索的基礎研究上取得了很多成果,特別是排序學習(learning to rank),語義匹配(semantic matching)方面,有很多業界領先的成果,對信息檢索領域的發展作出了必定的貢獻。前者的研究主要是與劉鐵巖博士、徐君博士、秦濤博士等合做,後者的研究主要是跟徐谷博士、徐君博士、姜大昕博士等合做。

問:有人把上世紀九十年代初形容爲人工智能的冬天,在機器學習興起以前,人工智能的發展遇到了瓶頸。您以爲從此人工智能的發展有沒有可能會重蹈覆轍?

正如前面介紹的,我也經歷了那我的工智能的冬天。我1987年開始涉足人工智能領域,用的都是傳統的方法,當時這個領域還很火。可是到了九十年代初期,傳統的基於規則的人工智能遇到了瓶頸,最典型的就是專家系統,作不下去了。當時甚至有一個說法,計算機科學裏面最沒學問的就是人工智能。

我從1992年開始進入機器學習領域,有一種看到另外一片天地的感受。人工智能如今基本上全靠機器學習在支撐,機器學習雖然有不少侷限,可是仍是如今實現智能的最有效手段。機器學習是會不斷地發展的,人工智能也是如此,特別是如今的大數據爲機器學習、人工智能提供了不少新的機會。這方面你們若是感興趣,能夠看看個人博客,個人一些觀點寫在裏面。

人工智能的發展會有起伏,可是不會出現之前那樣的冬天。由於如今基於機器學習的人工智能作出來的東西不少是實打實的,像谷歌的自動駕駛就是用機器學習作出來的。而八十年代的專家系統,真正實用的成果幾乎是沒有的。可是如今人工智能確實有點過熱,你們對人工智能的期待太高,但這種現象會立刻冷卻下來。人工智能發展可能還會出現起伏,可是會不斷地發展,螺旋式地上升,不會回到之前那樣的狀態。

問:您曾經給出過這樣一條建議,在選擇大學的時候,第一是導師,第二是學校,第三是專業。您從導師那裏得到最大的收穫是什麼?

長尾老師說,作研究必定要作本質的研究。就是你作的東西不能無關緊要,作研究不能夠沉浸於自我知足,要作出真正有用的東西。其實作到這一點很不容易。他還說,不必定要去作難的研究,而是要去作有意思的研究。不少人誤覺得難的研究就是好的研究,未必是這樣,真正好的研究要有創新,要有價值,要有意思,這樣的東西未必很難。這些作研究的基本原則對個人影響仍是很大的。

我在NEC的機器學習小組,只有六我的,你們都很優秀(我很不謙虛地把本身也放在裏面了)。這個小組被認爲是世界一流,日本最強的機器學習研究團隊,後來咱們都相繼離開了NEC, 如今大多數人在日本的大學當教授。那個環境對個人影響仍是很是大的。

到了微軟之後,我在新的環境裏又獲得了不少鍛鍊。在日本的時候,我仍是跟着別人作,沒有做爲一個leader帶領你們作,在微軟期間,我在研究方向的選擇,研究項目的管理方獲得了不少鍛鍊,研究的能力有了進一步的提升。好比,怎樣提升本身的影響力,怎樣將產品開發與學術研究相結合,這些方面我在微軟亞洲研究院學到了不少。那裏有不少優秀的人,好比我入職時的院長張亞勤博士,後來的院長沈向洋博士,還有周圍許多優秀的同事對個人影響都是很大的。

因此,我建議你們選學校的時候,先考慮小環境,而後是大環境,最後纔是學的內容。

諾亞方舟實驗室

「機器學習將來發展的方向,天然是不斷提升學習的能力,先是觸類旁通,而後舉一反三,也要無師自通,最後是積土成山。」

問:在計算機領域學術界跟產業界是否存在轉換的鴻溝?諾亞方舟實驗室在這方面是怎麼作的?

近年美國有很多的大學老師跳槽到工業界,由於工業界有不少現實的問題,有不少數據。不管作系統方面的研究或者算法方面的研究,在工業界都更容易接觸到實際問題,也更容易去作實際的事情。Lada Adamic曾是密歇根大學的副教授,後來跑到Facebook去了,她寫了一篇有名的博客《我爲何離開了大學到了工業界》,在文章中她提出了以上的觀點。可是,我並不以爲計算機領域在大學作研究就失去了意義,在大學作研究有其價值與意義,須要更注重基礎、理論、長期的東西,定位應該跟工業界不一樣。

諾亞方舟實驗室是工業界的實驗室,咱們但願能嘗試去闖出一條新的作研究的路子。我寫過一篇博客,總結科學研究的歷程與模式。在牛頓的時代,很粗地說作研究是基於一些貴族的興趣愛好。1900年開始有了諾貝爾獎,作研究與名譽掛上了鉤。第二次世界大戰以前,貝爾實驗室成立了,研究與產業聯繫起來了(IBM、微軟等採用的都是貝爾實驗室模式)。二戰結束以後,美國成立了天然科學基金,政府投錢去作研究,研究又跟金錢綁在了一塊兒。到了1998年穀歌成立,又創造一個新的模式,在那裏作研究跟產品開發幾乎都無縫地鏈接在一塊兒,區分不出來是在作研究仍是在作開發。

對於諾亞方舟實驗室來講,咱們但願結合貝爾實驗室模式與谷歌模式的優點。

一方面咱們採用谷歌模式,咱們跟產品線的工程師一塊兒工做。好比,華爲手機的應用搜索和應用推薦,算法是咱們實驗室負責開發,這是咱們自豪的事情,咱們直接參與產品開發。咱們也有研究人員到運營商、到銀行,跟工程師和客戶一塊兒作大數據挖掘的研究與開發。

貝爾實驗室模式又是另一種,研究更加獨立於產品,先是獨立地去作研究,寫論文,作一些原型,而後拿到產品去應用,推廣。這種方法有它的優點,有利於作超前的技術,產品部門沒有精力去作的技術。這種模式咱們實驗室也採用。

咱們實驗室運做的另外一個特色是聚焦和top-down,就是以一兩個大項目爲主去作。在大項目的驅動下,咱們去作研究。咱們也寫一些論文,可是在大項目的範圍內作,咱們也作技術轉讓或產品開發,但做爲大項目的階段性目標去作。咱們的規模不是很大,成立兩年多,已經取得了很多業界領先的成果。咱們作的研究,其實都是圍繞着一兩個大的主線。

問:我據說大家作了一個利用遷移學習實現的智能系統MoKA,如今MoKA研究的進展如何?

智能化是將來手機的一個關鍵詞,咱們固然在作這方面的研究,並且會一直作下去。華爲去年在全球賣了7500萬部手機,這麼多用戶,咱們終端部門的數據規模也是很大的,如何利用大數據把手機作得更加智能化是咱們研究的大方向。

華爲手機去年推出了智能問答功能,就是一個具體例子。用戶能夠用天然語言問各類手機使用相關的問題,這個功能只有華爲手機有,用戶很喜歡,咱們的用戶數在不斷上升。相關的技術都是諾亞方舟實驗室開發的。

問:MoKA系統在大家的研究戰略中是什麼位置?

在MoKA項目裏咱們目標開發的是將來的智能化手機,這是咱們一直要去作的。

問:遷移學習和終生學習,在諾亞方舟實驗室是一個研究重點嗎?

是的。我想談談我對的機器學習能力的分類。人工智能創始人之一的Herbert Simon曾說過,當一個系統經過某個過程提升了某方面的性能的時候,這個系統就進行了學習,它就具有了學習能力。

若是是「循規蹈矩」的系統,它就不具有學習能力。程序員寫一些規則放在系統裏,系統按照規則去作,告訴它怎麼作就怎麼作,咱們說這個系統就不具有學習能力。傳統的計算機系統都是這樣的。一個能學習的系統,它至少具有泛化能力,就是可以「觸類旁通」。好比看到一些照片上的人臉,它能學一個模型,而後作預測、作判斷,指出沒見過的照片裏是否是有人臉,這就叫有泛化能力。

可是爲何人工智能、機器學習還沒達到人的水平?如今機器學習能作到的觸類旁通,就是泛化,比起人來講還差得很遠。人可能看三個例子就可以學會,機器可能看三千個也學不會,它須要三萬個、甚至三十萬個。
另外,人的學習能力更強的一點是「舉一反三」。好比說我學了游泳,也許能幫助我去學體操,甚至能幫助我去學跳舞,學習的知識、技能從一個地方擴展到另外一個地方,這就是遷移學習的思想。如今的機器學習還不太可以作到舉一反三,遷移學習的研究有了必定進展,可是還有不少挑戰。諾亞方舟實驗室前主任楊強老師是世界著名的遷移學習專家,作出了許多領先的工做。

再進一步,計算機就是要不斷地去學習,如今的機器學習還有一個弱點就是不能將學到的知識積累起來,不斷擴大本身的能力,也就是不能「積土成山,積水成淵」,這個系統學完了這部分就只會作這些事,那個系統學完了那部分也只會作那些事,兩個不能結合起來。我認爲這就是終生學習要解決的問題,如今業界開始作一些研究。

人還有一個學習能力,就是「無師自通」,這對應着機器學習中的非監督學習,比起監督學習,機器的非監督學習能力還頗有限,也就是說,沒有指導機器很難學到相應的知識。

因此說機器學習將來發展的方向,天然是不斷提升學習的能力,先是觸類旁通,而後舉一反三,也要無師自通,最後是積土成山。還有很長的路要走。諾亞方舟實驗室對這些問題的研究都很重視,都會投入。

問:實驗室是否也在從事深度學習的研究?

咱們也很關注深度學習,並且對深度學習進行了深刻的研究,最近也有不少突破性的成果。

如今深度學習的一個熱點就是用深度學習去作天然語言處理和知識推理。這也是咱們研究的一個重點,最近取得了業界矚目的成果,呂正東博士等在作相關研究。好比用深度學習提升機器翻譯的性能,翻譯評價的一個指標叫BLEU Score,人大概能夠打六七十分,機器如今能作到四十來分,提升一兩個點都不容易。咱們如今利用深度學習的技術,機器翻譯的BLEU Score比去年頂級會議ACL最佳論文的算法提升了兩個點。另外咱們也在用深度學習去作天然語言對話,目標是讓計算機可以跟用戶用天然語言進行交流,這方面咱們是較早開始作的,應該是業界領先的。

問:谷歌、百度這樣的公司他們的搜索引擎上的數據量很是大,諾亞方舟實驗室在研究方向上跟他們是否有較大差別?

華爲的主要業務是通訊設備,手機,還有數據中心、服務器,簡單的說就這三大部分。咱們的業務跟谷歌、百度不同,因此也很差直接比較。

首先通訊方面,那纔是真正的大數據,其實谷歌、百度的數據都是在通訊業的管道里面傳輸的。好比,北京有不少數據中心,數據中心之間的傳輸其實都是經過電信網絡的,不少由華爲提供設備。這裏面有不少大數據的挑戰。手機方面,華爲有1億多的註冊用戶,華爲終端雲上積累的數據也是很是大的。

問:諾亞方舟實驗室的口號是「From Big Data To Deep Knowledge」。請問實驗室在數據挖掘方面是否有一些突破性的或者是啓發性的研究成果?

我剛纔提到了利用深度學習作天然語言對話,咱們的系統在一輪的對話中的準確率能達到70%以上,這個用深度學習構建的系統說出來的話(本身說出來的,系統歷來沒見過的),能讓你以爲很吃驚。好比你說「佔中終於結束了」,它跟着會說「下一個是否是陸家嘴?」。你說「我想買一個三星手機」,它會說「仍是支持一下國產手機吧」。它從大量的數據裏面學到這種對話能力,其語言使用的複雜程度已經超出了咱們的想象。

問:您寫過一篇談優秀工程師的文章。您曾經考慮過作工程師,後來您投身到科研,成爲NEC的研究員,微軟亞洲研究院的主任研究員,諾亞方舟實驗室的首席科學家,如今是實驗室主任。您的工做是否跟作工程師有很大不一樣?

我其實很喜歡編程,雖而後來隨着工做性質的轉變,寫代碼的機會愈來愈少。剛纔提到,在NEC作研究的時候,咱們作的產品裏面的算法部分都是我寫的,那個產品如今還在賣,雖然他們可能重寫了代碼,可是至少初版的核心算法是我寫的,仍是頗有成就感的。後來到了微軟,我更多的時候是領着你們去作,沒有時間本身動手了,是一件遺憾的事情。咱們作的技術用在了很多產品上,包括SQL Server,以及SharePoint Search。能和你們一塊兒作出這些產品我很自豪,但願有不少用戶使用並且喜歡,有了這種體會才寫了「如何作優秀的工程師」一文,但願本身能站在用戶的角度真正解決實際問題。

我曾經在博客中寫過,作研究時候的思惟方式和作工程師的思惟方式應該是不同的。你們很容易混淆,有時候不知道本身應該處在哪一種狀態,結果確定是作很差。作研究,須要可以更抽象、更長遠地看問題,解決更本質的問題,這是基本的定位,若是光是把一個實際問題解決了,確定是不合格的。而作工程正好相反。

問:您以爲作科研工做的時候需不須要有作產品的思惟?

須要,在大學須要(假設是計算機專業),在工業界更須要。在企業作研究,仍是要有應用意識,商業意識的。須要想到作的東西大概運用在商業上可能會知足什麼需求,能解決什麼問題,有什麼價值,大概是什麼定位,不能脫離了這些。雖然不須要去考慮產品化細節上的問題,可是你須要考慮,這種技術對於用戶來講解決的最本質的問題和需求是什麼,是否有用。

問:那您如今做爲諾亞方舟實驗室的主任,角色跟之前又不同了吧?

是的,我要負責整個實驗室的研究工做,帶領你們一塊兒去作。

創建諾亞方舟實驗室是咱們老闆任正非提出來的。他在2011年,就預見到了大數據對將來產業發展的重要性,決定創建一個實驗室專門作大數據、機器學習、人工智能方面的研究,那仍是在大數據熱潮到來以前。咱們的目標是成爲世界一流的實驗室,克服信息洪水的挑戰,爲公司和人類創造美好的將來,也就是爲何咱們叫諾亞方舟實驗室的緣由。受到這個願景的吸引,楊強老師、我、還有一批研究人員加入了華爲。

咱們實驗室的一位研究員曾經問我:咱們的競爭對手是誰?我說:是咱們本身。要作出世界一流的研究成果,咱們要不斷提升本身,從優秀到卓越。咱們所面臨的都是人類的技術挑戰,是否可以一步一步打敗困難,取得重大突破,主要看咱們本身是否足夠強大。咱們是有不少挑戰的,可是咱們有信心作出世界領先的、有重大貢獻的研究。


更多精彩,加入圖靈訪談微信!

圖片描述

相關文章
相關標籤/搜索