編者按:10月11-14日,爲期四天的2017杭州雲棲大會(門票火熱搶購中!)將再度在杭州雲棲小鎮起航,做爲全球最具影響力的科技展會之一,本屆大會將有很多阿里集團專家以及各企業行業領袖的精彩演講。從今天開始,雲棲社區將會對大會嘉賓作一系列專訪,想了解嘉賓以及最新議題信息請關注「雲棲大會」公衆號。本期咱們採訪的是阿里iDST Natural Artificial Intelligence團隊(如下簡稱iDST NLP團隊)負責人司羅,他將在10月的雲棲大會上分享NLP領域的前言趨勢以及阿里巴巴在這一領域的成果。算法
司羅是最先一批從學術界轉向工業界的人工智能科學家之一。數據庫
2006年,卡內基梅隆大學博士畢業的司羅進入另外一所人工智能頂級高校——普渡大學計算機系任教,在這期間,他專一於信息檢索、機器學習、天然語言處理等領域的研究,他是一位高產的學術專家,短短几年就發表了100餘篇論文;2012年,成爲普度大學計算機系終身教授後,一舉奠基了司羅在學術圈的地位,他前後擔任了ACM信息系統(TOIS),ACM 交互信息系統(TIIS)和信息處理與管理(IPM)編輯委員會的副主編,屢次在國際學術會議擔任重要職務(如2016 ACM CIKM 技術主席等)微信
但出人意料的是,2014年司羅結束了8年的學術生涯,成爲阿里人工智能科學家陣營的一員。機器學習
對於這樣的轉變,他表示並不陌生。學習
「我在普渡大學任教期間就對技術應用場景和產品化、商業化的工做很是感興趣,當時也有不少和工業界的合做。」司羅如此表示。優化
據云棲社區瞭解,司羅主導的 20 餘個項目獲得了美國政府以及雅虎、谷歌等工業界的資助,例如美國國家科學基金會成就獎、雅虎,谷歌研究獎等。阿里雲
司羅在學術研究上的成功以及對人工智能商業化的理解讓整個阿里巴巴集團的天然語言處理、搜索和推薦能力提高了一個臺階。去年11月,他帶領的團隊在信息檢索、知識管理以及數據庫領域的全球頂尖學術會議CIKM Cup競賽中力壓對手得到冠軍,相比主辦方提供的搜索排序基準指標,該團隊提高了21.28%。人工智能
目前,iDST NLP團隊主要分佈在美國西雅圖、硅谷以及杭州三地,他們用算法服務了阿里集團近十個DAU上千萬的場景——淘寶評價、內容搜索、資訊推薦等;這是一支戰鬥力極強的團隊,他們所有來自伯克利、普林斯頓、卡內基梅隆、清華、北大以及中科大等知名院校,不只能作前沿學術研究,也善於把技術落地到實際應用場景中。.net
做爲阿里iDST大團隊的一部分,iDST NLP主要爲阿里大生態系統提供天然語言處理相關的基礎技術,以及垂直應用的技術支持。但在司羅眼中還有更長遠的目標——經過技術輸出賦能消費者、客戶以及合做夥伴。設計
如下是採訪實錄:
雲棲社區:介紹一下iDST Natural Artificial Intelligence團隊。
司羅:衆所周知,整個iDST團隊在金榕老師帶領下涵蓋了人工智能幾個重要的方向,包括語音、圖像和NLP等。iDST NLP團隊成員主要分佈在「兩岸三地」(美國的西雅圖、硅谷和中國杭州),從地域來看,美國地區由經驗豐富的專家組成,而國內更多的是年輕、有朝氣、可以貼近業務的專家和工程師,他們都來自國內外一流的大學,例如伯克利、普林斯頓、卡內基梅隆大學、清華、北大以及中科大等。
除此以外,咱們如今還在籌建阿里在新加坡的研發中心,因此將來會造成三岸四地的格局。
iDST NLP團隊主要爲阿里大生態系統提供國際化多語言天然語言處理相關的基礎技術,以及重要的天然語言垂直應用的技術支持,將來也但願把阿里的天然語言技術發揚光大,經過技術輸出賦能消費者、客戶以及合做夥伴。
團隊在全球頂級的大賽中也取得了不少突破,例如在CIKMCUP競賽中咱們得到了冠軍,相比主辦方提供的搜索排序基準指標,咱們團隊提高了21.28%,這是一個很是了不得的成績。
雲棲社區:iDST NLP團隊的定位是什麼,重點在作哪些項目?
司羅:剛纔談到iDST NLP團隊主要爲整個阿里大生態提供天然語言處理技術,同時也會對外賦能、處理相關的垂直應用。
從基礎技術角度來看,去年年末咱們開始搭建AliNLP技術平臺,這個平臺涵蓋了不少天然語言處理的技術,例如詞法分析、句法分析還有文檔分析等。
AliNLP平臺從去年年末開始研發,到今年年初開始上線,通過了內部團隊不斷的優化,目前爲整個阿里大生態提供了一個基礎的NLP算法。AliNLP平臺它所產生的價值和影響力也在不斷提高,到如今已經超過了90個業務方,天天的調用量超過了四百億次。這裏先作個預告,AliNLP平臺正在上雲的過程當中,初期會經過阿里雲的輸出幾個重要的功能,包括分詞、實體識別、情感分析和文本反垃圾等,敬請期待。
除此以外,咱們還在搭建另外一個基礎技術平臺——阿里IE平臺(Information Extraction,信息抽取平臺)。由於不少場景下的文本是非結構化的,這就須要把它變成一個結構化的知識表示,例如拍賣場景中的委託書,咱們須要從委託書中抽出什麼是被委託的商品,拍賣的委託方是誰,但願中標的價格是多少……只有把這些信息有效的提取出來,才能創建搜索、推薦等功能。搭建阿里IE平臺也是但願把基礎算法能力在整個阿里集團的上層應用發揮做用。
固然,在阿里巴巴集團內部,咱們也是不少天然語言相關業務的算法提供者,例如阿里電商環境的資訊搜索(淘寶頭條的搜索、手淘淘攻略的搜索);還有整個淘系內部的評價,不只要去掉涉黃涉暴力的內容,還須要知道消費者表達的是正面的評價仍是負面的評價。
阿里集團內部有不少場景都涉及到天然語言處理相關的技術,都須要咱們來提供算法的支持。
目前,團隊仍是集團內部不少重要業務的算法合做方,例如咱們和和阿里小蜜合做研發了機器閱讀理解的技術。
因此總結起來,咱們在作三件事:基礎技術平臺的產品;重要業務算法的提供,淘寶內部的評價、資訊的搜索與推薦;重要技術的算法貢獻。
雲棲社區:AliNLP平臺上線先後遇到了哪些挑戰?
司羅:毋庸置疑,天然語言處理在不少應用場景當中都很重要,可是過去沒有一個系統性的規劃。咱們是從去年12月份開始規劃作這樣一個平臺,但願把天然語言處理重要的功能承接下來。
雖然AliNLP的願景很美好,可是最開始遇到了不少挑戰,由於團隊中的不少工程師是作業務的,可是AliNLP更像是技術導向的平臺,因此咱們必須花不少時間讓更太多的人蔘與進來。在團隊組建好後,就開始給項目作規劃,由於這是一個從無到有的產品,你們必須把作出更多的嘗試,從哪一個角度出發,用什麼樣的技術能達到比較好的效果等等。
從最初項目的規劃到平臺的上線確實花了不少的時間和精力,可是我以爲這個時間和精力是很值得的。
雲棲社區:相比計算機視覺,NLP的發展相對較慢,從目前來看NLP發展到了一個什麼樣的階段?
司羅:我認爲NLP是既成熟又有活力,既實用又有技術遠景的領域。
事實上,最先從六七十年代開始,天然語言處理都是採用「規則」方法, 80年代後隨着大的數據集的出現,統計天然語言處理方法便逐漸成爲了主流;最近幾年,隨着深度學習的崛起,NLP也取得了快速的發展,因此我認爲它是一個很是成熟的領域;爲何說有活力呢?最近兩三年創業最火的方向之一就是Chatbot,這是和天然語言處理緊密相連的領域。
既實用是指如今天然語言處理已經在不少領域都有很廣闊的應用了,以阿里集團爲例,幾乎阿里的每一個重要的產品都跟天然語言處理相關,例如商品的搜索和推薦,它是一個很是實用的一個學科;固然,它也是很是有技術挑戰的學科,真正意義上的語義理解(可以分析出說話的背景,它要達到什麼樣的目的等等)不是靠數據上的關係分析就能實現的,例如siri、Cortana都是基於數據驅動的方式來實現語義理解,但它沒法像人同樣去理解。
因此,天然語言處理是實現完整人工智能或者叫強人工智能的一個必要的技術,而如今離這一遠景還有很長的距離,這須要工業界和學術界共同的努力。
雲棲社區:iDST NLP團隊如今作出了哪些的突破?
司羅:iDST NLP團隊如今仍是基於咱們自己的業務以及場景爲出發點,一個有表明性的是情感分析上的領先,例如,電商場景的情感分析和其餘友商提供的產品相比大約有10%的準確率的優點,固然一方面緣由是阿里自己就擁有大量的電商數據,但更多的是由於咱們作了不少通用領域的輿情,例如把技術用在一些學術界的標準數據集上,在電影評價上的標準數據集,咱們也比學術界的最好成績能領先2%以上。
另外,咱們仍是第一家真正大規模的把機器閱讀理解應用到實際電商場景中的企業。因此在應用的實用性上,例如高效的模型的設計、高效的模型的實現都作了開創性的工做。最後,是天然語言生成。天然語言生成有兩種方式,一種就叫抽取式,一種叫產生式,咱們在這兩方面都作了不少嘗試:抽取式典型的例子是電商標題的改寫,可以比較顯著的提高點擊率和轉化率;生成式方式,咱們如今是和阿里媽媽合做,它能夠幫助聯盟的用戶更好的把他們所挑選出的商品在投放到社交渠道。
雲棲社區:您以爲創業企業如何在NLP領域找到突破口?
司羅:創業企業特別是小企業要取得成功,我以爲有兩種方式相對來講比較容易取得成功:一種只專一於某項具體的技術,就是把某一項或者一兩項技術作深,作到真正的領先,創業企業不適合作一個完整的技術平臺,較難有大量的投入,甚至大量的數據;第二種方式是專一於一個領域,天然語言處理得應用很廣,例如法律文書的天然語言理解和微信閒聊的差距是巨大的,還有從專利中挖掘信息作競品分析也有市場空間,初創企業能夠考慮專一這些細分領域,面面俱到反而沒有本身的特點。
雲棲社區:將來,NLP會朝什麼方向發展?
司羅:雖然深度學習是很是有價值的技術方向,它推進了天然語言處理的發展,可是我是以爲靠分步學習,或者統計天然語言理解是遠遠不夠的,咱們必定要把人類的知識表示,和對知識的理解更好的融入到技術當中,這樣才能更有效,真正的達到天然語言理解自己的目標,不然就是光靠數據驅動,剛纔也有提到,因此我認爲把這一趨勢的研究和數據結合是天然語言將來發展的重要課題。
雲棲社區:您但願在下個月的杭州雲棲大會上關注哪些議題?屆時,您會分享什麼話題?
司羅:首先,是機器學習、天然語言處理相關的技術問題;其次,業務上的議題我也很感興趣,我很是但願經過這屆雲棲大會了解到各行各業對天然語言處理技術的需求,這樣纔可以更充分的理解客戶的需求,作到有的放矢,才能讓然語言處理的技術發揮最大的價值。
在本次大會上,咱們組織了NLP專場,而且邀請到了不少外部學者,例如加拿大皇家學院的李明院士,還邀請了國內的,中國中文信息學會祕書長孫樂,蘇州大學計算機學院副院長張民老師等,他們都是學界的領軍人物;除此以外,由於這是雲棲大會第一次辦天然語言處理的專場,咱們也但願借這個平臺把iDST NLP團隊的天然語言處理的技術能力對外展現,例如,咱們會全面介紹AliNLP的平臺技術輸出,以及情感分析、機器閱讀理解等。(購票請戳這裏!)。
欲瞭解更多歷屆大會相關內容以及最新嘉賓採訪,請關注社區公衆號——「雲棲大會」!