德國人工智能研究中心科技總監Hans Uszkoreit博士認爲:語言技術是人工智能的核心部分,但當前的深度學習方法還不足以解決NLP領域的核心問題。算法
在AI科技大本營微信公衆號(rgznai100)會話回覆「語言」,打包下載Hans Uszkoreit大神被引用的TOP10論文。微信
記者 | 胡永波網絡
7月22 - 23日,由中國人工智能學會、阿里巴巴集團&螞蟻金服主辦,CSDN、中國科學院自動化研究所承辦的第三屆中國人工智能大會(CCAI 2017)將在杭州國際會議中心盛大開幕。架構
會前,咱們採訪到了大會Keynote嘉賓、德國人工智能研究中心科技總監Hans Uszkoreit博士。機器學習
Uszkoreit博士是中德兩國人工智能合做的核心人物,負責德國人工智能研究中心在中國的全部合做項目,今年3月,他剛被任命爲在北京新成立的人工智能技術中心(AITC)總監兼首席科學家。在訪談中,Uszkoreit博士談到了人工智能在工業4.0和商業智能上的應用,以及中、美、歐在人工智能領域的差別。學習
對於他的老本行,Uszkoreit博士認爲:優化
語言技術是人工智能的核心部分,但當前的深度學習方法還不足以解決NLP領域的核心問題。人工智能
他提到漢語在語義理解上的潛力。翻譯
提及不久前NLP領域的大論戰,Uszkoreit博士認爲Yoav Goldberg勇於倡導正確科研行爲的嚴格規則,是個英雄。視頻
如下是訪談全文:
中國AI研究須要覆蓋全部領域
CSDN:最近,媒體經常拿中美兩國的AI行業和研究成果進行對比。對於中美、中歐在AI領域的差別,您有什麼見解?以您的理解,哪一方能引領這一輪的人工智能革命?
HansUszkoreit:歐美的AI研究有着長期的普遍基礎,但中國正以驚人的力量和熱情追遇上來。在某些研究領域,中國的研發速度可能比美國還快。然而,中國的AI研究只是集中在少數幾個熱門領域,可熱點和趨勢老是來了又去。下一代AI架構,將會用到具有大量認知任務和能力的、普遍擅長於AI的系統。我但願中國的研究人員能有足夠的動力迅速來覆蓋全部的AI研究領域。
我我的所期待的人工智能突破,是多種感官信息輸入的交叉領域,以及AI在常識性知識與直覺的獲取。
歐洲在語義學技術、神經網絡與機器翻譯等領域的研發投入上每每準備充足,但研究成果在科學上的成熟與商業上的收穫更多發生在美國。其中的例外,是製造業領域的AI,它是歐洲、特別是德國的強項。而今中國在AI領域的下游應用研究與上游資金投入上同美國的大力競爭,則至關回味無窮。前者是今天AI應用的關鍵,後者則有可能逆轉咱們過去的AI創新流程。
CSDN:在深度學習近年來的進展上,有許多像李飛飛這樣的華人AI科學家和AI研究者,他們在其中作出了突出的貢獻。據我瞭解,您的許多研究夥伴也是華人,您能說說選擇他們的理由嗎?華人在AI研究領域有什麼優點呢?
HansUszkoreit:長期以來,我都很是喜歡跟中國的博士生或博士後研究員們一塊兒工做。他們頭腦聰明、積極主動、精力充沛而又注重實效。通常說來,中國研究者的高中和大學基礎都很是紮實。我我的的體會是,中國和西方研究者的混合團隊,其合做效果出奇的好。我會在北京繼續推進這種跨文化的合做。我至關期待接下來同過往的親密同事和學生們的交流,他們如今大都在中科院、中國的大學和公司工做。
投資環境和早期市場是AI創業成功的保障
CSDN:前不久,您剛任職北京人工智能技術中心(AITC)總監兼首席科學家。您能跟咱們介紹一下您這份新工做,以及這個新的研究機構嗎?
HansUszkoreit:AITC在今年3月份成立於北京的亦莊經濟技術開發區。它的使命,是把AI技術從研究成果轉化爲工業應用。在德國,咱們尚未特別成功的商業化AI案例。有好屢次,我參與創立的公司都是過早進入市場,好在歷經多年的掙扎,這些公司都活下來了。但更多的狀況是,因爲缺少資金,咱們只能眼睜睜看着美國的競爭對手取得成功。他們不光有着更好的投資環境,同時還擁有一個更大的早期市場。
在中國,我也同時注意到了這兩大因素的存在:一種友善的投資氛圍,加上一個需求龐大而前衛的B2B市場。在個人老東家DFKI(德國人工智能研究中心),咱們同20多家工業股東進行過合做研究,還創立過超過80家衍生企業,在AI技術轉化方面的這些經驗都來之不易。
基於這樣的經歷,AITC有能力實現這樣的技術轉化及其研究機制,以及成功的商業化AI的最佳實踐,這讓咱們同時也有能力來幫助這一領域的其餘人。
CSDN:工業4.0和商業智能將成爲主流的AI應用場景,但這兩大領域的不一樣之處在哪裏?對於AI在此所取得的突出成績,有沒有什麼具體的實例?
HansUszkoreit:第四次工業革命是由工業界全部的部門、設備、人員之間徹底的數字化鏈接所觸發的,工業4.0是一個針對於此的普遍說法。這種徹底的數字化鏈接是由物聯網來實現的,其中還包括機器、產品、車輛和建築之間的鏈接。
商業智能適用於全部的公司,不僅針對製造業。它的基礎是組織內部有關從戰略決策到平常運做的全部決策過程的數據。這些數據大多來自公司內部,但不少重要的信號來自於外部的消費者、投資者、政策制定者、供應商和承包商,以及員工們的生活領域。對全部這些數據的分析,有助於作出更好的決策,甚至優化並調整決策的過程。
對於製造業來講,商業智能是工業4.0的一部分。今天咱們所能看到的,只是商業智能與工業4.0的第一步。這裏的數據一般是須要去主動獲取與整合的。對於數據解釋,特別是針對非結構化的數據,AI將扮演一個重要角色,並從數據中不斷學習。物流與供應鏈領域的控制、優化以及預測管理,就是這方面AI應用的具體實例。
語言技術是AI的核心
CSDN:您是語言技術頂級專家。就語言技術來講,它在AI中的角色是怎樣的?前景如何?對於天然語言處理,它是否也存在一個突破性的時刻,正如深度學習之於圖像識別、語音識別那樣?
HansUszkoreit:語言是知識的鑰匙,而知識正是AI的終極目標。人類社會的知識,正是經過語言來代代相傳的。僅靠觀察他人,人類是沒法獲取到普遍的可複用知識的。對於下一代智能系統所需的知識,人工智能必須能同時進行「閱讀」和「聆聽」才能獲取到。而此等程度的機器學習,其關鍵技術正是NLP。NLP仍是實現人與AI之間成功溝通的技術關鍵。因此說,語言技術是AI的核心部分,並將在很大程度上同知識技術相結合。
CSDN:您怎麼看當前的消費級語言技術?特別是當下大熱的智能語音助手,好比亞馬遜的Echo、蘋果的HomePod等?
HansUszkoreit:這些智能助理正在成爲咱們平常生活的一部分。我本身也天天都在使用。它們還遠未完美,但能被快速改進,由於其前衛的用戶天天都在提供大量的免費數據給它們。
漢語在語義理解上有必定潛力
CSDN:對於不一樣的語言,其語言處理技術有何差別?好比說,漢語和英語。
HansUszkoreit:不一樣的語言差別確實很大。儘管做爲口語,漢語和英語都能在一樣的時間內被小孩學會。但細節上,漢語沒有詞法,句法也至關簡單。兩者做爲書面語,絕無可能在一樣的時間內被人學會。事實上,漢語的複雜性絕無僅有。這對NLP來講更爲棘手:漢語詞彙甚至都沒有起始標識。除了語言自己所固有的複雜性,漢語更難於用電腦處理的緣由還有另一個:NLP一直是被以英格蘭爲中心的研究所主導。
但若是NLP將來的研究方法和算法在處理漢語和其餘東亞語言時的效果能超過英語,我也不會特別意外。這有一個先決條件,即找到語義理解上的改進辦法,畢竟句法在漢語中的重要性要遠小於西方語言。
CSDN:上個月,Yann LeCun對陣Yoav Goldberg的那場NLP大爭論十分引人注目。您如何看待這場爭論,特別是深度學習和NLP的關係?您支持哪一邊的說法?爲何?
HansUszkoreit:我認爲這場爭論被誤讀了,它不是一場NLP領域的深度學習倡導者與懷疑論者之間爭執,它不是那樣開始的。Yoav Goldberg不是反對深度學習,他也不是反對深度學習在NLP領域的應用。相反,Yoav大力推進了深度學習在NLP領域的應用。
Yoav Goldberg只是對那篇天然語言生成(NLG)領域的標題黨論文表示不滿,它只是在吹噓一些很小的成果。Yoav的說法並無錯:那篇標題黨論文對於NLG領域的研究進展毫無心義,它未能解決NLG領域所公認的任何問題。
而Yann LeCun和Fernande Pereira認爲他們應該站在論文做者一邊的緣由,是確實有不少的NLP研究者極端懷疑深度學習在語言分析和生成上的做用。LeCun和Pereira把這種懷疑主義視爲過期的研究範式反抗深度學習大法的無力嘗試。保守派對陣革新派,這是科學革命中的古老遊戲。但這絕非是Goldberg這次爭論的目的。
我我的的見解是
當前的深度學習方法還不足以解決NLP領域的核心問題。但它們已經改善並實現了NLP技術的不少應用。深度學習此處的不足,並不在於當前所用的各類人工神經網絡及其各自的學習算法,而在於咱們尚未正確類型與足夠數量的語言類標註數據。
人類語言和人腦共同進化的方式,是語言能被用來表達信息和知識的同時,還能讓兒童用很短的時間就能學會。語言的這種可習得性與基本知識概念的可習得性緊密相連。沒有語言就沒法學到概念,不與概念想結合也沒法學到語言。
若是咱們能夠找出一個能同時教會人工智能語言和概念的方法,問題就解決了。這裏的第一步就是基於人工神經網絡的可複用知識的機器學習。
在這樣的技術變革形勢下,Goldberg只是在倡導正確的科研行爲的嚴格規則。但咱們都清楚,面對這樣的環境,慣常的行爲標準並不老是適用。在社會變革中,有勇氣在正確的時刻說話的人,每每都是咱們歷史上的英雄。
給年輕從業者的三條建議
CSDN:在您的人工智能生涯中,最寶貴的經驗是什麼?對於新一代的AI從業者,您有哪些建議?
HansUszkoreit:我有三條小建議。
擴展視野:多去國外看看,或至少能在跨國企業工做一段時間。我在美國待了將近十年,並領導過多個國際項目。我一直都是一個國際博士生項目的共同負責人,我還主持過一個國際研究生項目。我在國際項目、暑期學校與會議中的經歷,極大地豐富了個人專業能力和我的生活。
愛上數據,儘可能爲你所愛的數據工做:它可能屬於商業統計、圖片、音頻、視頻或文本,全部這些數據都有它們各自獨特、豐富且有意義的內在結構。儘可能弄懂這裏的結構,儘可能靠本身來解釋數據。必定要堅持作高質量的錯誤分析,甚至要本身去讀這些錯誤數據。儘可能把算法的特性和數據的特性聯繫起來去看。
儘可能去接觸自身領域以外的研究:至少,要能不時地去考量你的子領域同相鄰領域的關係、你的數據同其餘類型數據的關係、你的方法同其餘方法間的關係。不要由於你不理解就放過同其餘領域專家進行交流的機會,敦促他們用最簡單的方式來解釋他們的問題和解決方案,同時嘗試以一樣的方式來解釋你本身的研究工做。多瞭解人類的認知機制,即使機器智能的機制是一種徹底不一樣的方式。
CCAI演講亮點
CSDN:您在CCAI演講主題是「結合機器學習和知識解釋的商務智能應用」,但相對於上一代基於規則的人工智能,機器學習和深度學習近年來日新月異、碩果累累,那麼,咱們爲何還須要這種基於規則的知識工程?
HansUszkoreit:當前,深度學習主要用來獲取某種形式的「智能」行爲。對於給定的輸入,系統可以習得人類的方法並作出反應。這些系統尚未外在的可複用知識,但可以獲取到一些內在知識。只是這樣的知識一般沒法被複用於其餘任務。我並不支持人工智能像30年前所嘗試的那樣來使用知識工程,但我堅信人工智能終將找出辦法來使用人類已有的海量的外在知識(如維基百科或結構化的DBpedia等),而且它很快就能自動獲取更多的外在知識。
與其討論深度學習與深層知識間的競爭關係,我更願意去思考這兩大技術有效結合起來的前景:只要機器可以從人類身上學習,它就有可能學會數以百萬計的人的知識。
CSDN:您對本屆CCAI大會有何期待?您最想聽的演講時哪一場?
HansUszkoreit:中國有不少我還不知道的AI研究團隊和研究中心,對於他們的研究成果與應用創新,我特別期待。對於中國公司所能貢獻的AI成果,我至關好奇。