文:Gracia,攝影:周振邦
(本文爲原創內容,部分或全文轉載均需經做者受權,並保留完整的做者信息和技術人攻略介紹。)算法
導語:本期訪談對象@小猴機器人,清華人工智能專業博士在讀。2009年開始,他參與實驗室的無人車項目,和軍事交通學院共同研發「軍交猛獅III號」無人車。這輛由黑色現代ix35改裝的你們夥,配備雷達、攝像頭和GPS傳感器,可精確識別路況、判斷障礙物,並自主進行剎車、油門、制動、換擋等操做。身爲機率論、AI、Python的狂熱愛好者,小猴正致力於用機率圖模型方法,讓機器變得更聰明。segmentfault
攻略君的書櫃頂層,放着侯世達的《哥德爾、埃舍爾、巴赫:集異璧之大成》,這本被譽爲人工智能「聖經」的厚重大部頭,出版於70年代中期,曾得到普利策文學獎,轟動一時。其後,人工智能領域研究進入拐點,關注「人類思惟如何運做」的傳統研究方式進入死衚衕,逐漸淡出公衆視野。直到80年代末期,人工神經網絡發明,基於大量訓練樣本的機器學習模型,取代傳統人工規則,這一領域才從新取得突破性進展。七牛雲存儲
隨着大數據與人工智能結合,咱們逐漸進入一個算法主導的世界,無所不在的機器智能,精確記錄着你的點滴,計算着你的喜愛,推薦你須要的物品,物理世界和虛擬世界的分界變得模糊。在歡天喜地迎接萬億級別新市場同時,也不乏對科技和人類將來的反思,對技術「奇點」的擔心是其中之一。大約一萬年前,人類在改造天然的能力上逐漸佔據主導,迎來了自身的大繁榮。當機器智能超越人類智能,意味着第二個臨界點到來,這種智能會在多大程度上操縱人類的認知方式?一個有人性的世界是否會由此終結?人工智能這把通往將來的鑰匙,究竟能打開一扇什麼樣的門?須要每位參與者謹慎思考。微信
「三清團」(清華本科、碩士、博士)的經歷,讓小猴養成了嚴謹、務實的科學態度。他喜歡用「科技工做者」稱呼本身,而且善於用通俗易懂,帶點戲謔的方式,把那些看起來高深的理論,解釋得通俗易懂。他曾作過一份《機器學習週刊》,用本身鮮明的個性,把嚴肅、枯燥的技術新聞,解讀得無比鮮活。即便整整一下午,我耳邊迴盪着「卷積神經網絡」、「約束玻爾茲曼機」、「馬爾科夫隨機場」這樣的專業名詞,聽起來還是津津有味。或許由於成長於廣袤的內蒙,小猴身上帶着大山和草原通常的灑脫與樂觀,在他鐘愛的無人車上,印上了一個美好的Slogan:咱們的征途是星辰大海。網絡
技術人攻略:大家的無人車項目始於什麼時候?作到了什麼程度?有哪些難點?app
我如今清華「不肯定性人工智能實驗室」讀博士,主要作和不肯定性相關的東西,例如:知識挖掘、知識圖譜、讀心機器人、視覺識別、四旋翼、自平衡車、足球機器人等項目。機器學習
實驗室的無人車項目從2005年開始啓動,目前已和若干高校,以及上汽、北汽等公司聯合,共有100多人蔘與。我2009年加入該項目,從作模型車開始,逐漸作到大車。目前爲止,該車已經過約5萬千米測試,在全程無人工干預狀況下,高速路跑下來沒問題。2012年12月,央視曾跟拍過咱們從北京收費站入口,跑到天津收費站出口的全過程。工具
接下來的挑戰是錯綜複雜的城區道路,解決複雜問題的方式是剝洋蔥,剝到咱們能解決的那一層。城市道路抽象地看,可分紅機場高速、環路、普通城市道路、小區道路,難度依次提高。以「機場接人」這個任務爲例,無人車須要從機場一號航站樓,跑到天安門旁的工信部大院。這段路涉及機場高速、東二環、前門大十字路口等許多交通元素,逐步搞定預計要用兩年時間。性能
無人車行走依靠三大工具,一是GPS衛星定位,二是激光雷達,三是相機。雷達和相機實現局部定位,GPS實現全局定位。這裏面有不少技術難點,其中之一就是如何實現高精度定位。學習
普通車道線的寬度是3.3米,手機上的GPS號稱偏差2.5米,一旦出現5米左右的偏差,會致使從左拐車道偏移到直行車道。針對高精度定位需求,已出現了一些高層次GPS定位方法,例如RTK-GPS、差分GPS,經過靜態GPS基站和衛星同時定位,精度可達到50釐米。一輛無人車的總成本高達200萬人民幣,激光雷達國外賣6萬刀,國內加上稅獲得80萬人民幣,用精度更高的航天級傳感器,成本會高達上百萬。差分GPS市價30萬,基站覆蓋範圍10千米。從機場到天安門這段路約29.1千米,想實現全程信號覆蓋,至少得建3個基站。若是用3G,不用搭建基站,但信號覆蓋效果會是個問題。因此最後的定位方式會結合多種傳感器作融合推理。
Google無人車依賴GPS,及傳感器作特徵抽取,並把這些信息連到一塊分析。分析過程用到了SLAM(協同定位與繪圖)技術,它是一個機器學習算法,在機器人領域應用得很廣。根據車的移動,不斷調整地理位置估計,當蒐集的信息足夠多時,就能實現精準定位。若是有足夠完善的地圖,就不須要用到SLAM,直接把場景和地圖特徵作Mapping就能夠。
技術人攻略:你如今主要的研究方向是什麼?
我我的的興趣是用機率模型(例如機率圖模型)方法解決人工智能問題。在無人車這塊,正嘗試經過深度學習模型,對人的駕駛及周圍環境建模,訓練出一些模型,和車的控制算法結合,讓機器變得更聰明。
傳統控制方式會寫一些if、then條件,例如:若是視野裏出現紅色,則前方有紅燈。但僅憑這一條規則判斷,結果會存在必定不肯定性。圖模型則會鏈接更多前件和後件,根據已有知識,去推論圖裏面某一個節點或者某一條邊,是否會存在或發生。仍然拿紅燈舉例,根據先驗知識,紅燈通常在高處。除了判斷顏色以外,還須要判斷紅燈和地面之間的關係。若是在地面上檢測出來一個紅色物體,那麼它是紅燈的可信度不會很高,若是在天空上,那麼極可能是一個紅燈。
除無人車外,我還對天然語言處理感興趣,例如作Email的Intention Direction分析,怎麼知道某封郵件是找你要資料的Email,仍是老闆通知你去開會的Email。再進一步,經過智能助理提醒你,回覆前兩天別人找你要資料的Email,或只對老闆讓你開會的Email作出響應。如何理解你老闆,和開會這兩件事,涉及到對人和事件的識別與抽取,這中間能夠作大量的嘗試,會讓你對人工智能的能力感到很振奮。
我參與過最有趣的人工智能項目是MSRA的「讀心機器人」:你在心中設想一個公衆人物,它能經過一系列問題,猜出你內心想的那個TA是誰。這其實是一個排序算法,根據用戶的每一次回答調整 Ranking。其中的技術涉及到知識庫構建,全部人物的背景知識都從互聯網上抓取。還涉及到羣體智能,經過用戶的回答調整算法。
技術人攻略:剛提到用圖模型方法解決人工智能問題,圖模型有哪些好處?如何實現?
用圖模型解決問題的方法,在人工智能裏被稱爲「鏈接主義」。過去咱們常把數據當作一個個孤立的點,針對點作假設。但實際上,可能很遠的地方一個絕不相干的信息,會觸發你這裏致命,或決策性的響應。因此用圖來研究人工智能是很天然的方式。
Google知識圖譜(Knowledge Graph)就是根據圖模型構建起來的,咱們通常叫它知識庫(Knowledge Base)。例如你想搜索關於奧巴馬總統的知識,傳統搜索引擎作關鍵字匹配,不免會搜出一些不須要的東西。用知識圖譜方式,全世界有1000我的叫奧巴馬,但可能只有一我的和「米歇爾(奧巴馬的妻子)」有關係,經過這類聯繫,迅速定位出目標。
但如何能知道米歇爾和奧巴馬之間的聯繫呢?這就涉及到知識庫的構建。構建分爲兩步,第一步是Entity Linking,找出材料中提到了知識庫裏的誰?第二步是Slot Filling,找出在說他的什麼事?
人類的思考過程並不只依靠輸入的材料,而是會結合已有常識分析。例如大部分人大學畢業都在22歲左右,大部分人會在30歲以前結婚、生子,大部分人壽命不會超過100歲……這一系列機率分佈構成了人的背景知識,利用這些知識能夠輔助和改進人工智能效果。
常識通常分三類,第一類叫事實,例如:布萊爾是英國總理。這個層面的知識能夠從大英百科全書或Wikipedia上拿到;第二類常識,例如:布萊爾是我的,他是個男人。涉及上下層級關係,要更難一些;第三層更困難,例如:布萊爾是個男人,男人一般會和女人結婚,一般會在結婚後兩年生小孩。第三層涉及的規則,是真正的人類智力和人工智能之間的壁壘所在,如何可以有效挖掘出這些規則,是目前人工智能遇到的最大挑戰。
技術人攻略:除了規則挖掘,人工智能遇到的難題還有哪些?
全部作人工智能和機器學習的人,遇到最廣泛的難題是:缺少被標記好的數據。舉個例子,咱們面前這一瓶可樂,網絡上能找到成千上萬張圖片,但就是沒有標記出來它是一瓶「可樂」。即便在電商網站上,這張圖極可能也並不會標記爲「可樂」,而是叫「解暑佳品」。在這樣的狀況下,機器又如何能知道對應的圖就是「可樂」呢?
再舉個極端的例子,你在朋友圈貼了幾張美食的圖片,發了一句感慨:今天真開心。這句話和美食沒有任何關係,根本無法處理。而有的人會說:我在大衆點評上找了一家烤肉店,味道很是不錯。那「烤肉」這個詞就能抓出來了。因此這不是技術上的問題,而是要看你能拿到多少數據。
怎樣從這些沒有標記過的數據中,搞出一點苗頭出來,這就是當下最火的深度學習要作的事。有別於深度學習直接用原始數據的生猛作法,傳統解決辦法是用遠程監督(Distant Supervision)技術獲取數據,例如從網上抽出一些可能的標籤,在「減肥佳品,消暑必備可樂」這句話裏,會抽出「減肥」,「消暑」、「可樂」這些名詞。統計類似的圖片裏面,有哪些關鍵詞常常出現,用不肯定性解決這個問題。算完以後給出一個機率:這個東西在談可樂的機率80%,在談減肥的機率20%。只要數據量夠大,這些都不是問題。
機器學習上手很容易,關鍵是能挖出什麼東西來。真實數據裏噪聲很是多,缺失的信息也不少,實踐者要學會繞出這些坑,從紛亂的數據中找出規律。在深度學習還沒到你們腦海裏以前,大部分機器學習學者都在觀察數據有什麼特徵,這叫作特徵工程。例如你發現數據裏全部單詞的第一個字母都大寫,就把它當成一個特徵,別人若是沒用到這個特徵,你的算法就超前了。搞人工智能的人,必須對數據敏感,能從數據裏發現一些別人看不到的端倪。機器學習是一個優化過程,但能從數據裏挑什麼來作優化,須要專業技術。並且數據特徵和領域有緊密關係,廣告、網頁的、圖片識別的特徵各不同,用到的模型也可能不同。
技術人攻略:前陣子媒體報道已有機器經過圖靈測試,你怎麼看?
前陣子宣稱經過圖靈測試的那臺計算機,模擬了一位13歲的匈牙利外國男孩,而且仍是得了病的那樣一我的的智能。作了許多限制條件,把AI設計成有缺陷的人,試圖矇混過關。
實際上,真正的人工智能學家根本不會致力於去經過圖靈測試。咱們不去爭論什麼是真正的人工智能,而作如下設想:若是有一臺無人車,可讓駕駛過程當中90%的場景全都和人同樣。逐漸把這種算法應用到地鐵、飛機駕駛,而且都作到效果無限和人逼近。最後這些綜合起來,造成一個總體,你以爲它算不算人工智能?
人工智能分爲兩派,以Google爲首的一派搞統計,以侯世達爲首的一派搞規則。兩派人總在爭論,究竟誰纔是真正的人工智能。討論參與到最後,就變成了人和機器最後到底誰會控制誰的暢想。暢想完了以後總還要幹活,做爲科技工做者,不如埋頭把活幹好。在局部範圍內讓機器人去逼近人,若是能作到一個比較良好的狀態,就稱其爲在這個領域內,達到必定程度的人工智能。比起經過圖靈測試,這應該是更爲實際的目標。
對於圖靈測試智能與否,也有學者吐槽。去年人工智能大會(IJCAI)上,Hector Levesque就指出:人與機器的區別應該在於認知和理解,好比「指代消歧」能力,普通人能夠輕鬆結合上下文,分辨出文中的「它」指的是誰,但目前機器要作到這點挺難。
技術人攻略:Yann LeCun(燕樂存)預測這兩年會大量出現人工智能、機器學習的初創公司,你關注到有哪些這個領域的公司?
國外機器學習的初創公司不少,方向也相對比較雜,應用領域包括廣告、機器人、智能家居等。例現在年初Google以4億美金收購了DeepMind,這家公司的創始人之一是Yann LeCun的學生,他們把深度學習模型應用到遊戲領域,作了個自動玩超級瑪麗的算法,發了篇很厲害的Paper。
深度學習最牛的地方,在於徹底不須要定義規則,全部規則都由機器本身學習得出。在超級瑪麗遊戲裏,你根本不用定義馬里奧和烏龜的距離,只需定義活下去這個目標,把整幅截圖給機器,它天然就能找出在什麼場景或什麼動做序列下,遊戲角色能存活最長時間。
這家公司價值如此大,關鍵還在於,超級瑪麗通關的算法,實際上跟其它高精尖領域的控制算法原理同樣。例如航天飛行器的控制算法,是在模擬器裏,用模型驅動參數變化,給出結果並反覆訓練的過程。廣告系統也相似,Google之前經過人,或者簡單算法調整廣告系統的參數,一方面效果達不到,另外一方面浪費人力物力,深度學習或者超參優化能自動化地解決這個問題。
國內的創業環境更偏向於短平快,作機器學習初創的公司主要集中在廣告、營銷方向,包括輿情監控、精準投放等領域。也有像Face++這樣的,用機器學習作人臉識別,並作到這個領域的世界冠軍。
技術人攻略:機器學習、深度學習、人工智能、模式識別之間的區別與聯繫是什麼?想進入這個領域的人應該如何提高?
人工智能是目標;機器學習是一種技術手段;模式識別與機器學習有交集,但不必定非要經歷機器學習的訓練過程,可經過給匹配給定模式的方式實現;和深度學習對應的是淺層學習,都屬於機器學習的方式之一。
想進入人工智能領域,首先得了解它的發展歷史。從技術上看,人工智能應用領域基本能夠落在圖像識別、聲音識別,天然語言處理這三類。從中找到你的載體,再從載體上尋找和明確要解決的科學問題。接下來看別人的解決方案是如何實現的,世界冠軍的標準是什麼,朝着把世界冠軍戰勝的方式去努力。這是全部作科研的人應該遵循的成長方式。
如今最火的深度學習領域的頂級牛人有4位,包括神經網絡的發明人、就任於Google的Geoff Hinton;Facebook人工智能研究院主任Yann LeCun;加拿大Montreal大學教授Yoshua Bengio;百度首席科學家Andrew Ng。他們當年都曾在NEC Lab裏共事。2006年以前,支持向量機模型(Support Vector Machine)佔據了機器學習領域的江山。神經網絡出來了以後,在性能上壓倒式地超越了SVM,在語音和圖像識別兩個領域,把原有的世界機器學習紀錄全乾掉了,因此一會兒火了。不過目前深度學習在天然語言上尚未特別好的解決方案。
你們廣泛認爲,人工智能這一行對數學有很高的要求,尤爲是線性代數和機率論。如下幾本機器學習的書,也能夠看看:《Pattern Recognition and Machine Learning》、《Machine Learning——An Algorithmic Perspective》、《Programming Collective Intelligence》、《Machine Learning in Action》、《Machine Learning for Hackers》。想作得好,還得多看Paper。無論是Paper仍是新聞,推薦都儘可能看英文原文。
技術人攻略:你在清華從本科一直讀到博士,談談在清華成長的感覺吧?
外界對清華同窗的吐槽比較多,好比情商低,自視甚高等。有些見解很片面,但至少咱們作事情很認真。個體行爲在必定程度上表明着學校,若是本身作事不靠譜,別人會說那個清華的誰不靠譜,有負於前面成百上千的師兄師姐營造出來的形象。
別人眼中的清華學子可能很乖巧好學。但真的乖嗎?不必定。好學嗎?有時候也會犯懶。這跟是否是清華其實不要緊。我從小也算是「別人家的孩子」,除了學習和品行不錯,心裏其實很叛逆。許多同窗來自於格式化的城市,我卻成長於廣袤的內蒙古,大興安嶺給了我灑脫的性格。我可能並不算典型的清華同窗,因此這裏談的都是些我的見解。
我從小很是喜歡看書,語文和英語很好,差點去學文科。但後來發現應試教育裏那些文科的東西,不像理科那麼有肯定性。好比歷史,讓你談一下對鴉片戰爭的見解。我想這還不如解方程,因而學了理科。結果由於數學不行,各類被虐。
大一期中考試,我微積分考了52。從2004級開始,國內一些省份已經把微積分放進了高中數學,而我高中沒學,對微積分一竅不通。當時內心有巨大壓力,想着這回完了,我要被清華退回去了。後來一轉念,數學天賦我沒有,但刻苦這件事是能夠作到的。爲了向老師請教學習方法,我天天幫老師擦黑板(微積分上了三學期,我擦了整整三學期黑板),並把能找到的數學習題集都作了一遍。期末考試前,我作過的草稿紙,壘起來已足足有10公分高,但內心仍然是沒底。老師說:你若是再不及格,我就放過你(這句話更可能是爲安慰我,後來才據說這位老師是名捕之首!)。結果是我考了98分,在半個小時以內作完了全部的題,許多題目熟悉得甚至不用算就知道答案。從那時候我就以爲,在清華混,努力是個很重要的因素。
技術人攻略:你將來一到兩年的計劃是什麼?
我明年博士畢業,導師是國內人工智能領域的專家李德毅老師。他教導我作事要有載體、要思路清晰、要堅持,對我影響很大,徹底能跟我長輩相提並論。
我如今大部分時間都在忙無人車。但願能在將來幾年,把無人車作到世界頂尖,讓中國本身的無人車在國際上佔有一席之地。
畢業以後打算繼續搞科研,經過一個載體,把本身的模型放上去不斷優化。我不想徹底去作產品,產品導向會有KPI要求,被虐成渣會影響家庭辛福。並且作科研能夠常常換一些話題,新的事物一旦出現,就能夠轉過去。但作產品可能3、五年都得耗在一條產品線上,世界在變化,好多好玩的事情不斷在發生,就沒辦法去作了。我是一個比較膽小的人,不適合一我的創業,讓我拋下身家冒險,我作不來。若是有一個好朋友,他又對項目頗有信心,我在裏面幫他作一部分力所能及的事卻是能夠。
我也搞不了偏商業化的東西。曾有人找我作高頻交易機器人,但那不是個人興趣所在。一旦你進入一個高頻交易所,天天給他們寫腳本,但那件事情並非你想作的。只是你有的那塊技術正好變成了他們比較重要的一塊積木,上面和下面的積木都會擠壓着你,帶着你走向一個你不知道是什麼樣的地方。我想作一塊獨立、自由的積木,最好是變形金剛那種,最好周圍的積木也不太規則,這樣你們就不會徹底拼在一起,求同存異,會更有趣。
做者介紹:技術人攻略訪談是關於技術人生活和成長的系列訪問,由獨立媒體人Gracia創立和維護。報道內容以「人」爲核心,經過技術人的故事傳遞技術夢想;同時以小見大,見證技術的發展和行業的變遷。在這個史無前例的變革時代下,咱們的眼光將投向有關:創造力、好奇心、冒險精神,這樣一些長期被忽略的美好品質上。相信經過這樣一羣心懷夢想,而且正腳踏實地在改變世界的技術人,這些美好的東西將從新得到珍視。
聯繫方式 gracia@devlevelup.com
微博: @技術人攻略
訂閱:微信搜「技術人攻略」或「dev-levelup」
感謝SegmentFault提供博客專欄及推廣支持。
感謝迅達雲成提供雲主機及技術支持。
感謝七牛雲存儲對「技術人攻略影像拍攝計劃」提供支持。