編輯部按:本文是從張志華老師在第九屆中國R語言會議和上海交通大學的兩次講座中整理出來的。張志華老師是上海交通大學計算機科學與工程系教授,上海交通大學數據科學研究中心兼職教授,計算機科學與技術和統計學雙學科的博士生指導導師。在加入上海交通大學以前,是浙江大學計算機學院教授和浙江大學統計科學中心兼職教授。張老師主要從事人工智能、機器學習與應用統計學領域的教學與研究,迄今在國際重要學術期刊和重要的計算機學科會議上發表70餘篇論文,是美國「數學評論」的特邀評論員,國際機器學習旗艦刊物Journal of Machine Learning Research 的執行編委。其公開課《機器學習導論》和《統計機器學習》受到普遍關注。算法
張志華老師和他的學生們數據庫
你們好,今天我演講的主題是 「機器學習:統計與計算之戀」。我用了一個很浪漫的名字,可是個人心情是坐臥不安的。一則我擔憂本身沒有能力駕馭這麼大的主題,二則我實際上是一個不解風情之人,個人觀點有些可能不符合國內學術界的主流聲音。api
最近人工智能或者機器學習的強勢崛起,特別是剛剛過去的AlphaGo和韓國棋手李世石九段的人機大戰,再次讓咱們領略到了人工智能或機器學習技術的巨大潛力,同時也深深地觸動了我。面對這一史無前例的技術大變革,做爲10多年以來一直從事統計機器學習一線教學與研究的學者,但願藉此機會和你們分享我我的的一些思考和反思。網絡
在這場人工智能發展的盛事裏,我忽然發現,對咱們中國的學者來講,好像是一羣看熱鬧的旁觀者。無論你認可仍是不認可,事實就是和我一代的或者更早的學者也只能做爲旁觀者了。咱們能作的事情是幫助大家---中國年輕的一代,讓大家在人工智能發展的大潮中有競爭力,作出標杆性的成就,創造人類文明價值,也讓我有個加油歡呼的主隊。數據結構
個人演講主要包含兩部分,在第一部分,首先對機器學習發展作一個簡要的回顧,由此探討機器學習現象所蘊含的內在本質,特別是討論它和統計學、計算機科學、運籌優化等學科的聯繫,以及它和工業界、創業界相輔相成的關係。在第二部分,試圖用「多級」、「自適應」以及 「平均」等概念來簡約紛繁多彩的機器學習模型和計算方法背後的一些研究思路或思想。架構
毋庸置疑,大數據和人工智能是當今是最爲時髦的名詞,它們將爲咱們將來生活帶來深入的變革。數據是燃料,智能是目標,而機器學習是火箭,即通往智能的技術途徑。機器學習大師Mike Jordan和Tom Mitchell 認爲機器學習是計算機科學和統計學的交叉,同時是人工智能和數據科學的核心。框架
「It is one of today’s rapidly growing technical fields, lying at the intersection of computer science and statistics, and at the core of artificial intelligence and data science」 ---M. I. Jordan
機器學習
通俗地說,機器學習就是從數據裏面挖掘出有用的價值。數據自己是死的,它不能自動呈現出有用的信息。怎麼樣才能找出有價值的東西呢?第一步要給數據一個抽象的表示,接着基於表示進行建模,而後估計模型的參數,也就是計算,爲了應對大規模的數據所帶來的問題,咱們還須要設計一些高效的實現手段。異步
我把這個過程解釋爲機器學習等於矩陣+統計+優化+算法。首先,當數據被定義爲一個抽象的表示時,每每造成一個矩陣或者一個圖,而圖其實也是能夠理解爲矩陣。統計是建模的主要工具和途徑,而模型求解大多被定義爲一個優化問題,特別是,頻率統計方法其實就是一個優化問題。固然,貝葉斯模型的計算牽涉隨機抽樣方法。而以前說到面對大數據問題的具體實現時,須要一些高效的方法,計算機科學中的算法和數據結構裏有很多好的技巧能夠幫助咱們解決這個問題。分佈式
借鑑Marr的關於計算機視覺的三級論定義,我把機器學習也分爲三個層次:初級、中級和高級。初級階段是數據獲取以及特徵的提取。中級階段是數據處理與分析,它又包含三個方面,首先是應用問題導向,簡單地說,它主要應用已有的模型和方法解決一些實際問題,咱們能夠理解爲數據挖掘;第二,根據應用問題的須要,提出和發展模型、方法和算法以及研究支撐它們的數學原理或理論基礎等,我理解這是機器學習學科的核心內容。第三,經過推理達到某種智能。最後,高級階段是智能與認知,即實現智能的目標。從這裏,咱們看到,數據挖掘和機器學習本質上是同樣的,其區別是數據挖掘更接地於數據庫端,而機器學習則更接近於智能端。
咱們來梳理一下機器學習的發展歷程。上個世紀90年代之前,我對此認識不夠,瞭解不深,但我以爲當時機器學習處於發展的平淡期。而1996-2006年是其黃金時期,主要標誌是學術界涌現出一批重要成果,好比,基於統計學習理論的SVM和boosting等分類方法,基於再生核理論的非線性數據分析與處理方法,以lasso爲表明的稀疏學習模型及應用等等。這些成果應該是統計界和計算機科學界共同努力成就的。
然而,機器學習也經歷了一個短暫的徘徊期。這個我感同身受,由於那時我在伯克利的博士後工做結束,正面臨找工做,所以當時我導師Mike Jordan教授和我進行了屢次交流,他一方面認爲機器學習正處於困難期,工做職位已趨於飽滿,另外一方面他向我一再強調,把統計學引入到機器學習的思路是對的,由於以統計學爲基礎的機器學習做爲一個學科其地位已經被奠基。主要問題是機器學習是一門應用學科,它須要在工業界發揮出做用,能爲他們解決實際問題。幸運的是,這個時期很快就過去了。可能在座大多數人對這個時期沒有印象,由於中國學術發展每每要慢半拍。
如今咱們能夠義正詞嚴地說機器學習已經成爲計算機科學和人工智能的主流學科。主要體如今下面三個標誌性的事件。
首先,2010年2月,伯克利的Mike Jordan教授和CMU的Tom Mitchell教授同時被選爲美國工程院院士,同年5月份,Mike Jordan和斯坦福的統計學家Jerome Friedman又被選爲美國科學院院士。咱們知道許多著名機器學習算法好比CART、MARS 和GBM等是 Friedman教授等提出。
隨後幾年一批在機器學習作出重要貢獻的學者前後被選爲美國科學院或工程院院士。好比,人工智能專家的Daphne Koller, Boosting的主要創建者Robert Schapire, Lasso的提出者Robert Tibshirani, 華裔著名統計學習專家鬱彬老師,統計機器機器學習專家的Larry Wasserman, 著名的優化算法專家 Stephen Boyd等。同時,機器學習專家、深度學習的領袖Toronto大學Geoffrey Hinton 以及該校統計學習專家Nancy Reid 今年分別被選爲美國工程院和科學院的外籍院士。
這是當時Mike給我祝賀他當選爲院士時的回信:
Thanks for your congratulations on my election to the National Academy. It's nice to have machine learning recognized in this way.
所以,我理解在美國一個學科可否被接納爲主流學科的一個重要標誌是其表明科學家可否被選爲院士。咱們知道Tom Mitchell 是機器學習早期創建者和守護者,而Mike Jordan是統計機器學習的奠定者和推進者。
這個遴選機制無疑是先進的,它能夠促使學科良性發展,適應社會動態發展和需求。相反,若是某某經過某種方式被評選爲本國院士,而後他們就掌握了該國學術話語權和資源分配權。這種機制可能會形成一些問題,好比一些過剩學科或者夕陽學科會獲得過多的發展資源,而主流學科則被邊緣化。
其次,2011年的圖靈獎授予了UCLA的Judea Pearl教授,他主要的研究領域是機率圖模型和因果推理,這是機器學習的基礎問題。咱們知道,圖靈獎一般頒給作純理論計算機科學的學者,或者早期創建計算機架構的學者,而把圖靈獎授予Judea Pearl教授具備方向標的意義。
第三,是當下的熱點,好比說深度學習、AlphaGo、無人駕駛汽車、人工智能助理等等對工業界的巨大影響。機器學習切實能被用來幫助工業界解決問題。工業界對機器學習領域的才人有大量的需求,不只僅須要代碼能力強的工程師,也須要有數學建模和解決問題的科學家。
讓咱們具體地看看工業界和機器學習之間的關係。我以前在谷歌研究院作過一年的訪問科學家,我有很多同事和之前學生在IT界工做,平時實驗室也常常接待一些公司的來訪和交流,所以瞭解一些IT界狀況。
我理解當今IT的發展已從傳統的微軟模式轉變到谷歌模式。傳統的微軟模式能夠理解爲製造業,而谷歌模式則是服務業。谷歌搜索徹底是免費的,服務社會,他們的搜索作得愈來愈極致,同時創造的財富也愈來愈豐厚。
財富蘊藏在數據中,而挖掘財富的核心技術則是機器學習。深度學習做爲當今最有活力一個機器學習方向,在計算機視覺、天然語言理解、語音識別、智力遊戲等領域的顛覆性成就。它造就了一批新興的創業公司。
個人重點仍是要回到學術界。咱們來重點討論統計學和計算機科學的關係。CMU 統計系教授Larry Wasserman最近剛被選爲美國科學院院士。他寫了一本名字很是霸道的書,《All of Statistics》。在這本書引言部分關於統計學與機器學習有個很是有趣的描述。他認爲原來統計是在統計系,計算機是在計算機系,這兩個是不相來往的,並且互相都不認同對方的價值。計算機學家認爲那些統計理論沒有用,不解決問題,而統計學家則認爲計算機學家只是在從新建造輪子,沒有新意。然而,他認爲這個狀況如今改變了,統計學家認識到計算機學家正在作出的貢獻,而計算機學家也認識到統計的理論和方法論的廣泛性意義。因此,Larry寫了這本書,能夠說這是一本爲統計學者寫的計算機領域的書,爲計算機學者寫的統計領域的書。
如今你們達成了一個共識: 若是你在用一個機器學習方法,而不懂其基礎原理,這是一件很是可怕的事情。也是因爲這個緣由,目前學術界對深度學習仍是心存疑慮的。深度學習已經展現其強大的實際應用的效果,但其中的原理目前你們還不是太清楚。
讓咱們進一步地來分析統計與計算機的關係。計算機學家一般具備強的計算能力和解決問題的直覺,而統計學家長於理論分析,具備強的建模能力,所以,二者有很好的互補性。
Boosting, SVM 和稀疏學習是機器學習界也是統計界,在近十年或者是近二十年來,最活躍的方向,如今很難說誰比誰在其中作的貢獻更大。好比,SVM的理論其實很早被Vapnik等提出來了,但計算機界發明了一個有效的求解算法,並且後來又有很是好的實現代碼被陸續開源給你們使用,因而SVM就變成分類算法的一個基準模型。再好比,KPCA是由計算機學家提出的一個非線性降維方法,其實它等價於經典MDS。然後者在統計界是很早就存在的,但若是沒有計算機界重新發現,有些好的東西可能就被埋沒了。
機器學習如今已成爲統計學的一個主流方向,許多著名統計系紛紛招聘機器學習領域的博士爲教員。計算在統計已經變得愈來愈重要,傳統多元統計分析是以矩陣爲計算工具,現代高維統計則是以優化爲計算工具。另外一方面,計算機學科開設高級統計學課程,好比統計學中的核心課程「經驗過程」。
咱們來看機器學習在計算機科學佔什麼樣的地位。最近有一本尚未出版的書 「Foundation of Data Science, by Avrim Blum, John Hopcroft, and Ravindran Kannan,」做者之一John Hopcroft是圖靈獎得主。在這本書前沿部分,提到了計算機科學的發展能夠分爲三個階段:早期、中期和當今。早期就是讓計算機能夠運行起來,其重點在於開發程序語言、編譯原理、操做系統,以及研究支撐它們的數學理論。中期是讓計算機變得有用,變得高效。重點在於研究算法和數據結構。第三個階段是讓計算機具備更普遍的應用,發展重點從離散類數學轉到機率和統計。那咱們看到,第三階段實際上就是機器學習所關心的。
如今計算機界戲稱機器學習「全能學科」,它無所不在。一方面,機器學習有其自身的學科體系;另外一方面它還有兩個重要的輻射功能。一是爲應用學科提供解決問題的方法與途徑。說的通俗一點,對於一個應用學科來講,機器學習的目的就是把一些難懂的數學翻譯成讓工程師可以寫出程序的僞代碼。二是爲一些傳統學科,好比統計、理論計算機科學、運籌優化等找到新的研究問題。
機器學習的發展歷程告訴咱們:發展一個學科須要一個務實的態度。時髦的概念和名字無疑對學科的普及有必定的推進做用,但學科的根本仍是所研究的問題、方法、技術和支撐的基礎等,以及爲社會產生的價值。
機器學習是個很酷的名字,簡單地按照字面理解,它的目的是讓機器能像人同樣具備學習能力。但在前面咱們所看到的,在其10年的黃金髮展期,機器學習界並無過多地炒做「智能」,而是更多地關注於引入統計學等來創建學科的理論基礎,面向數據分析與處理,以無監督學習和有監督學習爲兩大主要的研究問題,提出和開發了一系列模型、方法和計算算法等,切實地解決工業界所面臨的一些實際問題。近幾年,因應大數據的驅動和計算能力的極大提高,一批面向機器學習的底層架構又前後被開發出來,深度神經網絡的強勢崛起給工業界帶來了深入的變革和機遇。
機器學習的發展一樣詮釋了多學科交叉的重要性和必要性。然而這種交叉不是簡單地彼此知道幾個名詞或概念就能夠的,是須要真正的融化貫通。Mike Jordan教授既是一流的計算機學家,又是一流的統計學家,因此他可以承擔起創建統計機器學習的重任。並且他很是務實,從不提那些空洞無物的概念和框架。他遵循自下而上的方式,即先從具體問題、模型、方法、算法等着手,而後一步一步系統化。Geoffrey Hinton教授是世界最著名的認知心理學家和計算機科學學家。雖然他很早就成就斐然,在學術界名聲卓越,但他一直活躍在一線,本身寫代碼。他提出的許多想法簡單、可行又很是有效,所以被稱爲偉大的思想家。正是因爲他的睿智和力行,深度學習技術迎來了革命性的突破。
機器學習這個學科同時是兼容並收。咱們能夠說機器學習是由學術界、工業界、創業界(或競賽界)等協力而造就的。學術界是引擎,工業界是驅動,創業界是活力和將來。學術界和工業界應該有各自的職責和分工。學術界職責在於創建和發展機器學習學科,培養機器學習領域的專門人才;而大項目、大工程更應該由市場來驅動,由工業界來實施和完成。
咱們來看看機器學習在國際的發展示狀。我主要看幾所著名大學的狀況。在伯克利,一個值得深思的舉措是機器學習的教授同時在計算機系和統計學都有正式職位,並且據我所知,他們不是兼職,在兩個系都有教授課程和研究的任務的。伯克利是美國統計學的發源地,能夠說是當今統計學的聖地,然而她兼容幷蓄、不固步自封。Mike Jordan教授是統計機器學習的主要創建者和推進者,他爲機器學習領域培養了一大批優秀的學生。統計系的主任如今是Mike,然而他早年的教育並無統計或數學背景。能夠說,Berkeley的統計系成就了Mike,反過來他也爲Berkeley的統計學發展創造了新的活力,創建了無可代替的功勳。
斯坦福和伯克利的統計是公認世界最好的兩個。咱們看到,斯坦福統計系的主流方向就是統計學習,好比咱們熟知的《Elements of statistical learning》一書就是統計系幾位著名教授撰寫的。Stanford計算機科學的人工智能方向一直在世界占主導地位,特別在不肯定推理、機率圖模型、機率機器人等領域成就斐然,他們的網絡公開課 《機器學習》、《機率圖模型》以及《人工智能》等讓世界受益。
CMU是一個很是獨特的學校,她並非美國傳統的常春藤大學。能夠說,它是以計算機科學爲立校之本,它是世界第一個創建機器學習系的學校。Tom Mitchell 教授是機器學習的早期創建者之一和守護者,他一直爲該校本科生教《機器學習》課程。然而,這個學校統計學一樣強,尤爲,她是貝葉斯統計學的世界研究中心。
在機器學習領域,多倫多大學有着舉足輕重的地位,她們機器學習研究組雲集了一批世界級的學者,在「Science」 和「Nature」發表多篇論文,實屬罕見。Geoffrey Hinton 教授是偉大的思想家,但更是踐行者。他是神經網絡的創建者之一,是BP算法和深度學習的主要貢獻者。正是因爲他的不懈努力,神經網絡迎來了大爆發。Radford Neal 教授是Hinton學生,他在貝葉斯統計領域,特別是關於MCMC作出了一系列的重要工做。
國際發展示狀
那麼咱們來看看國內的現狀。總的來講,統計和計算機科學這兩個學科處於Larry所說的初期各自爲戰的階段。面向大數據的統計學與計算機科學的交叉研究是機遇也是挑戰。
我以前在浙江大學曾經參與其統計交叉學科中心的組建,由此對統計界有所瞭解。統計學在中國應該仍是一個弱勢學科,最近才被國家定爲一級學科。我國統計學處於兩個極端,一是它被看成數學的一個分支,主要研究機率論、隨機過程以及數理統計理論等。二是它被劃爲經濟學的分支,主要研究經濟分析中的應用。而機器學習在統計學界尚未被深度地關注。所以,面向於數據處理、分析的IT和統計學的深度融合有巨大的潛力。
雖然,我並無跟國內機器學習或者人工智能學術界有深刻的接觸,但我在國內計算機系工做近8年時間,一直在一線從事機器學習相關的教學與研究,應該對機器學習的現狀有必定的發言權。機器學習的確在中國獲得了普遍的關注,也取得了必定的成績,但我以爲高品質的研究成果稀缺。熱衷於對機器學習的高級階段進行一些概念炒做,它們一般沒有多大的可執行性;偏心大項目、大集成,這些本更應該由工業界來實施;而理論、方法等基礎性的研究不被重視,認爲理論沒有用處的觀點還大有市場。
計算機學科的培養體系還基本停留在它的早期發展階段。大多數學校都開設了人工智能與機器學習的課程,但不管是深度仍是前沿性都落後於學科的發展,不能適應時代的須要。人才的培養不管質量和數量都沒法知足工業界的需求。這也是國內IT公司與國際同類公司技術上有較大差距的關鍵緣由。
在這部分,個人關注則回到機器學習的研究自己上來。機器學習內容博大精深,並且新方法、新技術正源源不斷地被提出、被發現。這裏,我試圖用「多級」、「自適應」以及 「平均」等概念來簡約紛繁多彩的機器學習模型和計算方法背後的一些研究思路和思想。但願這些對你們理解機器學習已有的一些模型、方法以及將來的研究有所啓發。
首先,讓咱們來關注「多級」這個技術思想。咱們具體看三個例子。
第一個例子是隱含數據模型,它就是一種多級模型。做爲機率圖模型的一種延伸,隱含數據模型是一類重要的多元數據分析方法。隱含變量有三個重要的性質。第一,能夠用比較弱的條件獨立相關性代替較強的邊界獨立相關性。著名的de Finetti 表示定理支持這點。這個定理說,一組能夠交換的隨機變量當且僅當在某個參數給定條件下,它們能夠表示成一組條件隨機變量的混合體。這給出了一組能夠交換的隨機變量的一個多級表示。即先從某個分佈抽一個參數,而後基於這個參數,獨立地從某個分佈抽出這組隨機變量。第二,能夠經過引入隱含變量的技術來方便計算,好比指望最大算法以及更廣義的數據擴充技術就是基於這一思想。具體地,一些複雜分佈,好比t-distribution, Laplace distribution 則能夠經過表示成高斯尺度混合體來進行簡化計算。第三,隱含變量自己可能具備某種有可解釋的物理意思,這恰好符合應用的場景。好比,在隱含狄利克雷分配(LDA)模型,其中隱含變量具備某種主題的意思。
第一個例子是隱含數據模型,它就是一種多級模型。做爲機率圖模型的一種延伸,隱含數據模型是一類重要的多元數據分析方法。隱含變量有三個重要的性質。第一,能夠用比較弱的條件獨立相關性代替較強的邊界獨立相關性。著名的de Finetti 表示定理支持這點。這個定理說,一組能夠交換的隨機變量當且僅當在某個參數給定條件下,它們能夠表示成一組條件隨機變量的混合體。這給出了一組能夠交換的隨機變量的一個多級表示。即先從某個分佈抽一個參數,而後基於這個參數,獨立地從某個分佈抽出這組隨機變量。第二,能夠經過引入隱含變量的技術來方便計算,好比指望最大算法以及更廣義的數據擴充技術就是基於這一思想。具體地,一些複雜分佈,好比t-distribution, Laplace distribution 則能夠經過表示成高斯尺度混合體來進行簡化計算。第三,隱含變量自己可能具備某種有可解釋的物理意思,這恰好符合應用的場景。好比,在隱含狄利克雷分配(LDA)模型,其中隱含變量具備某種主題的意思。
Laten Dirichlet Allocation
第二個例子,咱們來看多級貝葉斯模型。在進行MCMC抽樣後驗估計時,最上層的超參數老是須要先人爲給定的,天然地,MCMC算法收斂性能是依賴這些給定的超參數的,若是咱們對這些參數的選取沒有好的經驗,那麼一個可能作法咱們再加一層,層數越多對超參數選取的依賴性會減弱。
Hierarchical Bayesian Model
第三例子,深度學習蘊含的也是多級的思想。若是把全部的節點所有的放平,而後全鏈接,就是一個全鏈接圖。而CNN深度網絡則能夠當作對全鏈接圖的一個結構正則化。正則化理論是統計學習的一個很是核心的思想。CNN和RNN是兩大深度神經網絡模型,分別主要用於圖像處理和天然語言處理中。研究代表多級結構具備更強的學習能力。
Deep Learning
咱們來看自適應這個技術思路,咱們經過幾個例子來看這個思路的做用。
第一個例子是自適應重要採樣技術。重要採樣方法一般能夠提升均勻採樣的性能,而自適應則進一步改善重要採樣的性能。
第二個例子,自適應列選擇問題。給定一個矩陣A,咱們但願從中選取部分列構成一個矩陣C,而後用CC^+A去近似原矩陣A,並且但願近似偏差儘量小。這是一個NP難問題。在實際上,能夠經過一個自適應的方式,先採出很是小一部分C_1,由此構造一個殘差,經過這個定義一個機率,而後用機率再去採一部分C_2, 把C_1 和 C_2 合在一塊兒組成C。
第三個例子,是自適應隨機迭代算法。考慮一個帶正則化的經驗風險最小問題,當訓練數據很是多時,批處理的計算方式很是耗時,因此一般採用一個隨機方式。存在的隨機梯度或者隨機對偶梯度算法能夠獲得參數的一個無偏估計。而經過引入自適應的技術,能夠減小估計的方差。
第四個例子,是Boosting分類方法。它自適應調整每一個樣本的權重,具體地,提升分錯樣本的權重,而下降分對樣本的權重。
其實,boosting 蘊含着平均思想,即我最後要談的技術思路。簡單地說,boosting是把一組弱分類器集成在一塊兒,造成一個強的分類器。第一好處是能夠下降擬合的風險。第二,能夠下降陷入局部的風險。第三,能夠擴展假設空間。Bagging一樣是經典的集成學習算法,它把訓練數據分紅幾組,而後分別在小數據集上訓練模型,經過這些模型來組合強分類器。另外這是一個兩層的集成學習方式。
經典的Anderson 加速技術則是經過平均的思想來達到加速收斂過程。具體地,它是一個疊加的過程,這個疊加的過程經過求解一個殘差最小獲得一個加權組合。這個技術的好處,是沒有增長太多的計算,每每還可使數值迭代變得較爲穩定。
另一個使用平均的例子是分佈式計算中。不少狀況下分佈式計算不是同步的,是異步的,若是異步的時候怎麼辦?最簡單的是各自獨立作,到某個時候把全部結果平均,分發給各個worker, 而後又各自獨立運行,如此下去。這就好像一個熱啓動的過程。
正如咱們已經看到,這些思想一般是組合在一塊兒使用的,好比boosting模型。咱們多級、自適應和平均的思想很直接,但的確也頗有用。
在AlphaGo和李世石九段對弈中,一個值得關注的細節是,表明Alpha Go方懸掛的是英國國旗。咱們知道AlphaGo是由deep mind團隊研發的,deep mind是一家英國公司,但後來被google公司收購了。科學成果是世界人民共同擁有和分享的財富,但科學家則是有其國家情懷和歸屬感。
位低不敢忘春秋大義,我認爲我國人工智能發展的根本出路在於教育。先哲說:「磨刀不誤砍柴工」。只有培養出一批又一批的數理基礎深厚、計算機動手執行力極強,有真正融合交叉能力和國際視野的人才時,咱們纔會有大做爲。
上述內容是根據我最近在第九屆中國R語言會議(http://china-r.org/bj2016/)和上海交通大學的兩次講座而整理出來的,特別是R會主辦方統計之都的同窗們幫我作了該次演講的記錄。感謝統計之都的太雲、凌秉和象宇的邀請,他們和統計之都的夥伴們正在作一件意義影響深遠的學術公益,大家的情懷和奉獻給了我信心來公開宣講本身多年來的真實認識和思考。感謝個人學生們幫助我準備這個講演報告,從主題的選定,內容的選取,材料的收集以及幻燈片的製做他們都給了我極大的支持,更重要的是,他們讓我在機器學習領域的求索一直不孤獨。謝謝你們!
統計之都:專業、人本、正直的中國統計學門戶網站。
關注方式:掃描下圖二維碼。或查找公衆賬號,搜索 統計之都 或 CapStat 便可。
往期推送:進入統計之都會話窗口,點擊右上角小人圖標,查看歷史消息便可。
統計之都歡迎諸位看官積極投稿,投稿信箱contact@cos.name