「龍書」做者Jeffery Ullman:相信你本身,自由地思考

非商業轉載請註明做譯者、出處,並保留本文的原始連接:http://www.ituring.com.cn/Article/26020html

Jeffrey David Ullman是一位計算機科學家,現任斯坦福大學的教授。他編寫的關於編譯器的教科書(各類版本很是流行被稱爲「龍書」)、關於計算理論的書(被稱爲「灰姑娘書」),以及數據結構和數據庫的相關書籍都被視爲是業界的規範。1995年,他成爲美國計算機協會(ACM)的院士,2000年被授予 Knuth獎。他還和John Hopcroft一塊兒得到2010年IEEE頒發的馮諾依曼獎章。詳細信息。算法


英文版訪談數據庫

圖靈社區:「大數據」如今在中國炒得很熱,在各類技術會議、書、討論中都有空前得熱度。你認爲「大規模數據挖掘」(massive dataset mining)在其中的角色是什麼?編程

我認爲「大規模數據挖掘」根本上和「大數據」是一個意思。但這並不意味着MMDS(《大數據》)這本書包含了關於大數據的一切。我和Anand Rajaraman博士對咱們所挑選的算法可謂是精挑細選。具體說來,就是咱們避開了如今被稱做「機器學習」的部分。如今有一些很是強大的研究者,組成了他們稱爲「機器學習」的社區,雖然他們所研究的算法——包括聚合和梯度降低——在「機器學習」開始火熱的很長時間之前,就已經很出名並且被不少人認真地研究過了。實際上,「機器學習」就是給一些特定算法加上的一個標籤,並且,也存在其餘一些算法,在有效分析數據方面,這些算法的重要性有過之而無不及。其中最爲突出的例子就是「局部敏感哈希」(LSH),它並不被認爲屬於機器學習,也不是由「機器學習」研究者發明的。我在全世界各地演講,傾聽人們關於計算挑戰的討論,我認爲不少人廣泛缺失對於LSH技術的知識。因此咱們決定在《大數據》這本書中給予LSH以足夠的重視。微信

圖靈社區:做爲一名學者同時也是教育者,您是如何應對「大數據」熱的?您爲何要持續更新《大數據》這本書,又爲何把它免費分享給你們?網絡

「大數據」說的是一組真正意義上重要並且有挑戰性的問題。它和不少如今流行的熱門詞有很大不一樣,那些概念流行了數年以後就會消失,什麼也留不下,而我認爲大數據算法的研究值得調動一切能夠調動的力量。可是接下來好像是兩個問題,一個是爲何要對這本書持續更新,另外一個是它爲何是免費的。數據結構

首先,我爲何要持續更新。幾年前,咱們很幸運地邀請到Jure Leskovec加入到斯坦福大學,如今他已經撐起了數據挖掘這門課的很大部分。Jure在必定程度上和我與Anand的觀點有所不一樣,他對機器學習算法更感興趣,他的我的研究包括了社交網絡及其相關的圖問題。因此如今,Jure做爲另外一位做者加入到這本書中來,在書中另外開闢了一個章節,關於社交網絡分析的算法。在不遠的將來,咱們打算加入大規模機器學習算法,以及大規模降維算法。另外,我在Google、斯坦福,以及其餘地方從事的我的研究,讓我加深了對於Map-Reduce算法的理解。因此我最近把這些知識融入到第二章中去了。框架

而後是,這本書爲何是免費的。有幾個緣由。其中最重要的緣由就是,我和Anand都不須要經過出版這本書獲得的那點版稅。劍橋大學出版社願意在有免費電子版的狀況下出版此書,咱們感到很高興,他們以這種方式出版也不是第一次了。他們的編輯David Tranah告訴我,他們也但願能經過書來賺錢,可是幾百年來,他們認識到,做爲一家非盈利性的大學出版社,他們的首要任務是要傳播知識。機器學習

因而這也就引起了第二個緣由:盈利性的出版社變得愈來愈貪婪,他們在美國把書價擡得極高,能夠說比那些書應有的價值高出不少。因此,沒有人買書,或者買了看完了就要再賣掉,因此書的總體銷量比七八十年代的時候還要少。因此,與其經過盈利性出版社賺取一點小錢,做者們愈來愈有理由選擇讓本身的書免費,讓更多的人讀到它。舉例來講,《大數據》這本書每一年會被下載25萬次左右。這比我全部出版過的紙版書都要多十倍以上。對於Anand和個人工做來講,沒有比這更使人欣慰的了。學習

其實對於這本書的免費,還有一個真實緣由,那就是非法文件分享系統已經徹底不尊重咱們的知識產權了,因此買咱們書的人其實都是誠實的人,他們不肯意和盜版同流合污。而這些人的錢,咱們是不肯意拿的。

圖靈社區:Map-Reduce框架更主要用於離線處理,若是在線處理有什麼計算框架值得推薦?除了Map-Reduce計算框架外,還有什麼大規模數據挖掘的框架值得關注?

我認爲「在線處理」有兩個意思。第一個是事務處理。數據挖掘整體來講不須要事務處理,因此「大數據」應用也不須要事務處理。第二個是特定查詢,你鍵入你想到的任何查詢,而後在幾秒鐘後檢查結果,若是不滿意就從新鍵入查詢。大數據應用須要較長的執行時間,因此不太適合特定查詢。有一些新系統,在這方面超過了Map-Reduce,在真正的大數據面前只須要幾秒鐘就能給查詢以反饋。你能夠看一看Dremel 系統 http://research.google.com/pubs/pub36632.html,這個系統據我理解,實際上是模仿了一個開源系統,叫作Dream。

圖靈社區:不少讀者反映這本書中有不少實例應用,都是乾貨,Rajaraman博士對此貢獻很多吧?也有讀者反映這本書對於有實踐經驗的人來講更好理解,您對此有什麼建議?

Anand對整本書都有很大貢獻。他對特定的應用很感興趣,由於他曾經在Kosmix有創業背景,而Kosmix和這些應用都有關係,其中包括廣告和協同過濾等。我很贊成的一點是,在這個學科以及任何計算機科學的學科裏,好的教育都應該包括實踐的內容。在我和Anand共同教授的課程中,咱們要求學生本身組成小的團隊,一塊兒應用所學的知識完成一個項目。這件事並無像咱們所指望的那樣順利進展,由於學生們大部分時間都用在研讀學習材料上,來不及應用。Jure加入之後,咱們把課程分紅了兩個部分。在上學期,Jure教授課程,在下學期,咱們選拔學生團隊來完成項目,這些項目是他們應用學到的知識而設計的。我、Anand, 以及Jure,咱們每一個人都會帶4支團隊。

圖靈社區:你有那麼多出色的學生,有些人和你共同寫書,有些人開創了Google。你最喜歡的學生是誰呢?在教他們的時候有什麼趣事嗎?

我可不能說我最喜歡哪一個學生。咱們都認爲Sergey Brin是個人學生中最成功的一個。可是我真的沒有教給他什麼。Anand Rajaraman和 Venky Harinarayan以及Ashish Gupta(他們三個共同創立了Junglee,而後Anand和Venky又一塊兒成立了Kosmix)也很成功。可是我幫到他們的也很少。有兩個學生在肯定個人研究方向上幫助了我。Matt Hecht讓我開始了代碼優化的研究,而Allan Van Gelder幫我進入了邏輯編程領域,這是數據庫研究的一大分支,數據記錄領域。可是我認爲最好的學生,是那些若是我沒有橫加干預把他們送上一條嶄新的道路,他們就永遠都沒法博士畢業的學生。很明顯,我可不能說具體是誰。

圖靈社區:你認爲美國大學中存在一種黑客文化嗎?這樣的文化在學業上產生了什麼影響?

對於黑客有幾種解讀。第一種,是善於攻入其餘人電腦系統,竊取數據的人。從這種意義上說,不多有學生參與這樣的活動。

另一種意思是具備編程和科技知識的人。咱們在斯坦福會常常會看見這樣的人,可是也不是特別多,軟件學院的最好的學生也有本身的興趣。斯坦福甚至不容許學生們只關注一門學科!要在斯坦福取得學士學位,你的學分只能有三分之一是來自於本專業的。這在美國學校中是比較廣泛的現象。

可是斯坦福的文化中確實有不同凡響的成分,那就是你們都能開公司。甚至比應該鼓勵的數量還要多,也有不少不成功的例子。可是使人驚奇的是不少學生畢業以後都不想去已經存在的公司上班,他們都想開創本身的公司。這裏有幾門課專門講如何「創業」,這樣的文化確實在斯坦福校園裏薪火相傳。

圖靈社區:從一位教師的角度上看,你以爲你班上的中國學生怎麼樣?你對他們有什麼建議嗎?

你可能以爲這件事頗有趣,那就是我教授的班級裏一般有一半學生是中國人。他們有不少都是在美國出生的碩士學生,可是也有不少是從中國,以及其餘亞洲地區來的。個人建議不僅送給他們,也送給全部的學生。

第一,相信你本身,而不是長輩;放眼望去,有多少偉大的計算機公司(微軟, Oracle, 蘋果, Google, Yahoo!, 亞馬遜, Facebook)是由年輕人創立的。第二,不要懼怕失敗。若是你失敗的次數沒有成功的多的話,說明你想搞定的問題根本就不值得解決。

圖靈社區:咱們計劃出版中文版的《計算機科學的基礎,C版》,我注意到您對這本書非常推崇,您以爲這本「老書」在今天的存在乎義何在?

當這本「基礎」由Freeman出版公司出版的時候,賣的並很差,最後絕版了。阿霍和我一直認爲用這種方式來展現計算機科學理論是最好的:把數學和編程看做是同一個硬幣的兩面。比方說,咱們會解釋,其實概括證實和遞歸程序是源於同一個概念。可是這本書的影響力在咱們把它免費開放在互聯網上以前並不大。我認爲這並非個巧合。在美國的高校都很不情願讓學生買昂貴的教科書,儘管學生學費加上損失的機會成本(學生在學校的時間是無法掙錢的)要100倍於教科書的價格。這樣的觀點很愚蠢,可是我責怪的是在美國把書價定得太高的出版商,這樣作損失了他們的市場。

圖靈社區:是誰設計了《大數據》的封面?後面有什麼故事嗎?

《大數據》和「龍書」的封面都是個人兒子Scott設計的。

圖靈社區您認爲面向數據集的操做系統應該具有什麼特徵?

我沒看出來數據挖掘在操做系統上也是個問題。也許選取合適的數據庫管理系統是個問題,好比說傳統的關係型系統和"no-SQL"相比較。我確實注意到SQL並無消失,人們正努力把它融入不一樣平臺上以管理大規模數據。


更多精彩,加入圖靈訪談微信!

圖片描述

相關文章
相關標籤/搜索