Introduction to Machine Learning html
https://www.amazon.cn/Introduction-to-Machine-Learning-Alpaydin-Ethem/dp/0262028182/ref=sr_1_3?s=books&ie=UTF8&qid=1464677979&sr=1-3&keywords=Introduction+to+Machine+Learning算法
atificial Intelligence: A Modern Approach (3rd Edition) 網絡
https://www.amazon.cn/Artificial-Intelligence-A-Modern-Approach-Russell-Stuart/dp/0136042597/ref=sr_1_2?s=books&ie=UTF8&qid=1464677629&sr=1-2&keywords=Artificial+Intelligence%3AA+Modern+Approach+%283rd+Edition%29機器學習
http://www.zhihu.com/question/20757000ide
zhuan工具
http://blog.csdn.net/pongba/article/details/2915005學習
http://open.163.com/special/opencourse/machinelearning.html優化
機器學習與人工智能學習資源導引google
TopLanguage(https://groups.google.com/group/pongba/)人工智能
我常常在 TopLanguage 討論組上推薦一些書籍,也常常問裏面的牛人們蒐羅一些有關的資料,人工智能、機器學習、天然語言處理、知識發現(特別地,數據挖掘)、信息檢索 這些無疑是 CS 領域最好玩的分支了(也是互相緊密聯繫的),這裏將最近有關機器學習和人工智能相關的一些學習資源歸一個類:
首先是兩個很是棒的 Wikipedia 條目,我也算是 wikipedia 的重度用戶了,學習一門東西的時候經常發現是始於 wikipedia 中間通過若干次 google ,而後止於某一本或幾本著做。
第一個是「人工智能的歷史」(History of Artificial Intelligence),我在討論組上寫道:
而今天看到的這篇文章是我在 wikipedia 瀏覽至今以爲最好的。文章名爲《人工智能的歷史》,順着 AI 發展時間線娓娓道來,中間穿插無數牛人故事,且一波三折大氣磅礴,可謂"事實比想象更使人驚訝"。人工智能始於哲學思辨,中間經歷了一個沒有心理學(尤爲是認知神經科學的)的幫助的階段,僅經過牛人對人類思惟的外在表現的概括、內省,以及數學工具進行探索,其間最使人激動的是 Herbert Simon (決策理論之父,諾獎,跨領域牛人)寫的一個自動證實機,證實了羅素的數學原理中的二十幾個定理,其中有一個定理比原書中的還要優雅,Simon 的程序用的是啓發式搜索,由於公理系統中的證實能夠簡化爲從條件到結論的樹狀搜索(但因爲組合爆炸,因此必須使用啓發式剪枝)。後來 Simon 又寫了 GPS (General Problem Solver),聽說能解決一些能良好形式化的問題,如漢諾塔。但說到底 Simon 的研究畢竟只觸及了人類思惟的一個很小很小的方面 —— Formal Logic,甚至更狹義一點 Deductive Reasoning (即不包含 Inductive Reasoning , Transductive Reasoning (俗稱 analogic thinking)。還有諸多好比 Common Sense、Vision、尤爲是最爲複雜的 Language 、Consciousness 都還謎團未解。還有一個比較有趣的就是有人認爲 AI 問題必需要以一個物理的 Body 爲支撐,一個可以感覺這個世界的物理規則的身體自己就是一個強大的信息來源,基於這個信息來源,人類可以自身與時俱進地總結所謂的 Common-Sense Knowledge (這個就是所謂的 Emboddied Mind 理論。 ),不然像一些老兄直接手動構建 Common-Sense Knowledge Base ,就很傻很天真了,須知人根據感知系統從天然界獲取知識是一個動態的自動更新的系統,而手動構建常識庫則無異於古老的 Expert System 的作法。固然,以上只總結了很小一部分我我的以爲比較有趣或新穎的,每一個人看到的有趣的地方不同,好比裏面至關詳細地介紹了神經網絡理論的興衰。因此我強烈建議你看本身一遍,別忘了裏面連接到其餘地方的連接。
順便一說,徐宥同窗打算找時間把這個條目翻譯出來,這是一個至關長的條目,看不動 E 文的等着看翻譯吧:)
第二個則是「人工智能」(Artificial Intelligence)。固然,還有機器學習等等。從這些條目出發可以找到許多很是有用和靠譜的深刻參考資料。
而後是一些書籍
書籍:
1. 《Programming Collective Intelligence》,近年出的入門好書,培養興趣是最重要的一環,一上來看大部頭很容易被嚇走的:P
2. Peter Norvig 的《AI, Modern Approach 2nd》(無爭議的領域經典)。
3. 《The Elements of Statistical Learning》,數學性比較強,能夠作參考了。
4. 《Foundations of Statistical Natural Language Processing》,天然語言處理領域公認經典。
5. 《Data Mining, Concepts and Techniques》,華裔科學家寫的書,至關深刻淺出。
6. 《Managing Gigabytes》,信息檢索好書。
7. 《Information Theory:Inference and Learning Algorithms》,參考書吧,比較深。
相關數學基礎(參考書,不適合拿來通讀):
1. 線性代數:這個參考書就不列了,不少。
2. 矩陣數學:《矩陣分析》,Roger Horn。矩陣分析領域無爭議的經典。
3. 機率論與統計:《機率論及其應用》,威廉·費勒。也是極牛的書,可數學味道過重,不適合作機器學習的。因而討論組裏的 Du Lei 同窗推薦了《All Of Statistics》並說到
機器學習這個方向,統計學也同樣很是重要。推薦All of statistics,這是CMU的一本很簡潔的教科書,注重概念,簡化計算,簡化與Machine Learning無關的概念和統計內容,能夠說是很好的快速入門材料。
4. 最優化方法:《Nonlinear Programming, 2nd》非線性規劃的參考書。《Convex Optimization》凸優化的參考書。此外還有一些書能夠參考 wikipedia 上的最優化方法條目。要深刻理解機器學習方法的技術細節不少時候(如SVM)須要最優化方法做爲鋪墊。
王寧同窗推薦了好幾本書:
《Machine Learning, Tom Michell》, 1997. 老書,牛人。如今看來內容並不算深,不少章節有點到爲止的感受,可是很適合新手(固然,不能"新"到連算法和機率都不知道)入門。好比決策樹部分就很精彩,而且這幾年沒有特別大的進展,因此並不過期。另外,這本書算是對97年前數十年機器學習工做的大綜述,參考文獻列表極有價值。國內有翻譯和影印版,不知道絕版否。
《Modern Information Retrieval, Ricardo Baeza-Yates et al》. 1999 老書,牛人。貌似第一本完整講述IR的書。惋惜IR這些年進展迅猛,這本書略有些過期了。翻翻作參考仍是不錯的。另外,Ricardo同窗如今是Yahoo Research for Europe and Latin Ameria的頭頭。
《Pattern Classification (2ed)》, Richard O. Duda, Peter E. Hart, David G. Stork 大約也是01年左右的大塊頭,有影印版,彩色。沒讀完,但若是想深刻學習ML和IR,前三章(介紹,貝葉斯學習,線性分類器)必修。
還有些經典與我只有一面之緣,沒有資格評價。另外還有兩本小冊子,論文集性質的,卻是講到了了很多前沿和細節,諸如索引如何壓縮之類。惋惜忘了名字,又被我壓在箱底,下次搬家前怕是難見天日了。
(呵呵,想起來一本:《Mining the Web - Discovering Knowledge from Hypertext Data》 )
說一本名氣很大的書:《Data Mining: Practical Machine Learning Tools and Techniques》。Weka 的做者寫的。惋惜內容通常。理論部分太單薄,而實踐部分也很脫離實際。DM的入門書已經很多,這一本應該能夠不看了。若是要學習瞭解 Weka ,看文檔就好。第二版已經出了,沒讀過,不清楚。
信息檢索方面,Du Lei 同窗再次推薦:
信息檢索方面的書如今建議看Stanford的那本《Introduction to Information Retrieval》,這書剛剛正式出版,內容固然up to date。另外信息檢索第一大牛Croft老爺也正在寫教科書,應該很快就要面世了。聽說是很是pratical的一本書。
對信息檢索有興趣的同窗,強烈推薦翟成祥博士在北大的暑期學校課程,這裏有全slides和閱讀材料:http://net.pku.edu.cn/~course/cs410/schedule.html
maximzhao 同窗推薦了一本機器學習:
加一本書:Bishop, 《Pattern Recognition and Machine Learning》. 沒有影印的,可是網上能下到。經典中的經典。Pattern Classification 和這本書是兩本必讀之書。《Pattern Recognition and Machine Learning》是很新(07年),深刻淺出,手不釋卷。
最後,關於人工智能方面(特別地,決策與判斷),再推薦兩本有意思的書,
一本是《Simple Heuristics that Makes Us Smart》
另外一本是《Bounded Rationality: The Adaptive Toolbox》
不一樣於計算機學界所採用的統計機器學習方法,這兩本書更多地着眼於人類實際上所採用的認知方式,如下是我在討論組上寫的簡介:
這兩本都是德國ABC研究小組(一個由計算機科學家、認知科學家、神經科學家、經濟學家、數學家、統計學家等組成的跨學科研究團體)集體寫的,都是引發領域內普遍關注的書,尤爲是前一本,後一本則是對 Herbert Simon (決策科學之父,諾獎得到者)提出的人類理性模型的擴充研究),能夠說是把什麼是真正的人類智能這個問題提上了檯面。核心思想是,咱們的大腦根本不能作大量的統計計算,使用fancy的數學手法去解釋和預測這個世界,而是經過簡單而魯棒的啓發法來面對不肯定的世界(好比第一本書中提到的兩個後來很是著名的啓發法:再認啓發法(cognition heuristics)和選擇最佳(Take the Best)。固然,這兩本書並無排斥統計方法就是了,數據量大的時候統計優點就出來了,而數據量小的時候統計方法就變得很是糟糕;人類簡單的啓發法則充分利用生態環境中的規律性(regularities),都作到計算複雜性小且魯棒。
關於第二本書的簡介:
1. 誰是 Herbert Simon
2. 什麼是 Bounded Rationality
3. 這本書講啥的:
我一直以爲人類的決策與判斷是一個很是迷人的問題。這本書簡單地說能夠看做是《決策與判斷》的更全面更理論的版本。系統且理論化地介紹人類決策與判斷過程當中的各類啓發式方法(heuristics)及其利弊 (爲何他們是最優化方法在信息不足狀況下的快捷且魯棒的逼近,以及爲何在一些狀況下會帶來糟糕的後果等,好比學過機器學習的都知道樸素貝葉斯方法在許多狀況下每每並不比貝葉斯網絡效果差,並且還速度快;好比多項式插值的維數越高越容易overfit,而基於低階多項式的分段樣條插值卻被證實是一個很是魯棒的方案)。
在此提一個書中提到的例子,很是有意思:兩個團隊被派去設計一個可以在場上接住拋過來的棒球的機器人。第一組作了詳細的數學分析,創建了一個至關複雜的拋物線近似模型(由於還要考慮空氣阻力之類的緣由,因此並不是嚴格拋物線),用於計算球的落點,以便正確地接到球。顯然這個方案耗資巨大,並且實際運算也須要時間,你們都知道生物的神經網絡中生物電流傳輸只有百米每秒以內,因此 computational complexity 對於生物來講是個寶貴資源,因此這個方案雖然可行,但不夠好。第二組則採訪了真正的運動員,聽取他們總結本身究竟是如何接球的感覺,而後他們作了這樣一個機器人:這個機器人在球拋出的一開始一半路程啥也不作,等到比較近了纔開始跑動,並在跑動中一直保持眼睛於球之間的視角不變,後者就保證了機器人的跑動路線必定會和球的軌跡有交點;整個過程當中這個機器人只作很是粗糙的軌跡估算。體會一下你接球的時候是否是眼睛一直都盯着球,而後根據視線角度來調整跑動方向?實際上人類就是這麼幹的,這就是 heuristics 的力量。
相對於偏向於心理學以及科普的《決策與判斷》來講,這本書的理論性更強,引用文獻也不少而經典,並且與人工智能和機器學習都有交叉,裏面也有很多數學內容,全書由十幾個章節構成,每一個章節都是由不一樣的做者寫的,相似於 paper 同樣的,很嚴謹,也沒啥廢話,跟 《Psychology of Problem Solving》相似。比較適合 geeks 閱讀哈。
另外,對理論的技術細節看不下去的也建議看看《決策與判斷》這類書(以及像《別作正常的傻瓜》這樣的傻瓜科普讀本),對本身在生活中作決策有莫大的好處。人類決策與判斷中使用了不少的 heuristics ,很不幸的是,其中許多都是在適應幾十萬年前的社會環境中創建起來的,並不適合於現代社會,因此瞭解這些思惟中的缺點、盲點,對本身成爲一個良好的決策者有很大的好處,並且這自己也是一個很是有趣的領域。