利用Python,四步掌握機器學習

爲了理解和應用機器學習技術,你須要學習 Python 或者 R。這二者都是與 C、Java、PHP 相相似的編程語言。可是,由於 Python 與 R 都比較年輕,並且更加「遠離」CPU,因此它們顯得簡單一些。相對於R 只用於處理數據,使用例如機器學習、統計算法和漂亮的繪圖分析數據, Pthon 的優點在於它適用於許多其餘的問題。由於 Python 擁有更廣闊的分佈(使用 Jango 託管網站,天然語言處理 NLP,訪問 Twitter、Linkedin 等網站的 API),同時相似於更多的傳統語言,好比 C python 就比較流行。html

在Python中學習機器學習的四個步驟

一、首先你要使用書籍、課程、視頻來學習 Python 的基礎知識node

二、而後你必需掌握不一樣的模塊,好比 Pandas、Numpy、Matplotlib、NLP (天然語言處理),來處理、清理、繪圖和理解數據。python

三、接着你必需可以從網頁抓取數據,不管是經過網站API,仍是網頁抓取模塊Beautiful Soap。經過網頁抓取能夠收集數據,應用於機器學習算法。git

四、最後一步,你必需學習機器學習工具,好比 Scikit-Learn,或者在抓取的數據中執行機器學習算法(ML-algorithm)。程序員

1.Python入門指南:

有一個簡單而快速學習Python的方法,是在 codecademy.com  註冊,而後開始編程,並學習 Python 基礎知識。另外一個學習Python的經典方法是經過 learnpythonthehardway ,一個爲廣大 Python 編程者所推薦的網站。而後還有一個優秀的 PDF, byte of python 。python社團還爲初學者準備了一個Python資源列表list of python resources。同時,還有來自 O’Reilley 的書籍 《Think Python》,也能夠從這裏免費下載 。最後一個資源是 Python 用於計量經濟學、統計學和數據分析的介紹:《Introduction to Python for Econometrics, Statistics and Data Analysis 》,其中也包含了 Python 的基礎知識。github

2.機器學習的重要模塊

關於機器學習最重要的模塊是:NumPyPandasMatplotlib 和 IPython 。有一本書涵蓋了其中一些模塊:《Data Analysis with Open Source Tools》 。而後來自於1.的免費書籍《Introduction to Python for Econometrics, Statistics and Data Analysis》,同時也包括 Numpy,Pandas,Matplotlib 和 IPython這幾個模塊。還有一個資源是 Python for Data Analysis: Data Wrangling with Pandas, NumPy, and IPython,也包含了一些很重要的模塊。如下是其餘免費模塊的相關連接: Numpy (Numerical PythonNumpy UserguideGuide to NumPy),  Pandas (Pandas, Powerful Python Data Analysis ToolkitPractical Business PythonIntros to Pandas Data Structure)  和  Matplotlib booksweb

其它資源:算法

3.從網站經過API挖掘和抓取數據

一旦理解了Python的基礎知識和最重要的模塊,你必須要學習如何從不一樣的源收集數據。這個技術也被稱做網頁抓取。傳統的源是網站文本,經過API進入twitter或linkedin一類網站獲得的文本數據。網頁抓取方面的優秀書籍包括:《 Mining the Social Web》 (免費書籍),《Web Scraping with Python》 和《 Web Scraping with Python: Collecting Data from the Modern Web》。數據庫

最後這個文本數據必需要轉換爲數值數據,經過天然語言處理(NLP)技術完成, Natural language processing with Python 和 Natural Language Annotation for Machine Learning 上面有相應的資料。其它的數據包括圖片和視頻,可使用計算機圖像技術分析: Programming Computer Vision with PythonProgramming Computer Vision with Python: Tools and algorithms for analyzing images  和  Practical Python and OpenCV ,這些是圖片分析方面的典型資源。編程

如下例子中包括能夠用基本的Python命令行實現,有教育意義,並且有趣的例子,以及網頁抓取技術。

4. Python 中的機器學習

機器學習能夠分爲四組:分類,聚類,迴歸和降維。

drop_shadows_background2

「分類」也能夠稱做監督學習,有助於分類圖片,用來識別圖片中的特徵或臉型,或者經過用戶外形來分類用戶,並給他賦不一樣的分數值。「聚類」發生在無監督學習的狀況,容許用戶在數據中識別組/集羣。「迴歸」容許經過參數集估算一個值,能夠應用於預測住宅、公寓或汽車的最優價格。

modules, packages and techniques 羅列了 Python、C、Scala、Java、Julia、MATLAB、Go、R 和 Ruby等語言中全部學習機器學習的重要模塊、包和技巧。有關Python機器學習的書籍,我特別推薦《Machine learning in action》。儘管有點短,但它極可能是機器學習中的經典,由於它提到了「集體智慧編程時代」:Programming Collective Intelligence。這兩本書幫助你經過抓取數據創建機器學習。最近關於機器學習的出版物大多都是基於模塊 scikit-learn 。因爲全部的算法在模塊中都已實現,使得機器學習很是簡單。你惟一要作的事就是告訴 Python ,應該使用哪個機器學習技巧 (ML-technique) 來分析數據。

免費的 scikit-learn教程 能夠在 scikit-learn 官方網站上找到。其餘的帖子能夠經過如下連接獲取:

關於機器學習和 Python 中模塊 scikit-learn 的書籍:

接下來數月將要發行的書籍包括:

機器學習相關的課程和博客

你想要獲得一個學位,加入在線課程,或者參加線下講習班、大本營或大學課程麼?這裏有一些關於邏輯分析、大數據、數據挖掘和數據科學的在線教育站點連接:Collection of links 。另外推薦一些在線課程–來自Udacity的Coursera 課程:machine learning  和 Data Analyst Nanodegree。還有一些關於機器學習的博客列表:List of frequently updated blogs

最後是來自 Jake Vanderplas 和 Olivier Grisel,關於探索機器學習的優秀 youtube 視頻課程

機器學習理論

想要學習機器學習的理論?那麼,《The Elements of statistical Learning》和《 Introduction to Statistical Learning》 是經常被引用的經典。而後還有另外兩本書籍:《Introduction to machine learning 》和《 A Course in Machine Learning》。這些連接包括免費的PDF,你不須要付費!若是不想閱讀這些書籍,請觀看視頻:15 hours theory of machine learning

問啊-一鍵呼叫程序員答題神器,牛人一對一服務,開發者編程必備官方網站:www.wenaaa.com

QQ羣290551701 彙集不少互聯網精英,技術總監,架構師,項目經理!開源技術研究,歡迎業內人士,大牛及新手有志於從事IT行業人員進入!

相關文章
相關標籤/搜索