利用python數據分析與挖掘相關資料總結

小生今年研二,目前主要從事軟件工程數據挖掘與分析。以前一直苦於找不到一個從數據預處理、數據分析、數據可視化和軟件建模的統一平臺。所以,小生展轉反轍學習了java,R語言,python,scala等等。最後突然發現python正是小生苦苦尋覓的「稀世珍寶」。在這裏主要總結利用python分析數據的一些工具包和相關資料,還望各位指正共同進步。html

 

主要的工具包:java

numpy: http://www.numpy.org/                                                     數組和矢量計算庫python

scipy: www.scipy.org                                                                     數學計算庫linux

pandas: http://pandas.pydata.org/                                                 數據處理與挖掘庫git

matplotlib: matplotlib.org                                                              數據可視化工具庫github

scikit-learn: http://scikit-learn.org/stable/                                   機器學習庫web

snownlp: https://pypi.python.org/pypi/snownlp/0.11.1           中文文本處理庫apache

nltk: http://www.nltk.org/                                                             英文文本處理flask

flask:http://flask.pocoo.org/                    python web輕便的開發框架windows

networkx: http://networkx.github.io/                python網絡關係畫圖

 

這些庫安裝起來比較麻煩,它們的依賴庫有不少,須要一一安裝。所以,小生建議直接安裝一個python解決方案包:https://www.enthought.com/。它支持各類操做系統(windows,linux,Mac OS等等),安裝起來特別簡單,此處再也不累贅。

 

pyspark: http://spark.apache.org/docs/latest/api/python/pyspark.html 此外若是數據量真的特別大,單機沒法知足您的需求的話,小生推薦使用pyspark工具包替您解憂。

固然除了上面的一些用得比較多的工具包以外,python大數據分析的相關軟件包還有不少,請看下面這張腦圖:

更多信息請參考網頁:http://www.xmind.net/m/WvfC

相關書籍:

《數學之美與浪潮之巔》

《python cookbook》

《Building Machine Learning Systems with Python, 2nd Edition》

《Machine Learning in Python》

《Python For Data Analysis》

《Python Data Analysis》

《python天然語言處理》

 

歡迎你們補充資料,共同進步!謝謝~

相關文章
相關標籤/搜索