伯樂在線Python資源板塊:http://hao.jobbole.com/?catid=144。有介紹了150多種python包,你想要的幾乎均可以在裏面找到.html
1.numpy前端
科學計算python
來自《用Python作科學計算》http://sebug.net/paper/books/scipydoc/numpy_intro.html(中文版)mysql
來自圖靈社區:http://www.ituring.com.cn/minibook/804(中文版)git
來自sciPy:http://wiki.scipy.org/Tentative_NumPy_Tutorial(英文版)github
2.pandasweb
用於科學計算算法
官網:http://pandas.pydata.org/pandas-docs/stable/index.htmlsql
10分鐘搞定pandas(來自官網):數據庫
pandas基礎(博友的博客):http://my.oschina.net/lionets/blog/277847 (中文版)
pandas數據規整(博友博客):http://my.oschina.net/lionets/blog/279785(中文版)
3.sklearn
用於機器學習的包
這個就不用說了,官網資料最全:http://scikit-learn.org/stable/ 。大大小小的機器學習包以及降維、特徵抽取、計算得分、模型選擇、集成分類器等一大堆的好資料,可經過目錄來找:http://scikit-learn.org/0.15/user_guide.html,http://scikit-learn.org/stable/modules/classes.html#module-sklearn.linear_model
4.xml
讀取xml文件可有多種方式,python自帶的xml,lxml,beautifulsoup(注重html解析)
來自python標準庫:https://docs.python.org/2/library/markup.html
python讀取xml文件(博友博客):http://www.cnblogs.com/fnng/p/3581433.html
lxml官網:http://lxml.de/
W3CSCHOOL.CC:http://www.w3cschool.cc/python/python-xml.html
5.networkx
用於社交網絡,裏面定義的不少圖模型,幾乎不少東西均可以化爲圖模型,這個包比較有用。前提是善於將目前的問題化爲圖模型,再用這神器。
github:http://networkx.github.io/documentation/latest/examples/index.html
6.ctype
用於調用和C庫連接。
7.nltk
《python天然語言處理》:http://download.csdn.net/download/daogepiqian/8528615
我愛天然語言處理:http://www.52nlp.cn/python天然語言處理實踐-在nltk中使用斯坦福中文分詞器
8.matplotlib
python畫圖:官網http://matplotlib.org/api/pyplot_api.html#matplotlib.pyplot.plot
9.gensim
天然語言處理之主題模型:
官網:http://radimrehurek.com/gensim/index.html
來自我愛天然語言處理:http://www.52nlp.cn/如何計算兩個文檔的類似度二
10.sympy
Python的數學符號計算庫:官網http://www.sympy.org/en/index.html
用python作科學計算:http://sebug.net/paper/books/scipydoc/sympy_intro.html
11.pyspark
屬於python的Spark
官網:http://spark.apache.org/docs/0.9.0/python-programming-guide.html
文檔:http://spark.apache.org/docs/0.9.0/api/pyspark/index.html
#------------------------------------------------------------------------------
工具篇:
T0.開發工具
anaconda:
集成了python至關多的包,幾乎大部分均可以在這裏找獲得,numpy, scipy, sklearn, pandas, nltk等等,但彷佛沒有gensim這個作LDA的包,要本身下載。https://store.continuum.io/cshop/anaconda/
canopy
沒怎麼用過,也貼上來:https://www.enthought.com/products/canopy/
annaconda和canopy兩個工具的介紹(博友博客):http://www.cnblogs.com/sdlypyzq/p/3909107.html
T1.crfsuite
CRF工具之一crfsuite,比crf++效果還好的工具,裏面以組塊分析爲例子:http://www.chokkan.org/software/crfsuite/tutorial.html,http://www.chokkan.org/software/crfsuite/manual.html
crfsuite在ubuntu下的一些配置:http://blog.sina.com.cn/s/blog_e8c03f9f0102v5py.html
CRF++,官網:http://taku910.github.io/crfpp/,0.58版本下載(有的時候在官網下載不下來,又有的時候版本):http://pan.baidu.com/s/1c0nj7iw
#------------------------------------------------------------------------------
功能篇:
F0.天然語言處理
nltk
polyglot:支持上百種語言的斷詞、語種檢測、命名實體識別、詞性標註、情感分析、詞嵌入、形態分析等。
文檔:http://polyglot.readthedocs.org/en/latest/
github:https://github.com/aboSamoor/polyglot
F1.機器學習
伯樂頭條文章介紹:http://python.jobbole.com/81135/
sklearn, nltk
svmlight: 能夠解決分類迴歸排序等多種問題,用SVMs解決機器學習問題。
libsvm: 既然談到svmlight,那也要談下libsvm, 同是用SVMs實現的,用來解決機器學習問題的工具。
libsvm官網:http://www.csie.ntu.edu.tw/~cjlin/libsvm/
python anaconda有集成libsvm包,在sklearn包裏面的svm包裏。
>>>from sklearn.svm import libsvm #可破
#==========================================
scikit-learn
包括分類、迴歸、聚類系列算法,主要算法有SVM、邏輯迴歸、樸素貝葉斯、Kmeans、DBSCAN等
NLTK
提供超過50個語料庫和詞典資源,文本處理庫包括分類、分詞、詞幹提取、解析、語義推理。
Mlpy
迴歸
leastsquares, ridgeregression, leastangle regression, elastic net, kernel ridge regression, supportvector machines (SVM), partialleast squares (PLS)
分類
linear discriminant analysis (LDA), Basic perceptron, Elastic Net, logistic regression, (Kernel) Support VectorMachines (SVM), Diagonal Linear Discriminant Analysis (DLDA), Golub Classifier,Parzen-based, (kernel) Fisher Discriminant Classifier, k-nearest neighbor,Iterative RELIEF, Classification Tree, Maximum Likelihood Classifier
聚類
hierarchical clustering, Memory-saving HierarchicalClustering, k-means
維度約減
FDA,SRDA,PCA。
Shogun
feature表示,feature預處理, 核函數表示,核函數標準化,距離表示,分類器表示,聚類方法,分佈,性能評價方法,迴歸方法,結構化輸出學習器。
MDP
PyBrain
包括神經網絡、強化學習(及兩者結合)、無監督學習、進化算法。
BigML
PyML
Milk主要提供特徵選擇、模型選擇、組合分類器、分類評估等功能。
其重點是提供監督分類法與幾種有效的分類分析:SVMs(基於libsvm),K-NN,隨機森林經濟和決策樹。它還能夠進行特徵選擇。
PyMVPA
分類、迴歸、特徵選擇、數據導入導出、可視化等。
Pattern
Python的web挖掘模塊,它綁定了 Google、Twitter 、WikipediaAPI,提供網絡爬蟲、HTML解析功能,文本分析包括淺層規則解析、WordNet接口、句法與語義分析、TF-IDF、LSA等,還提供聚類、分類和圖網絡可視化的功能。
pyrallel
基於分佈式計算模式的機器學習和半交互式的試驗項目,可在小型集羣上運行。
Monte
能夠迅速構建神經網絡、條件隨機場、邏輯迴歸等模型,使用inline-C優化,極易使用和擴展。
Orange
一個基於組件的數據挖掘和機器學習軟件套裝,它的功能即友好,又很強大,快速而又多功能的可視化編程前端,以便瀏覽數據分析和可視化,綁定了 Python以進行腳本開發。它包含了完整的一系列的組件以進行數據預處理,並提供了數據賬目,過渡,建模,模式評估和勘探的功能。其由C++ 和 Python開發,它的圖形庫是由跨平臺的Qt框架開發。
Theano
用來定義、優化和模擬數學表達式計算,用於高效的解決多維數組的計算問題。
Pylearn2
能夠處理向量、圖像、視頻等數據,提供MLP、RBM、SDA等深度學習模型。
NuPIC
一個以HTM學習算法爲工具的機器智能平臺。HTM是皮層的精確計算方法。HTM的核心是基於時間的持續學習算法和儲存和撤銷的時空模式。NuPIC適合於各類各樣的問題,尤爲是檢測異常和預測的流數據來源。
Nilearn
Fuel一個可以快速統計學習神經影像數據的Python模塊。它利用Python語言中的scikit-learn 工具箱和一些進行預測建模,分類,解碼,連通性分析的應用程序來進行多元的統計。
有一個共享如MNIST, CIFAR-10 (圖片數據集), Google’s One Billion Words (文字)這類數據集的接口。你使用他來經過不少種的方式來替代本身的數據。
Bob
一個免費的信號處理和機器學習的工具。它的工具箱是用Python和C++語言共同編寫的,它的設計目的是變得更加高效而且減小開發時間,它是由處理圖像工具,音頻和視頻處理、機器學習和模式識別的大量軟件包構成的。
Skdata
機器學習和統計的數據集的庫程序。這個模塊對於玩具問題,流行的計算機視覺和天然語言的數據集提供標準的Python語言的使用。
IEPY
一個專一於關係抽取的開源性信息抽取工具。它主要針對的是須要對大型數據集進行信息提取的用戶和想要嘗試新的算法的科學家。
Quepy
經過改變天然語言問題從而在數據庫查詢語言中進行查詢的一個Python框架。他能夠簡單的被定義爲在天然語言和數據庫查詢中不一樣類型的問題。因此,你不用編碼就能夠創建你本身的一個用天然語言進入你的數據庫的系統。
Hebel
經過PyCUDA來進行GPU和CUDA的加速。它是最重要的神經網絡模型的類型的工具並且能提供一些不一樣的活動函數的激活功能,例如動力,涅斯捷羅夫動力,信號丟失和中止法。
mlxtend
由有用的工具和平常數據科學任務的擴展組成的一個庫程序。
nolearn
包容納了大量能對你完成機器學習任務有幫助的實用程序模塊。其中大量的模塊和scikit-learn一塊兒工做,其它的一般更有用。
Ramp
一個在Python語言下制定機器學習中加快原型設計的解決方案的庫程序。他是一個輕型的pandas-based機器學習中可插入的框架,它現存的Python語言下的機器學習和統計工具(好比scikit-learn,rpy2等)Ramp提供了一個簡單的聲明性語法探索功能從而可以快速有效地實施算法和轉換。
Feature Forge
提供了一組工具,它會讓你在許多機器學習程序使用中很受用。當你使用scikit-learn這個工具時,你會感受到受到了很大的幫助。(雖然這隻能在你有不一樣的算法時起做用。)
REP
有一個統一的分類器包裝來提供各類各樣的操做,例如TMVA, Sklearn, XGBoost, uBoost等等。而且它能夠在一個羣體以平行的方式訓練分類器。同時它也提供了一個交互式的情節。
Python學習機器樣品
用亞馬遜的機器學習建造的簡單軟件收集。www.github.com/awslabs/machine-learning-samples。
python-ELM
在Python語言下基於scikit-learn的極端學習機器的實現。www.github.com/dclambert/Python-ELM。
這部分主要參考兩個網站:
#==========================================
F2.系統相關
os:與操做系統有關的python包,好比說系統路徑、文件分隔符等等os.path、os.sep,比較經常使用。
來自51CTO.com:http://developer.51cto.com/art/201003/186045.htm
sys:sys.getdefaultencoding()經常使用
F3.零散基礎
random, time
F4:推薦系統
carb:官網:http://muricoca.github.io/crab/tutorial.html
recsys(實現了SVD、Neighborhood SVD推薦算法):github:https://github.com/ocelma/python-recsys
#------------------------------------------------------------------------------
在遇到的過程當中,待不斷增長。博友如果看到好的文檔,也歡迎推薦。
固然,可能有各類緣由致使連接失效,致使沒法看到相關文檔,沒必要擔憂,過段時間會好些。