一些機器學習領域的框架、庫以及軟件(僅索引了C++、Matlab和Python語言)。python
1. C++
1.1 計算機視覺
- CCV —基於C語言/提供緩存/核心的機器視覺庫,新穎的機器視覺庫
- OpenCV—它提供C++, C, Python, Java 以及 MATLAB接口,並支持Windows, Linux, Android and Mac OS操做系統。
1.2 機器學習
2. Matlab
2.1 計算機視覺
- Contourlets —實現輪廓波變換及其使用函數的MATLAB源代碼
- Shearlets—剪切波變換的MATLAB源碼
- Curvelets—Curvelet變換的MATLAB源碼(Curvelet變換是對小波變換向更高維的推廣,用來在不一樣尺度角度表示圖像。)
- Bandlets—Bandlets變換的MATLAB源碼
2.2 天然語言處理
- NLP —一個Matlab的NLP庫
2.3 機器學習
- Training a deep autoencoder or a classifier on MNIST digits—在MNIST字符數據集上訓練一個深度的autoencoder或分類器[深度學習]。
- t-Distributed Stochastic Neighbor Embedding —獲獎的降維技術,特別適合於高維數據集的可視化
- Spider—Matlab機器學習的完整面向對象環境。
- LibSVM —支持向量機程序庫
- LibLinear —大型線性分類程序庫
- Machine Learning Module —M. A .Girolami教授的機器學習課程,包括PDF,講義及代碼。
- Caffe—考慮了代碼清潔、可讀性及速度的深度學習框架
- Pattern Recognition Toolbox —Matlab中的模式識別工具包,徹底面向對象
2.4 數據分析/數據可視化
- matlab_gbl—處理圖像的Matlab包
- gamic—圖像算法純Matlab高效實現,對MatlabBGL的mex函數是個補充。
3. Python
3.1 計算機視覺
- SimpleCV—開源的計算機視覺框架,能夠訪問如OpenCV等高性能計算機視覺庫。使用Python編寫,能夠在Mac、Windows以及Ubuntu上運行。
3.2 天然語言處理
- NLTK —一個領先的平臺,用來編寫處理人類語言數據的Python程序
- Pattern—Python可用的web挖掘模塊,包括天然語言處理、機器學習等工具。
- TextBlob—爲普通天然語言處理任務提供一致的API,以NLTK和Pattern爲基礎,並和二者都能很好兼容。
- jieba—中文斷詞工具。
- SnowNLP —中文文本處理庫。
- loso—另外一箇中文斷詞庫。
- genius —基於條件隨機域的中文斷詞庫。
- nut —天然語言理解工具包。
3.3 機器學習
- Bayesian Methods for Hackers —Python語言機率規劃的電子書
- MLlib in Apache Spark—Spark下的分佈式機器學習庫。
- scikit-learn—基於SciPy的機器學習模塊
- graphlab-create —包含多種機器學習模塊的庫(迴歸,聚類,推薦系統,圖分析等),基於能夠磁盤存儲的DataFrame。
- BigML—鏈接外部服務器的庫。
- pattern—Python的web挖掘模塊
- NuPIC—Numenta公司的智能計算平臺。
- Pylearn2—基於Theano的機器學習庫。
- hebel —Python編寫的使用GPU加速的深度學習庫。
- gensim—主題建模工具。
- PyBrain—另外一個機器學習庫。
- Crab —可擴展的、快速推薦引擎。
- python-recsys —Python實現的推薦系統。
- thinking bayes—關於貝葉斯分析的書籍
- Restricted Boltzmann Machines —Python實現的受限波爾茲曼機。[深度學習]。
- Bolt —在線學習工具箱。
- CoverTree —cover tree的Python實現,scipy.spatial.kdtree便捷的替代。
- nilearn—Python實現的神經影像學機器學習庫。
- Shogun—機器學習工具箱。
- Pyevolve —遺傳算法框架。
- Caffe —考慮了代碼清潔、可讀性及速度的深度學習框架
- breze—深度及遞歸神經網絡的程序庫,基於Theano。
3.4 數據分析/數據可視化
- SciPy —基於Python的數學、科學、工程開源軟件生態系統。
- NumPy—Python科學計算基礎包。
- Numba —Python的低級虛擬機JIT編譯器,Cython and NumPy的開發者編寫,供科學計算使用
- NetworkX —爲複雜網絡使用的高效軟件。
- Pandas—這個庫提供了高性能、易用的數據結構及數據分析工具。
- Open Mining—Python中的商業智能工具(Pandas web接口)。
- PyMC —MCMC採樣工具包。
- zipline—Python的算法交易庫。
- PyDy—全名Python Dynamics,協助基於NumPy, SciPy, IPython以及 matplotlib的動態建模工做流。
- SymPy —符號數學Python庫。
- statsmodels—Python的統計建模及計量經濟學庫。
- astropy —Python天文學程序庫,社區協做編寫
- matplotlib —Python的2D繪圖庫。
- bokeh—Python的交互式Web繪圖庫。
- plotly —Python and matplotlib的協做web繪圖庫。
- vincent—將Python數據結構轉換爲Vega可視化語法。
- d3py—Python的繪圖庫,基於D3.js。
- ggplot —和R語言裏的ggplot2提供一樣的API。
- Kartograph.py—Python中渲染SVG圖的庫,效果漂亮。
- pygal—Python下的SVG圖表生成器。
- pycascading
3.5 雜項腳本/iPython筆記/代碼庫
- pattern_classification
- thinking stats 2
- hyperopt
- numpic
- 2012-paper-diginorm
- ipython-notebooks
- decision-weights
- Sarah Palin LDA —Sarah Palin關於主題建模的電郵。
- Diffusion Segmentation —基於擴散方法的圖像分割算法集合。
- Scipy Tutorials —SciPy教程,已過期,請查看scipy-lecture-notes
- Crab—Python的推薦引擎庫。
- BayesPy—Python中的貝葉斯推斷工具。
- scikit-learn tutorials—scikit-learn學習筆記系列
- sentiment-analyzer —推特情緒分析器
- group-lasso—座標降低算法實驗,應用於(稀疏)羣套索模型。
- mne-python-notebooks—使用 mne-python進行EEG/MEG數據處理的IPython筆記
- pandas cookbook—使用Python pandas庫的方法書。
- climin—機器學習的優化程序庫,用Python實現了梯度降低、LBFGS、rmsprop、adadelta 等算法。
3.6 Kaggle競賽源代碼
- wiki challange —Kaggle上一個維基預測挑戰賽 Dell Zhang解法的實現。
- kaggle insults—Kaggle上」從社交媒體評論中檢測辱罵「競賽提交的代碼
- kaggle_acquire-valued-shoppers-challenge—Kaggle預測回頭客挑戰賽的代碼
- kaggle-cifar —Kaggle上CIFAR-10 競賽的代碼,使用cuda-convnet
- kaggle-blackbox —Kaggle上blackbox賽代碼,關於深度學習。
- kaggle-accelerometer —Kaggle上加速度計數據識別用戶競賽的代碼
- kaggle-advertised-salaries —Kaggle上用廣告預測工資競賽的代碼
- kaggle amazon —Kaggle上給定員工角色預測其訪問需求競賽的代碼
- kaggle-bestbuy_big—Kaggle上根據bestbuy用戶查詢預測點擊商品競賽的代碼(大數據版)
- kaggle-bestbuy_small—Kaggle上根據bestbuy用戶查詢預測點擊商品競賽的代碼(小數據版)
- Kaggle Dogs vs. Cats —Kaggle上從圖片中識別貓和狗競賽的代碼
- Kaggle Galaxy Challenge —Kaggle上遙遠星系形態分類競賽的優勝代碼
- Kaggle Gender —Kaggle競賽:從筆跡區分性別
- Kaggle Merck—Kaggle上預測藥物分子活性競賽的代碼(默克製藥贊助)
- Kaggle Stackoverflow—Kaggle上 預測Stack Overflow網站問題是否會被關閉競賽的代碼
- wine-quality —預測紅酒質量。