機器學習資源大全【轉】

本文彙編了一些機器學習領域的框架、庫以及軟件(按編程語言排序)。javascript

C++

計算機視覺

  • CCV —基於C語言/提供緩存/核心的機器視覺庫,新穎的機器視覺庫
  • OpenCV—它提供C++, C, Python, Java 以及 MATLAB接口,並支持Windows, Linux, Android and Mac OS操做系統。

通用機器學習

Closure

通用機器學習

Go

天然語言處理

  • go-porterstemmer—一個Porter詞幹提取算法的原生Go語言淨室實現
  • paicehusk—Paice/Husk詞幹提取算法的Go語言實現
  • snowball—Go語言版的Snowball詞幹提取器

通用機器學習

  • Go Learn— Go語言機器學習庫
  • go-pr —Go語言機器學習包.
  • bayesian—Go語言樸素貝葉斯分類庫。
  • go-galib—Go語言遺傳算法庫。


數據分析/數據可視化

  • go-graph—Go語言圖形庫。
  • SVGo—Go語言的SVG生成庫。

Java

天然語言處理

  • CoreNLP—斯坦福大學的CoreNLP提供一系列的天然語言處理工具,輸入原始英語文本,能夠給出單詞的基本形式(下面Stanford開頭的幾個工具都包含其中)。
  • Stanford Parser—一個天然語言解析器。
  • Stanford POS Tagger —一個詞性分類器。
  • Stanford Name Entity Recognizer—Java實現的名稱識別器
  • Stanford Word Segmenter—分詞器,不少NLP工做中都要用到的標準預處理步驟。
  • Tregex, Tsurgeon and Semgrex —用來在樹狀數據結構中進行模式匹配,基於樹關係以及節點匹配的正則表達式(名字是「tree regular expressions」的縮寫)。
  • Stanford Phrasal:最新的基於統計短語的機器翻譯系統, java編寫
  • Stanford Tokens Regex—用以定義文本模式的框架。
  • Stanford Temporal Tagger—SUTime是一個識別並標準化時間表達式的庫。
  • Stanford SPIED—在種子集上使用模式,以迭代方式從無標籤文本中學習字符實體
  • Stanford Topic Modeling Toolbox —爲社會科學家及其餘但願分析數據集的人員提供的主題建模工具。
  • Twitter Text Java—Java實現的推特文本處理庫
  • MALLET -—基於Java的統計天然語言處理、文檔分類、聚類、主題建模、信息提取以及其餘機器學習文本應用包。
  • OpenNLP—處理天然語言文本的機器學習工具包。
  • LingPipe —使用計算機語言學處理文本的工具包。


通用機器學習

  • MLlib in Apache Spark—Spark中的分佈式機器學習程序庫
  • Mahout —分佈式的機器學習庫
  • Stanford Classifier —斯坦福大學的分類器
  • Weka—Weka是數據挖掘方面的機器學習算法集。
  • ORYX—提供一個簡單的大規模實時機器學習/預測分析基礎架構。

數據分析/數據可視化

  • Hadoop—大數據分析平臺
  • Spark—快速通用的大規模數據處理引擎。
  • Impala —爲Hadoop實現實時查詢

 

Javascript

天然語言處理

  • Twitter-text-js —JavaScript實現的推特文本處理庫
  • NLP.js —javascript及coffeescript編寫的NLP工具
  • natural—Node下的通用NLP工具
  • Knwl.js—JS編寫的天然語言處理器

 

數據分析/數據可視化


通用機器學習

  • Convnet.js—訓練深度學習模型的JavaScript庫。
  • Clustering.js—用JavaScript實現的聚類算法,供Node.js及瀏覽器使用。
  • Decision Trees—Node.js實現的決策樹,使用ID3算法。
  • Node-fann —Node.js下的快速人工神經網絡庫。
  • Kmeans.js—k-means算法的簡單Javascript實現,供Node.js及瀏覽器使用。
  • LDA.js —供Node.js用的LDA主題建模工具。
  • Learning.js—邏輯迴歸/c4.5決策樹的JavaScript實現
  • Machine Learning—Node.js的機器學習庫。
  • Node-SVM—Node.js的支持向量機
  • Brain —JavaScript實現的神經網絡
  • Bayesian-Bandit —貝葉斯強盜算法的實現,供Node.js及瀏覽器使用。

Julia

通用機器學習

  • PGM—Julia實現的機率圖模型框架。
  • DA—Julia實現的正則化判別分析包。
  • Regression—迴歸分析算法包(如線性迴歸和邏輯迴歸)。
  • Local Regression —局部迴歸,很是平滑!
  • Naive Bayes —樸素貝葉斯的簡單Julia實現
  • Mixed Models —(統計)混合效應模型的Julia包
  • Simple MCMC —Julia實現的基本mcmc採樣器
  • Distance—Julia實現的距離評估模塊
  • Decision Tree —決策樹分類器及迴歸分析器
  • Neural —Julia實現的神經網絡
  • MCMC —Julia下的MCMC工具
  • GLM —Julia寫的廣義線性模型包
  • Online Learning
  • GLMNet —GMLNet的Julia包裝版,適合套索/彈性網模型。
  • Clustering—數據聚類的基本函數:k-means, dp-means等。
  • SVM—Julia下的支持向量機。
  • Kernal Density—Julia下的核密度估計器
  • Dimensionality Reduction—降維算法
  • NMF —Julia下的非負矩陣分解包
  • ANN—Julia實現的神經網絡

天然語言處理

數據分析/數據可視化

雜項/演示文稿

Lua


通用機器學習

  • Torch7
    • cephes —Cephes數學函數庫,包裝成Torch可用形式。提供幷包裝了超過180個特殊的數學函數,由Stephen L. Moshier開發,是SciPy的核心,應用於不少場合。
    • graph —供Torch使用的圖形包。
    • randomkit—從Numpy提取的隨機數生成包,包裝成Torch可用形式。
    • signal —Torch-7可用的信號處理工具包,可進行FFT, DCT, Hilbert, cepstrums, stft等變換。
    • nn —Torch可用的神經網絡包。
    • nngraph —爲nn庫提供圖形計算能力。
    • nnx—一個不穩定實驗性的包,擴展Torch內置的nn庫。
    • optim—Torch可用的優化算法庫,包括 SGD, Adagrad, 共軛梯度算法, LBFGS, RProp等算法。
    • unsup—Torch下的非監督學習包。提供的模塊與nn(LinearPsd, ConvPsd, AutoEncoder, …)及獨立算法 (k-means, PCA)等兼容。
    • manifold—操做流形的包。
    • svm—Torch的支持向量機庫。
    • lbfgs—將liblbfgs包裝爲FFI接口。
    • vowpalwabbit —老版的vowpalwabbit對torch的接口。
    • OpenGM—OpenGM是C++編寫的圖形建模及推斷庫,該binding能夠用Lua以簡單的方式描述圖形,而後用OpenGM優化。
    • sphagetti —MichaelMathieu爲torch7編寫的稀疏線性模塊。
    • LuaSHKit —將局部敏感哈希庫SHKit包裝成lua可用形式。
    • kernel smoothing —KNN、核權平均以及局部線性迴歸平滑器
    • cutorch—torch的CUDA後端實現
    • cunn —torch的CUDA神經網絡實現。
    • imgraph—torch的圖像/圖形庫,提供從圖像建立圖形、分割、創建樹、又轉化回圖像的例程
    • videograph—torch的視頻/圖形庫,提供從視頻建立圖形、分割、創建樹、又轉化回視頻的例程
    • saliency —積分圖像的代碼和工具,用來從快速積分直方圖中尋找興趣點。
    • stitch —使用hugin拼合圖像並將其生成視頻序列。
    • sfm—運動場景束調整/結構包
    • fex —torch的特徵提取包,提供SIFT和dSIFT模塊。
    • OverFeat—當前最高水準的通用密度特徵提取器。
  • Numeric Lua
  • Lunatic Python
  • SciLua
  • Lua – Numerical Algorithms
  • Lunum

演示及腳本

  • Core torch7 demos repository.核心torch7演示程序庫
    • 線性迴歸、邏輯迴歸
    • 人臉檢測(訓練和檢測是獨立的演示)
    • 基於mst的斷詞器
    • train-a-digit-classifier
    • train-autoencoder
    • optical flow demo
    • train-on-housenumbers
    • train-on-cifar
    • tracking with deep nets
    • kinect demo
    • 濾波可視化
    • saliency-networks
  • Training a Convnet for the Galaxy-Zoo Kaggle challenge(CUDA demo)
  • Music Tagging—torch7下的音樂標籤腳本
  • torch-datasets 讀取幾個流行的數據集的腳本,包括:
    • BSR 500
    • CIFAR-10
    • COIL
    • Street View House Numbers
    • MNIST
    • NORB
  • Atari2600 —在Arcade Learning Environment模擬器中用靜態幀生成數據集的腳本。

Matlab

計算機視覺

  • Contourlets —實現輪廓波變換及其使用函數的MATLAB源代碼
  • Shearlets—剪切波變換的MATLAB源碼
  • Curvelets—Curvelet變換的MATLAB源碼(Curvelet變換是對小波變換向更高維的推廣,用來在不一樣尺度角度表示圖像。)
  • Bandlets—Bandlets變換的MATLAB源碼

天然語言處理

  • NLP —一個Matlab的NLP庫

通用機器學習

數據分析/數據可視化

  • matlab_gbl—處理圖像的Matlab包
  • gamic—圖像算法純Matlab高效實現,對MatlabBGL的mex函數是個補充。

.NET

計算機視覺

  • OpenCVDotNet —包裝器,使.NET程序能使用OpenCV代碼
  • Emgu CV—跨平臺的包裝器,能在Windows, Linus, Mac OS X, iOS, 和Android上編譯。

天然語言處理

  • Stanford.NLP for .NET —斯坦福大學NLP包在.NET上的徹底移植,還可做爲NuGet包進行預編譯。

通用機器學習

  • Accord.MachineLearning —支持向量機、決策樹、樸素貝葉斯模型、K-means、高斯混合模型和機器學習應用的通用算法,例如:隨機抽樣一致性算法、交叉驗證、網格搜索。這個包是Accord.NET框架的一部分。
  • Vulpes—F#語言實現的Deep belief和深度學習包,它在Alea.cuBase下利用CUDA GPU來執行。
  • Encog —先進的神經網絡和機器學習框架,包括用來建立多種網絡的類,也支持神經網絡須要的數據規則化及處理的類。它的訓練採用多線程彈性傳播。它也能使用GPU加快處理時間。提供了圖形化界面來幫助建模和訓練神經網絡。
  • Neural Network Designer —這是一個數據庫管理系統和神經網絡設計器。設計器用WPF開發,也是一個UI,你能夠設計你的神經網絡、查詢網絡、建立並配置聊天機器人,它能問問題,並從你的反饋中學習。這些機器人甚至能夠從網絡蒐集信息用來輸出,或是用來學習。

數據分析/數據可視化

  • numl —numl這個機器學習庫,目標就是簡化預測和聚類的標準建模技術。
  • Math.NET Numerics—Math.NET項目的數值計算基礎,着眼提供科學、工程以及平常數值計算的方法和算法。支持 Windows, Linux 和 Mac上的 .Net 4.0, .Net 3.5 和 Mono ,Silverlight 5, WindowsPhone/SL 8, WindowsPhone 8.1 以及裝有 PCL Portable Profiles 47 及 344的Windows 8, 裝有 Xamarin的Android/iOS 。
  • Sho —Sho是數據分析和科學計算的交互式環境,可讓你將腳本(IronPython語言)和編譯的代碼(.NET)無縫鏈接,以快速靈活的創建原型。這個環境包括強大高效的庫,如線性代數、數據可視化,可供任何.NET語言使用,還爲快速開發提供了功能豐富的交互式shell。

Python

計算機視覺

  • SimpleCV—開源的計算機視覺框架,能夠訪問如OpenCV等高性能計算機視覺庫。使用Python編寫,能夠在Mac、Windows以及Ubuntu上運行。

天然語言處理

  • NLTK —一個領先的平臺,用來編寫處理人類語言數據的Python程序
  • Pattern—Python可用的web挖掘模塊,包括天然語言處理、機器學習等工具。
  • TextBlob—爲普通天然語言處理任務提供一致的API,以NLTK和Pattern爲基礎,並和二者都能很好兼容。
  • jieba—中文斷詞工具。
  • SnowNLP —中文文本處理庫。
  • loso—另外一箇中文斷詞庫。
  • genius —基於條件隨機域的中文斷詞庫。
  • nut —天然語言理解工具包。

通用機器學習

  • Bayesian Methods for Hackers —Python語言機率規劃的電子書
  • MLlib in Apache Spark—Spark下的分佈式機器學習庫。
  • scikit-learn—基於SciPy的機器學習模塊
  • graphlab-create —包含多種機器學習模塊的庫(迴歸,聚類,推薦系統,圖分析等),基於能夠磁盤存儲的DataFrame。
  • BigML—鏈接外部服務器的庫。
  • pattern—Python的web挖掘模塊
  • NuPIC—Numenta公司的智能計算平臺。
  • Pylearn2—基於Theano的機器學習庫。
  • hebel —Python編寫的使用GPU加速的深度學習庫。
  • gensim—主題建模工具。
  • PyBrain—另外一個機器學習庫。
  • Crab —可擴展的、快速推薦引擎。
  • python-recsys —Python實現的推薦系統。
  • thinking bayes—關於貝葉斯分析的書籍
  • Restricted Boltzmann Machines —Python實現的受限波爾茲曼機。[深度學習]。
  • Bolt —在線學習工具箱。
  • CoverTree —cover tree的Python實現,scipy.spatial.kdtree便捷的替代。
  • nilearn—Python實現的神經影像學機器學習庫。
  • Shogun—機器學習工具箱。
  • Pyevolve —遺傳算法框架。
  • Caffe —考慮了代碼清潔、可讀性及速度的深度學習框架
  • breze—深度及遞歸神經網絡的程序庫,基於Theano。

數據分析/數據可視化

  • SciPy —基於Python的數學、科學、工程開源軟件生態系統。
  • NumPy—Python科學計算基礎包。
  • Numba —Python的低級虛擬機JIT編譯器,Cython and NumPy的開發者編寫,供科學計算使用
  • NetworkX —爲複雜網絡使用的高效軟件。
  • Pandas—這個庫提供了高性能、易用的數據結構及數據分析工具。
  • Open Mining—Python中的商業智能工具(Pandas web接口)。
  • PyMC —MCMC採樣工具包。
  • zipline—Python的算法交易庫。
  • PyDy—全名Python Dynamics,協助基於NumPy, SciPy, IPython以及 matplotlib的動態建模工做流。
  • SymPy —符號數學Python庫。
  • statsmodels—Python的統計建模及計量經濟學庫。
  • astropy —Python天文學程序庫,社區協做編寫
  • matplotlib —Python的2D繪圖庫。
  • bokeh—Python的交互式Web繪圖庫。
  • plotly —Python and matplotlib的協做web繪圖庫。
  • vincent—將Python數據結構轉換爲Vega可視化語法。
  • d3py—Python的繪圖庫,基於D3.js。
  • ggplot —和R語言裏的ggplot2提供一樣的API。
  • Kartograph.py—Python中渲染SVG圖的庫,效果漂亮。
  • pygal—Python下的SVG圖表生成器。
  • pycascading

雜項腳本/iPython筆記/代碼庫

Kaggle競賽源代碼

Ruby

天然語言處理

  • Treat—文本檢索與註釋工具包,Ruby上我見過的最全面的工具包。
  • Ruby Linguistics—這個框架能夠用任何語言爲Ruby對象構建語言學工具。包括一個語言無關的通用前端,一個將語言代碼映射到語言名的模塊,和一個含有頗有英文語言工具的模塊。
  • Stemmer—使得Ruby可用 libstemmer_c中的接口。
  • Ruby Wordnet —WordNet的Ruby接口庫。
  • Raspel —aspell綁定到Ruby的接口
  • UEA Stemmer—UEALite Stemmer的Ruby移植版,供搜索和檢索用的保守的詞幹分析器
  • Twitter-text-rb—該程序庫能夠將推特中的用戶名、列表和話題標籤自動鏈接並提取出來。

通用機器學習

數據分析/數據可視化

Misc
雜項

R

通用機器學習

數據分析/數據可視化

Scala

天然語言處理

  • ScalaNLP—機器學習和數值計算庫的套裝
  • Breeze —Scala用的數值處理庫
  • Chalk—天然語言處理庫。
  • FACTORIE—可部署的機率建模工具包,用Scala實現的軟件庫。爲用戶提供簡潔的語言來建立關係因素圖,評估參數並進行推斷。

數據分析/數據可視化

  • MLlib in Apache Spark—Spark下的分佈式機器學習庫
  • Scalding —CAscading的Scala接口
  • Summing Bird—用Scalding 和 Storm進行Streaming MapReduce
  • Algebird —Scala的抽象代數工具
  • xerial —Scala的數據管理工具
  • simmer —化簡你的數據,進行代數聚合的unix過濾器
  • PredictionIO —供軟件開發者和數據工程師用的機器學習服務器。
  • BIDMat—支持大規模探索性數據分析的CPU和GPU加速矩陣庫。

通用機器學習

    • Conjecture—Scalding下可擴展的機器學習框架
    • brushfire—scalding下的決策樹工具。
    • ganitha —基於scalding的機器學習程序庫
    • adam—使用Apache Avro, Apache Spark 和 Parquet的基因組處理引擎,有專用的文件格式,Apache 2軟件許可。
    • bioscala —Scala語言可用的生物信息學程序庫
    • BIDMach—機器學習CPU和GPU加速庫。
相關文章
相關標籤/搜索