史上最全的機器學習資料(下)

機器學習(Machine Learning, ML)是一門多領域交叉學科,涉及機率論、統計學、逼近論、凸分析、算法複雜度理論等多門學科。專門研究計算機怎樣模擬或實現人類的學習行爲,以獲取新的知識或技能,從新組織已有的知識結構使之不斷改善自身的性能。機器學習牽涉的編程語言十分之廣,包括了MATLAB、Julia、R、Perl、Python、Clojure、Ruby等等。
爲了讓開發者更加普遍、深刻地瞭解機器學習,雲棲社區組織翻譯了GitHub Awesome Machine Learning 資源,涵蓋24種編程語言的機器學習的框架、庫以及其餘相關資料。

Lua

通用機器學習

Torch7
  • cephes -  由Torch包裝的Cephes數學函數庫,由Stephen L. Moshier開發,庫中提供幷包裝了從Cephes數學庫中的180多個特殊的數學函數,是SciPy的核心,做用普遍;
  • autograd - Autograd自動區分本機Torch代碼,受原始的Python版本的啓發;
  • graph - Torch的圖形包;
  • randomkit -  從Numpy提取的隨機數生成包,包裝成Torch可用形式;
  • signal - 適用Torch-7的信號處理工具箱,包括FFTDCTHilbert、cepstrums、stft等變換;
  • nn - Torch的神經網絡包;
  • nngraph - 此軟件包爲Torch7 nn庫提供圖形計算;
  • nnx - 一個不穩定的實驗包,可以擴展Torch的內置nn庫;
  • rnn - 可以擴展Torch nn庫的遞推神經網絡庫,包括RNNs、LSTMs、GRUs、BRNNs、BLSTMs等等;
  • dpnn - 許多有用的功能,並非主要的神經網絡包的一部分;
  • dp - 深度學習庫,專門使用Torch7分配進行合理化的研究和開發,它強調經過優雅地使用面向對象的設計模式,從而實現靈活性;
  • optim - 針對Torch的優化庫,包括Adagrad、共軛梯度、LBFGS, RProp等算法;
  • unsup - Torch中的無監督學習包,提供了與nn相兼容的模塊((LinearPsd、ConvPsd、AutoEncoder等),以及獨立的算法(k-均值、PCA);
  • manifold -  操做流形的包;
  • svm - Torch的支持向量機庫;
  • lbfgs - 針對liblbfgs的FFT包;
  • vowpalwabbit - torch的舊式vowpalwabbit接口;
  • OpenGM - OpenGM是一個用於圖形化建模和推斷的C++庫, Lua binding提供了一種簡單的描繪圖形的方法,用Lua描繪,再用OpenGM優化;
  • sphagetti - @MichaelMathieu開發的用於torch7的Spaghetti(稀疏線型)模塊;
  • LuaSHKit - 將局部敏感哈希庫SHKit包裝成Lua可用形式;
  • kernel smoothing - KNN,內核加權平均,以及局部線性迴歸平滑器;
  • cutorch - Torch的CUDA實現;
  • cunn - Torch的CUDA神經網絡實現;
  • imgraph - Torch的圖像/圖形庫,該軟件包提供了在圖像上構造圖形、分割、組建樹、並轉換成圖像的例程;
  • videograph - Torch的視頻/圖形庫,該軟件包提供了在視頻上構造圖形、分割、組建樹、並轉換成視頻的例程;
  • saliency - 積分圖像的代碼和工具,一種基於快速積分直方圖找到興趣點的庫;
  • stitch - 使用hugin拼接圖像,並將其應用以便視頻序列;
  • sfm - 運動場景束調整/結構包;
  • fex - Torch中用於特徵提取的軟件包,提供SIFT和dSIFT模塊;
  • OverFeat - 當前最早進的通用密集特徵提取方式。

     

Numeric Lua
SciLua 

演示與腳本

torch7核心演示資源庫
  • 線性迴歸,邏輯迴歸;
  • 面部檢測器(訓練和檢測做爲獨立的演示);
  • 基於mst的分段器;
  • train-a-digit-classifier
  • train-autoencoder
  • optical flow demo
  • train-on-housenumbers
  • train-on-cifar
  • 深層網絡追蹤;
  • Kinect 演示;
  • 濾波組件可視化;
  • 網絡卓越度;
Training a Convnet for the Galaxy-Zoo Kaggle challenge(CUDA demo)
Music Tagging - Torch7的音樂標記腳本;
torch-datasets - 用於加載多個大衆數據集的腳本,數據集包括以下:
  • BSR 500
  • CIFAR-10
  • COIL
  • Street View House Numbers
  • MNIST
  • NORB
Atari2600 - 從Arcade學習環境的靜態幀中生成數據集的腳本。
 
Matlab

計算機視覺php

 

  • Contourlets –MATLAB源代碼,可以實現輪廓變換及其效用函數;
  • Shearlets –剪切波變換的MATLAB代碼;
  • Curvelets –曲波變換是小波變換的高維推廣,用於表示不一樣尺度和不一樣角度的圖像;
  • Bandlets – bandlet變換的MATLAB代碼;
  • mexopencv – 針對OpenCV庫,用於收集和開發MATLAB MEX函數的套件;

 

 

天然語言處理html

 

  •   NLP – 用於MablabNLP

 

通用機器學習前端

 

 

數據分析/數據可視化python

 

  •   matlab_gbl – 處理圖形問題的MATLAB程序包
  •   gamic - 圖形算法用純Matlab高效實現,以補充MatlabBGLMEX函數

 

.NETios

計算機視覺git

 

  •   OpenCVDotNet – OpenCV工程封裝器,用於.NET應用程序
  •   Emgu CV - OpenCV的跨平臺封裝器,可在Mono中編譯,並運行於Windows、Linus、Mac OS X、 iOS、Android等系統;
  •   AForge.NET - 開放源碼C#框架,用於計算機視覺和人工智能領域的開發和研究人員,目前已轉移到GitHub發展
  •   Accord.NET -連同AForge.NET,可爲Windows、Windows RT和Windows Phone提供圖像處理和計算機視覺算法,一些組件適用於JavaAndroid

 

天然語言處理github

 

  •   Stanford.NLP for .NET - 斯坦福大學NLP包在.NET上的完整移植,也可做爲NuGet包進行預編譯

 

通用機器學習web

 

  •   Accord-Framework – 完整的Accord.NET框架,用於機器學習,計算機視覺,計算機試聽,信號處理和統計應用
  •   Accord.MachineLearning –該軟件包是Accord.NET框架的一部分,包括支持向量機、決策樹、樸素貝葉斯模型、K均值、高斯混合模型和一些通用算法,例如適用於機器學習應用的RANSAC、交叉驗證和網格搜索
  •   DiffSharp – 一個自動微分(AD)庫,可以提供精確高效,用於機器學習和優化應用的導數(梯度、Hessians、雅可比行列式、方向導數、無矩陣Hessian-和雅可比矢量積),操做能夠嵌套到任何級別,這意味着你能夠經過利用內部微分,來計算精確的高階導數,如超參數優化函數的應用
  •   Vulpes - F#寫的Deep belief與深度學習的實現,並在Alea.cuBase下用CUDA GPU執行
  •   Encog –一種先進的神經網絡和機器學習框架。 Encog包含用於建立各種網絡的類,同時也支持爲神經網絡規範和處理數據的類。它的訓練採用多線程彈性傳播。同時使用GPU加快處理時間,此外還提供了圖形化界面來幫助建模和訓練神經網絡
  •   Neural Network Designer - DBMS管理系統和神經網絡的設計平臺,該設計應用程序使用WPF開發,是一個用戶界面,容許用戶設計本身的神經網絡,查詢網絡,建立和配置可以提出問題、並能從反饋中學習的聊天機器人,聊天機器人甚至能夠蒐集Internet上的信息,以便在返回時輸出,或者用於學習

 

數據分析/數據可視化算法

 

  •   numl - 機器學習庫,用於簡化預測和聚類的標準建模技術;
  •   Math.NET Numerics - Math.NET工程的數值基礎,旨在爲科學、工程中的數值計算提供了方法和算法,支持 Windows, Linux 和 Mac上的.Net 4.0, .Net 3.5 和 Mono Silverlight 5, WindowsPhone/SL 8, WindowsPhone 8.1 以及裝有 PCL Portable Profiles 47 及 344Windows 8, 裝有 XamarinAndroid/iOS
  •   Sho – 用於數據分析和科學計算的交互環境,可使用編譯代碼(.NET)無縫鏈接腳本(用IronPython),以實現快速、靈活的原型設計;該環境包括線性代數、數據可視化等強大高效的庫,可供任何.NET語言使用,還爲快速開發提供了功能豐富的交互式shell

 

Objectiveshell

通用機器學習

 

  •   YCML – 用於Objective-C 和Swift (OS X / iOS)的機器學習框架;
  •   MLPNeuralNet –用於 iOS and Mac OS X的快速多層感知神經網絡庫,可經過神經網絡預測新實例,創建在蘋果公司的加速框架之上,若是須要,可利用向量化操做和硬件加速操做;
  •   MAChineLearning - Objective-C多層感知庫,經過反向傳播全面支持訓練,用vDSP和vecLib實現,比同等狀況下的Java20倍,包括從Swift使用的示例代碼;
  •   BPN-NeuralNetwork – 可以實現3層神經網絡(輸入層、隱藏層和輸出層),其命名來源於BP神經網絡(BPN),可用於產品建議、用戶行爲分析、數據挖掘和數據分析;
  •   Multi-Perceptron-NeuralNetwork -它可以實現基於BPN的多感知神經網絡,並設計於無限隱藏層上;
  •   KRHebbian-Algorithm - 機器學習神經網絡中的非監督和自學習算法(調整權重);
  •   KRKmeans-Algorithm - 它實現了K-均值聚類和分類算法,可用於數據挖掘和圖像壓縮;
  •   KRFuzzyCMeans-Algorithm - 它實現了機器學習中的模糊C均值(FCM)模糊聚類/分類算法,可用於數據挖掘和圖像壓縮;

 

OCaml

通用機器學習

 

  •   Oml – 通用的統計學和機器學習庫;
  •   GPR - OCaml中高效的高斯過程迴歸算法;
  •   Libra-Tk – 用離散機率模型學習和推理的算法。

 

PHP

天然語言處理

 

 

通用機器學習

 

 

Python

計算機視覺

 

  •   Scikit-Image - Python圖像處理算法的集合;
  •   SimpleCV - 一個開源的計算機視覺框架,可以訪問如OpenCV的高性能計算機視覺庫,用Python編寫,可運行在MacWindowsUbuntu Linux等操做系統;
  •   Vigranumpy - Python綁定的VIGRA C++計算機視覺庫;
  •   OpenFace -免費的開源面部識別深層神經網絡;

 

天然語言處理

 

  •   NLTK -用人類語言數據編寫Python程序的一個領先平臺;
  •   Pattern - Python編程語言的Web挖掘模塊,有用於天然語言處理、機器學習等的工具;
  •   Quepy –一個Python框架,將天然語言問題轉換成數據庫查詢語言;
  •   TextBlob – 給常規的天然語言處理(NLP)任務提供一致的API,以NLTKPattern爲基礎,並和二者都能很好兼容;
  •   YAlign – 語句校準器,較好地用於從比較語料庫中提取並行語句;
  •   jieba -中文分詞工具;
  •   SnowNLP –用於處理中文文本的庫;
  •   spammy - 建在NLTK之上的庫,用於垃圾郵件過濾;
  •   loso – 另外一箇中文分詞庫;
  •   genius - 基於條件隨機域的中文斷詞庫;
  •   KoNLPy – 用於韓語天然語言處理的Python包;
  •   nut -天然語言理解工具包;
  •   Rosetta -文本處理工具和包裝器(例如Vowpal Wabbit);
  •   BLLIP Parser - Python綁定的BLLIP天然語言解析器(也稱爲Charniak-Johnson解析器);
  •   PyNLPl - Python的天然語言處理庫,Python的通用NLP庫,還包含一些特定模塊,用於常規的NLP格式分析,尤爲是FoLiAARPA語言模型,Moses phrasetables,GIZA++ alignments等;
  •   python-ucto - Python綁定的ucto(包括Unicode,基於規則,各類語言的的標記生成器);
  •   python-frog - Python綁定的Frog,用於Dutch的NLP套件(詞性標註,詞性還原,依存分析,NER);
  •   python-zpar - Python綁定的ZPar,統計性的部分詞性標註,constiuency解析器和英語依存句法分析;
  •   colibri-core - Python綁定的C++庫,用於以快速和存儲器高效的方式提取並使用基本語言結構,例如-grams 和skipgrams;
  •   spaCy – 使用Python和Cython,NLP的產業優點;
  •   PyStanfordDependencies –Python接口,用於將Penn Treebank樹轉換成Stanford Dependencies; 

 

通用機器學習

 

  •   machine learning -自動構建網絡接口編程接口API套件,用於支持向量機;相應的數據集(多個)存儲到一個SQL數據庫,而後生成用於預測的模型(多個),再被存儲到NoSQL數據存儲中;
  •   XGBoost - Python綁定的 eXtreme Gradient Boosting(樹)庫;
  •   Bayesian Methods for Hackers -關於Python編程機率規劃的圖書/ IPythonnotebook;
  •   Featureforge -用於建立和測試機器學習的特色的一組工具,具備兼容scikit學習的API
  •   MLlib in Apache Spark - Spark下的分佈式機器學習庫;
  •   scikit-learn -基於SciPy的機器學習模塊;
  •   metric-learn – 測度學習的Python模塊;
  •   SimpleAI - 實現了許多書Artificial Intelligence, a Modern Approach書中描述的人工智能算法,着重於提供一個易於使用、方便存檔和測試的庫;
  •   astroML – 用於天文學的機器學習和數據挖掘;
  •   graphlab-create - 實現各類機器學習模型(迴歸、聚類、推薦系統、圖形分析等)的庫,基於能夠磁盤存儲的DataFrame
  •   BigML – 用於鏈接外部服務器的庫;
  •   pattern - Python Web挖掘模塊;
  •   NuPIC - 智能計算的Numenta平臺;
  •   Pylearn2 – 基於Theano的機器學習庫;
  •   keras -基於Theano的模塊化神經網絡庫;
  •   hebel – Python下的GPU加速深度學習庫;
  •   Chainer -靈活的神經網絡架構;
  •   gensim – 主題建模工具;
  •   topik -主題建模工具包;
  •   PyBrain -另外一個Python機器學習庫;
  •   Brainstorm – 繼PyBrain後,快速、靈活、有趣的神經網絡;
  •   Crab - 靈活、快速的推薦引擎;
  •   python-recsys - 實現推薦系統的Python庫;
  •   thinking bayes – 關於貝葉斯分析的書籍;
  •   Restricted Boltzmann Machines - Python編寫的受限的玻爾茲曼機[深度學習]
  •   Bolt - Bolt在線學習工具箱;
  •   CoverTree - cover treePython實現,scipy.spatial.kdtree便捷的替代;
  •   nilearn – Python編寫的用於神經影像的機器學習;
  •   Shogun - Shogun機器學習工具箱;
  •   Pyevolve -遺傳算法框架;
  •   Caffe - 深度學習框架,開發時考慮了清潔度、可讀性和速度;
  •   breze - 基於Theano的用於深層遞歸神經網絡的庫;
  •   pyhsmm – 用於近似無監督推論的庫,存在於貝葉斯隱馬爾可夫模型(HMM模型)和隱藏式半馬爾可夫模型(HSMMs),HDP-HMM和HDP-HSMM側重於非參數貝葉斯擴展,大可能是弱極限近似值;
  •   mrjob - 讓Python程序運行在Hadoop上的庫;
  •   SKLL - scikit-learn的包裝器,使其實驗起來較容易;
  •   neurolab - https://github.com/zueve/neurolab
  •   Spearmint - Spearmint是根據論文中提出的算法執行貝葉斯優化的程序包,論文以下:Practical Bayesian Optimization of Machine Learning Algorithms. Jasper Snoek, Hugo Larochelle and Ryan P. Adams. Advances in Neural Information Processing Systems, 2012.
  •   Pebl -貝葉斯學習的Python環境;
  •   Theano - 在Python中,用優化的GPU元編程代碼生成陣列導向的優化數學編譯器;
  •   TensorFlow -使用數據流圖進行數值計算的開源軟件庫;
  •   yahmm – Python下的隱馬爾可夫模型,考慮到速度和效率,用Cython來實現;
  •   python-timbl - 一個Python擴展模塊,可包裝完整的TiMBL C ++編程接口;Timbl是一個詳盡的k最近鄰域機器學習工具包;
  •   deap -進化算法框架;
  •   pydeep – Python下的深度學習;
  •   mlxtend -工具庫,包括對數據科學和機器學習任務等很是有用的工具;
  •   neon - Nervana基於Python高性能深度學習框架[深度學習]
  •   Optunity – 該庫致力於用一個簡單、輕量級的API直接替換網格搜索以實現自動超參數優化;
  •   Neural Networks and Deep Learning - 《神經網絡和深度學習》一書中的代碼示例[深度學習]
  •   Annoy - 近似最近鄰算法的實現;
  •   skflow -爲TensorFlow簡化的界面,模仿了Scikit Learn;
  •   TPOT - 使用遺傳編程自動建立並優化了機器學習流水線的工具;
  •   pgmpy – 用於機率圖解模型的Python庫;
  •   DIGITS -深度學習GPU訓練系統(DIGITS)是用於訓練深度學習模型的Web應用程序;
  •   Orange –同時適用於初學者和專家的開源數據可視化和數據分析;
  •   MXNet - 輕量級、便攜式、靈活的分佈式/深度學習系統,可對動態的、突變數據流調度部署,同時也支持PythonRJuliaGoJavascript 等編程語言。
  •   milk – 強調監督分類法的機器學習工具包;
  •   TFLearn -針對TensorFlow的高層次API深度學習庫

 

數據分析/數據可視化

 

  •   SciPy -基於Python的數學、科學、工程開源軟件生態系統;
  •   NumPy - Python科學計算基礎包;
  •   Numba - Python的低級虛擬機JIT編譯器,由Cython and NumPy的開發者編寫,供科學計算使用;
  •   NetworkX - 用於複雜網絡使用的高效率軟件;
  •   igraph - 綁定igraph 庫-通用圖形庫 ;
  •   Pandas - 該庫提供了高性能、易用的數據結構及數據分析工具;
  •   Open Mining - Python中的商業智能工具(Pandas web接口);
  •   PyMC - Markov Chain Monte Carlo(MCMC)採樣工具包;
  •   zipline - Python的算法交易庫;
  •   PyDy - 全名Python Dynamics,協助基於NumPy, SciPy, IPython以及 matplotlib的動態建模工做流;
  •   SymPy - Python中的符號數學庫;
  •   statsmodels - Python中的統計建模及計量經濟學庫;
  •   astropy - Python中的天文學程序庫;
  •   matplotlib - Python中的2D繪圖庫;
  •   bokeh -Python的交互式Web繪圖庫;
  •   plotly - Python 和matplotlib的協做web繪圖庫;
  •   vincent - Python到 Vega的轉換器;
  •   d3py - Python的繪圖庫,基於D3.js
  •   ggplot - 和R語言裏的ggplot2提供一樣的API
  •   ggfortify - 統一到ggplot2流行的R包的接口;
  •   Kartograph.py - Python中渲染SVG圖的庫,效果出衆R;
  •   pygal - Python的SVG圖表生成器;
  •   PyQtGraph - 基於PyQt4/PySideNumPyde Python編寫的圖形和GUI庫;
  •   pycascading
  •   Petrel - 純Python中用於編寫、提交、調試和監視Storm拓撲結構的工具;
  •   Blaze - NumPy和Pandas的大數據接口;
  •   emcee - Python集成採樣工具包用於仿射不變的MCMC
  •   windML - 用於風能分析與預測的Python框架;
  •   vispy - 基於GPU的高性能交互式OpenGL 2D/3D數據可視化庫;
  •   cerebro2 - NuPIC的一個基於Web的可視化和調試平臺;
  •   NuPIC Studio - 一個all-in-one NuPIC 分層時間可視化和調試的超級工具!
  •   SparklingPandas Pandas on PySpark (POPS)
  •   Seaborn -  基於matplotlib的Python可視化庫;
  •   bqplot -  Jupyter (IPython)中用於繪圖的API
  •   pastalog - 用於訓練神經網絡的簡單、實時可視化的服務器;
  •   caravel - 可視、直觀、互動的數據探索平臺。

雜項腳本/iPython筆記/代碼庫

 

Kaggle競賽源碼

 

 

Ruby

天然語言處理

 

  •   Treat - 文本檢索與註釋工具包,目前爲止我見過Ruby上的最全面的工具包;
  •   Ruby Linguistics - Linguistics框架能夠用任何語言爲Ruby對象構建語言學工具,它包括一個語言無關的通用前端、一個將語言代碼映射到語言名的模塊以及一個含有多英文語言工具的模塊;
  •   Stemmer - 使Ruby能夠用 libstemmer_c中的接口;
  •   Ruby Wordnet - WordNet的Ruby接口庫;
  •   Raspell - raspell是一個綁定到Ruby的接口;
  •   UEA Stemmer -UEALite Stemmer的Ruby移植版,用來供搜索和檢索用的保守的詞幹分析器 ;
  •   Twitter-text-rb - 一個能夠將推特中的用戶名、列表和話題標籤自動鏈接並提取出來的庫。

 

通用機器學習

 

 

數據分析/數據可視化

 

  •   rsruby - Ruby - R的橋樑;
  •   data-visualization-ruby - 關於數據可視化的Ruby Manor演示的源代碼和支持內容;
  •   ruby-plot - 將gnuplot封裝爲Ruby形式,尤爲適合將ROC曲線轉化爲svg文件;
  •   plot-rb - 基於Vega和D3的ruby繪圖庫;
  •   scruffy - Ruby中的出色的圖形工具包;
  •   SciRuby
  •   Glean - 數據管理工具;
  •   Bioruby
  •   Arel

 

雜項

 

 

Rust

通用機器學習

 

  •   deeplearn-rs - deeplearn-rs 提供了使用矩陣乘法、加法簡單的網絡,遵循MIT協議;
  •   rustlearn - 支持邏輯迴歸、支持向量機、決策樹和隨機森林的機器學習框架;
  •   rusty-machine - 一個純rust語言機器學習庫;
  •   leaf - 用於機器智能的開源框架,其靈感來自TensorFlow和 Caffe,遵循 MIT 協議;
  •   RustNN - RustNN 是一個前向反饋神經網絡庫。

 

R

通用機器學習

 

  •   ahaz - ahaz:用於正則化半參數風險迴歸模型;
  •   arules - arules:頻繁項集與關聯規則的挖掘
  •   bigrf - bigrf:大隨機森林:大型數據集的分類和迴歸分析;
  •   bigRR - bigRR: 廣義嶺迴歸 (在P>>N的狀況特具備特殊優點);
  •   bmrm - bmrm: 正則化風險最小方案集;
  •   Boruta - Boruta: 一種用於全部相關特徵選擇的包裝算法
  •   bst - bst: 梯度推動(Gradient Boosting);
  •   C50 - C50: C5.0決策樹和基於規則模型;
  •   caret - 分類與迴歸訓練:R語言150個機器學習算法的統一接口;
  •   caretEnsemble - 用於擬合和建立多符號模型的框架 ;
  •   Clever Algorithms For Machine Learning(機器學習的巧妙算法)
  •   CORElearn - 分類、迴歸、特徵評價與序評價;
  •   CoxBoost - CoxBoost: 基於提高單一存活點或競爭風險的Cox模型;
  •   Cubist - Cubist: 基於規則和實例的迴歸模型;
  •   earth - 多元自適應迴歸樣條模型
  •   evtree - evtree: 全局最優樹的進化學習;
  •   fpc - 靈活的聚類程序;
  •   frbs - frbs: 基於模糊規則的分類和迴歸任務系統
  •   GAMBoost - 基於似然法的廣義線性和加性模型
  •   gamboostLSS - GAMLSS的Boosting方法;
  •   gbm - 廣義迴歸模型;
  •   glmnet - 用於實現套索和彈性網絡化的廣義線性模型
  •   glmpath - Cox比例風險模型和廣義線性模型的L1正則化路徑;
  •   GMMBoost - 廣義混合模型中基於似然估計的Boosting;
  •   grplasso - 採用羣體套索懲罰的用戶指定模型;
  •   grpreg - 分組協變量回歸模型的正則化路徑;
  •   h2o - 大規模快速、並行、分佈式機器學習算法框架--深度學習、隨機森林、GBMKMeansPCA、GLM
  •   hda - 異方差判別分析
  •   統計學習概論(Introduction to Statistical Learning
  •   ipred - ipred: 改進的預測模型;
  •   kernlab - kernlab: 基於內核的機器學習實驗室;
  •   klaR - klaR: 分類和可視化;
  •   lars - lars:最小角迴歸、套索和向前逐步迴歸; 
  •   lasso2 - lasso2: L1約束估計又名「套索」;
  •   LiblineaR - LiblineaR:基於LiblinearCC++ 庫線性預測模型;
  •   LogicReg - LogicReg: 邏輯迴歸;
  •   Machine Learning For Hackers 
  •   maptree - 映射、剪切和圖形樹模型;
  •   mboost - 基於模型的Boosting
  •   medley - 使用貪婪逐步算法的混合迴歸模型;
  •   mlr -  R語言中的機器學習;
  •   mvpart - 多元分割
  •   ncvreg - SCAD的正則化路徑和MCP懲罰迴歸模型;
  •   nnet - 前向反饋神經網絡和多項式對數線性模型;
  •   oblique.tree - 用於數據分類的Oblique Trees ;
  •   pamr - 微陣列預測分析;
  •   party - 一個遞歸Partytioning的實驗室;
  •   partykit -一個遞歸Partytioning的工具包;
  •   penalized - 在廣義線性模型和Cox模型中L1(套索和融合套索)和L2(嶺)懲罰估計;
  •   penalizedLDA - 採用線性判別進行懲罰分類;
  •   penalizedSVM - 採用懲罰功能的特徵選擇向量機;
  •   quantregForest - 分位數迴歸森林算法;
  •   randomForest - 用於分類和迴歸的Breiman和Cutler隨機森林算法;
  •   randomForestSRC - 用於生存、迴歸和分類的隨機森林算法(RF-SRC);
  •   rattle - R中的數據挖掘的圖形用戶界面;
  •   rdetools - 用於在特徵空間的相關維度估計;
  •   REEMtree - 縱向(面板)數據的隨機效應迴歸樹
  •   relaxo - 放鬆的套索;
  •   rgenoud - R語言版的遺傳優化程序包;
  •   rgp -  R 語言中的遺傳程序框架;
  •   Rmalschains - R語言中基於局部搜索鏈的模因算法進行持續優化算法;
  •   rminer - rminer: 在分類和迴歸中數據挖掘(例如NNSVM)方法的簡單應用;
  •   ROCR - 用於評分分類器性能的可視化;
  •   RoughSets - 採用粗糙集與模糊粗糙集理論的數據分析包;
  •   rpart - 遞歸分割與迴歸樹;
  •   RPMM - 遞歸分割混合模型;
  •   RSNNS - R中的神經網絡,採用了Stuttgart神經網絡模擬器;
  •   RWeka - R/Weka 接口;
  •   RXshrink - 廣義嶺或最小角迴歸的最大似然收縮;
  •   sda - 收縮判別分析和CAT得分變量選擇;
  •   SDDA - 逐步對角判別分析;
  •   SuperLearner and subsemble - 多算法集成學習包;
  •   svmpath - SVM向量路徑算法;
  •   tgp - 高斯型貝葉斯模型;
  •   tree - 分類與迴歸樹;
  •   varSelRF - varSelRF: 使用隨機森林的變量選擇;
  •   XGBoost.R - 結合R的極值梯度Boosting 庫;
  •   Optunity - 經過一個簡單、輕量的API可方便更換網格搜索,用於自動化參數優化的庫, Optunity 是由Python編寫而成但無縫銜接到R
  •   igraph - 通用圖形庫;
  •   MXNet - 輕量級、便攜式、靈活的分佈式/深度學習系統,可對動態的、突變數據流調度部署,同時也支持PythonRJuliaGoJavascript 等編程語言。

 

數據分析/數據可視化

 

  • ggplot2 - 一個基於圖形語法的數據可視化包。

SAS

通用機器學習

 

  •   Enterprise Miner - 經過使用GUI或代碼建立可部署模型進行數據挖掘和機器學習;
  •   Factory Miner - 經過使用GUI,橫跨多個市場或客戶自動建立可部署機器學習模型。

 

數據分析/數據可視化

 

  •   SAS/STAT - 用於高級統計分析; 
  •   University Edition - 免費!其中包括數據分析和可視化的必要SAS軟件包,以及在線SAS課程。

 

高性能機器學習

 

 

天然語言處理

 

 

示例和腳本

 

  •   ML_Tables - 包含機器學習最佳時間的簡明速查表;
  •   enlighten-apply - SAS機器學習技術應用的相關代碼和資料;
  •   enlighten-integration - 用於說明SASJavaPMMLPythonR中的分析技術相結合的代碼和材料;
  •   enlighten-deep - 用於說明SAS中神經網絡及其多個隱藏層的相關代碼和材料;
  •   dm-flow - 關於SAS Enterprise Mine處理流程圖的庫,經過具體的數據挖掘實例幫助您學習。

Scala

天然語言處理

 

  •   ScalaNLP - ScalaNLP系列機器學習和數值計算庫的集合; 
  •   Breeze - Breeze是Scala中的的數值處理庫;
  •   Chalk - Chalk是一個天然語言處理庫.
  •   FACTORIE - FACTORIE是可部署的機率建模工具包,用Scala實現的軟件庫。爲用戶提供簡潔的語言來建立關係因素圖,評估參數並進行推斷 。

 

數據分析/數據可視化

 

  •   MLlib in Apache Spark - Spark中的分佈式機器學習庫;
  •   Scalding - Cascading的Scala AP接口;
  •   Summing Bird - 使用Scalding 和 Storm進行Streaming MapReduce
  •   Algebird - Scala中的抽象代數工具;
  •   xerial - Scala中的數據管理工具;
  •   simmer - 一個進行代數聚合的unix過濾器,用於簡化你的數據;
  •   PredictionIO - PredictionIO是一個供軟件開發者和數據工程師用的機器學習服務器;
  •   BIDMat - 用於支持大規模探索性數據分析的CPU和GPU加速矩陣庫;
  •   Wolfe - 描述性機器學習(Declarative Machine Learning);
  •   Flink - 分佈式數據流處理和批量數據處理的開源計算平臺
  •   Spark Notebook - 使用ScalaSpark的互動數據科學。

 

通用機器學習

 

  •   Conjecture - Scalding中的可擴展的機器學習框架;
  •   brushfire - Scala中的分佈式決策樹集成學習工具;
  •   ganitha - 基於scalding的機器學習程序庫;
  •   adam - 一個使用Apache Avro、Apache Spark 和 Parquet的基因組處理引擎,有其專用的文件格式,採用Apache 2.0協議許可;
  •   bioscala -Scala編程語言可用的生物信息庫;
  •   BIDMach - 用於CPU和GPU加速的機器學習庫;
  •   Figaro - 用於構造機率模型的Scala庫;
  •   H2O Sparkling Water - 用於H2O 和Spark 交互操做;
  •   FlinkML in Apache Flink - Flink中的分佈式機器學習庫;
  •   DynaML - 用於機器學習的Scala/REPL

 

Swift

通用機器學習

 

  •   Swift AI - Swift語言編寫的高度優化的人工智能和機器學習;
  •   BrainCore - 支持iOS和 OS X的神經網絡框架;
  •   DeepLearningKit--支持蘋果iOS OS X和tvOS系統的開源深度學習框架。目前支持在蘋果操做系統上利用Caffe訓練深度卷積網絡模型;
  •   AIToolbox - A toolbox framework of AI modules written in Swift: Swift語言編寫的人工智能(AI)模型工具框架:圖/樹、線性迴歸、支持向量機、神經網絡、PCAKMeans、遺傳算法、MDP和 混合高斯模型。
以上爲「史上最全機器學習資料」的所有內容,更多精彩敬請期待。

譯者:劉崇鑫   校對:王殿進
相關文章
相關標籤/搜索