二十大Python人工智能與機器學習開源項目，TensorFlow升爲榜首

時間 2019-11-15

標籤二十 python 人工智能機器學習開源項目 tensorflow 升爲榜首欄目 Python 简体版

原文原文鏈接

本文由「AI前線」原創，原文連接：二十大Python人工智能與機器學習開源項目，TensorFlow升爲榜首
譯者｜核子可樂
編輯｜Tina

AI 前線導讀： 」咱們更新了 Python 下的各大頂級人工智能與機器學習項目。TensorFlow 憑藉着三位數的貢獻者增加量成爲新的冠軍，Scikit-learn 雖然跌落至第二，但仍然擁有至關龐大的貢獻者羣體。」html

邁入機器學習與人工智能領域絕非易事。考慮到目前市面上存在着大量可用資源，衆多懷有這一抱負的專業人士及愛好者每每發現本身很難創建正確的發展路徑。這一領域正不斷演變，咱們必須緊隨時代的步伐。爲了應對演進與創新帶來的壓倒性速度，保持機器學習認知與知識積累的最好方法無疑在於同技術社區開展合做，進而爲衆多頂尖專家所使用的開源項目及工具提供貢獻。python

在今天的文章當中，咱們更新了原有信息，旨在對此前於 2016 年 11 月發佈的二十大 Python 機器學習開源項目清單呈現出的趨勢做出一番全面整理。git

Tensorflow 憑藉着三位數的貢獻者增加量成爲新的冠軍，Scikit-learn 雖然跌落至第二，但仍然擁有至關龐大的貢獻者羣體。相較於 2016 年，各項目的貢獻者增加速度分別爲：github

TensorFlow，增加 169%，由 493 名貢獻者增長至 1324 名。
Deap，增加 86%，由 21 名貢獻者增長至 39 名。
Chainer ，增加 83%，由 84 名貢獻者增長至 154 名。
Gensim，增加 81%，由 145 名貢獻者增長至 262 名。
Neon，增加 66%，由 47 名貢獻者增長至 78 名。
Nilearn，增加 50%，由 46 名貢獻者增長至 69 名。

圖一：GitHub 上的二十大 Python 人工智能與機器學習項目。算法

項目規模與貢獻者數量成正比，顏色表示貢獻者的數量變化——紅色更高。編程

能夠看到，TensorFlow、Theano 以及 Caffe 等深度學習項目目前擁有極高人氣。後端

如下清單整理自 Github 上的貢獻者數量，以降序形式排列。感興趣的朋友亦可點擊其中的連接以查看各項目的說明文檔頁面，並以此爲起點開始協做及學習利用 Python 實現機器學習的具體方式。網絡

1.TensorFlow 最初由谷歌公司機器智能研究部門旗下 Brain 團隊的研究人員及工程師們所開發。這套系統專門用於促進機器學習方面的研究，旨在顯著加快並簡化由研究原型到生產系統的轉化。貢獻者數量增加 168%。數據結構

提交數量：28476 次。貢獻者數量：1324 名。Github URL：github.com/tensorflow/…。排名變化：+1。框架

2.Scikit-learn 是一套簡單且高效的數據挖掘與數據分析工具，可供任何人羣使用，可在多種場景下進行復用，立足 NumPy、SciPy 以及 matplotlib 構建，遵循 BSD 許可且可進行商業使用。貢獻數量增加 39%。

提交數量：22575 次。貢獻者數量：1019 名。Github URL：github.com/scikit-lear…。排名變化：-1。

3.Theano 容許你們高效對關於多維陣列的數學表達式進行定義、優化與評估。貢獻者數量增長 24%。

提交數量：27931 次。貢獻者數量：327 名。Github URL：github.com/Theano/Thea…。排名變化：0。

4.Gensim 是一套自由 Python 庫，其中包含可擴展統計語義、純文本文檔語義結構分析、語義類似性檢索等功能。貢獻者數量增長 81%。

提交數量：3549 次。貢獻者數量：262 名。Github URL：github.com/RaRe-Techno…。排名變化：+1。

5.Caffe 是一套深度學習框架，主要面向表達、速度與模塊化等使用方向。此框架由伯克利大學視覺與學習中心（簡稱 BVLC）以及社區貢獻者共同開發完成。貢獻者數量增長 21%。

提交數量：4099 次。貢獻者數量：260 名。Github URL：github.com/BVLC/caffe。排名變化：-1。

6.Chainer 是一套基於 Python 的獨立開源框架，專門面向各種深度學習模型。Chainer 提供靈活、直觀且高效的手段以實現全面的深度學習模型，其中包括遞歸神經網絡以及變分自動編碼器等最新模型。貢獻者數量增長 84%。

提交數量：12613 次。貢獻者數量：154 名。Github URL：github.com/chainer/cha…。排名變化：+3。

7.Statsmodels 是一套 Python 模塊，容許用戶進行數據探索、統計模型評估並執行統計測試。其提供包含描述統計、統計測試、繪圖功能以及結果統計的普遍列表，適用於各類不一樣類型的數據與估算工具。貢獻者數量增長 33%。

提交數量：9729 次。貢獻者數量：144 名。Github URL：github.com/statsmodels…。排名變化：0。

8.Shogun 是一款機器學習工具集其中提供多種統一且高效的機器學習（簡稱 ML）方興未艾。這套工具集可以以無縫化方式對多種數據表達、算法類以及通用型工具加以組合。貢獻者數量增長 33%。

提交數量：16362 次。貢獻者數量：139 名。Github URL：github.com/shogun-tool…。排名變化：0。

9.Pylearn2 是一套機器學習庫。其主要功能以 Theano 爲實現基礎。這意味着你們能夠利用數學表達式編寫 Pylearn2 插件（新模型以及算法等），而 Theano 將對這些表達式進行優化與穩定調整，並將其編譯至您所選定的後端（CPU 或 GPU）。貢獻者數量增長 3.5%。

提交數量：7119 次。貢獻者數量：119 名。Github URL：github.com/lisa-lab/py…。排名變化：-3。

10.NuPIC 是一個開源項目，基於所謂新皮層理論中的分層時間記憶（特立獨行 HTM）概念。HTM 理論中的部份內容已經在現實層面獲得應用、測試以及使用，而該理論的其他部分則仍處於開發階段。貢獻者數量增長 12%。

提交數量：6588 次。貢獻者數量：85 名。Github URL：github.com/numenta/nup…。排名變化：0。

11.Neon 爲 Nervana 的基於 Python 的深度學習庫。其在實現易用性的同時，亦可提供極高的性能表現。貢獻者數量增長 66%。

提交數量：1112 次。貢獻者數量：78 名。Github URL：github.com/NervanaSyst…。排名變化：0。

12.Nilearn 是一套 Python 模塊，用於對 NeroImaging 數據進行便捷學習。其利用 scikit-learn Python 工具集進行多變量統計，並可提供預測建模、分類、解碼或者鏈接分析等應用選項。貢獻者數量增長 50%。

提交數量：6198 次。貢獻者數量：69 名。Github URL：github.com/nilearn/nil…。排名變化：0。

13.Orange3 是一套同時面向新手與專家的開源機器學習與數據可視化方案。其中的大規模工具集可實現交互數據分析工做流。貢獻者數量增長 33%。

提交數量：8915 次。貢獻者數量：53 名。Github URL：github.com/biolab/oran…。排名變化：0。

14.Pymc 是一款 Python 模塊，可實現貝葉斯統計模型與擬合算法，包括馬爾可夫鏈蒙特卡洛算法。其出色的靈活性與可擴展性使其適用於多種任務。貢獻者數量增長 6%。

提交數量：2721 次。貢獻者數量：39 名。Github URL：github.com/pymc-devs/p…。排名變化：0。

15.Deap 是一種用於快速原型設計與思路測試的新型進化計算框架。其目標在於提高自滿的明確度與數據結構的透明性。其與多進程及 SCOOP 的並行機制可以完美契合。貢獻者數量增長 86%。

提交數量：1960 次。貢獻者數量：39 名。Github URL：github.com/deap/deap。排名變化：+4。

16.Annoy (全稱爲近似最近毗鄰) 是一套 C++ 庫，且綁定有 Python 以搜索空間當中與給定查詢點相信的各點。其亦可建立基於文件的大型只讀數據結構並將其映射至內存當中，從而實現多進程間共享相同數據。貢獻者數量增長 46%。

提交數量：527 次。貢獻者數量：35 名。Github URL：github.com/spotify/ann…。排名變化：+2。

17.PyBrain 是一套面向 Python 的模塊化機器學習庫，其目標在於爲各種機器學習任務及多種預約義環境提供靈活且易於使用的強大算法，從而測試並比較各種算法。貢獻者數量增長 3%。

提交數量：992 次。貢獻者數量：32 名。Github URL：github.com/pybrain/pyb…。排名變化：-2。

18.Fuel 是一套數據管道框架，旨在爲您的機器學習模型提供其須要的數據。該項目本來專供 Blocks 與 Pylearn2 神經網絡庫使用。貢獻者數量增長 10%。

提交數量：1116 次。貢獻者數量：32 名。Github URL：github.com/mila-udem/f…。排名變化：-2。

19.PyMVPA 是一套 Python 工具包，旨在簡化對大型數據集的統計學習分析流程。其提供一套擴展框架，可經過一套高級接口實現分類、迴歸、特徵選擇、數據導入與導出等多種算法。貢獻者數量增長 8%。

提交數量：9373 次。貢獻者數量：28 名。Github URL：github.com/PyMVPA/PyMV…。排名變化：-2。

20.Pattern 是一套面向 Python 編程語言的 Web 挖掘模塊。其捆綁多款工具，可用於數據挖掘（谷歌 +Twitter+ 維基百科 API、Web 爬取器、HTML DOM 解析器）、天然語言處理（詞性標註器、n-gram 搜索、情感分析、WordNet）、機器學習（向量空間模型、k-means 聚類、樸素貝葉斯 +k-NN+SVM 分類器）以及網絡分析（圖形中心性與可視化）。貢獻者數量減小 5%。

提交數量：968 次。貢獻者數量：19 名。Github URL：github.com/clips/patte…。排名變化：0。

以上貢獻者與提交次數數據截至 2018 年 2 月 13 日。

www.kdnuggets.com/2018/02/top…

更多幹貨內容，可關注AI前線，ID：ai-front，後臺回覆「AI」、「TF」、「大數據」可得到《AI前線》系列PDF迷你書和技能圖譜。