5月Github上最熱門的數據科學和機器學習項目TOP5

時間 2019-11-29

標籤 5月 github 熱門數據科學機器學習項目 top5 欄目 Git 简体版

原文原文鏈接

做者 | PRANAV DAR

譯者 | SAMBODHI

編輯 | Debra

AI 前線導讀：若是你是開發者，那必定對 GitHub 不會陌生，截止到 2018 年 4 月 10 日（GitHub 上線 10 週年），已經擁有超過 2700 萬開發者，分佈在全世界，在超過 8000 萬個項目上進行着緊密協做。Reddit 是網頁新鮮事件和熱點事件的源頭，它也是互聯網最有趣的地方和有高度組織的連接集中處。不只你能在 Reddit 上分享連接，你也能遇到許多和你同樣分享着一樣興趣的志趣相投的用戶。正由於此，GitHub 和 Reddit 成爲了全世界開發者的寵兒。PRANAV DAR 就整理了他認爲的不可錯過的五月份精選數據科學和機器學習的 GitHub 開源庫和 Reddit 話題，AI 前線翻譯後以饗讀者。

更多幹貨內容請關注微信公衆號「AI 前線」，（ID：ai-front）

介紹

對我而言，GitHub 和 Reddit 都提供了有趣的發現平臺。在這兩個平臺中，我不只學習到了數據科學的一些最佳應用，並且還了解了它們是如何編寫的，並但願未來有朝一日能爲這些開源庫作出貢獻。python

微軟最近斥資數十億美圓收購了 GitHub。一直以來，GitHub 是開發人員之間協做的終極平臺，咱們看到，數據科學和機器學習的社區對 GitHub 也是青睞有加。咱們也但願，這一情況，在微軟收購 GitHub 以後還能持續下去。git

至於 Reddit，它依然是數據科學家們的一個極好的知識和觀點的來源。人們在 Reddit 上分享他們的代碼、其餘人的代碼、通常的數據科學新聞、尋求幫助和意見、發表研究論文等連接。這是一個真正強大的社區，爲與其餘數據科學愛好者互動提供了可靠的平臺。github

今年 5 月，咱們在 Reddit 上看到了一些精彩的討論，其中包括將來 3 年數據科學家的做用，以及一組有史以來最好的機器學習論文集。在 GitHub 社區中，Intel 開放了它的 NLP 架構庫，微軟發佈了 ML.NET 來支持 Dot Net 開發者的機器學習等等。算法

讓咱們深刻這個列表，看看 GitHub 上的最熱門的庫以及上個月發生在 Reddit 上有趣的討論。編程

你能夠查看如下過去四個月的 GitHub 最熱門的庫和 Reddit 上最熱門的討論（截止到四月）：微信

一月：https://www.analyticsvidhya.com/blog/2018/02/top-5-github-repositories-january-2018/數據結構

二月：https://www.analyticsvidhya.com/blog/2018/03/top-5-github-repositories-february-2018架構

三月：https://www.analyticsvidhya.com/blog/2018/04/top-7-github-repositories-march-2018框架

四月：https://www.analyticsvidhya.com/blog/2018/05/top-5-github-reddit-data-science-machine-learning-april-2018/機器學習

GitHub 庫

ML.NET

(https://github.com/dotnet/machinelearning)

ML.NET 是一個開源的機器學習框架，旨在讓 ML 面向.NET 開發人員。有了 ML，開發人員得以可以在.NET 開發本身的模型，而全部這些都不須要構建機器學習模型的經驗。目前是個預覽版，包含基本的分類和迴歸算法。

ML.NET 最初由 Microsoft 開發，現已普遍應用於 Windows、Excel、Access、Bing 等產品中。這個版本還捆綁了.NET API，用於各類模型訓練模型的任務。

NLP Architect

（https://github.com/NervanaSystems/nlp-architect）

NLP Architect 是一個開源的 Python 庫，旨在讓數據科學家可以得以探索天然語言處理（Natural Language Processing，NLP）和天然語言理解（Natural Language Understandings，NLU）領域中最早進的深度學習技術。該庫由 Intel Lab 的研究人員開發並開源。

這個庫中，我最喜歡的組件之一是可視化組件，它以整潔的方式顯示模型的註釋。訪問這個網址來查看咱們對 NLP Architect 的報道：

https://www.analyticsvidhya.com/blog/2018/05/nlp-architect-an-awesome-open-source-nlp-python-library-from-intel-ai-lab-with-github-link/

Amazon Scraper

（https://github.com/tducret/amazon-scraper-python）

這個 Python 包使你可以從 Amazon 搜索和提取產品信息。與其編寫幾行代碼來肯定須要分析哪些產品，不如使用這個包就能夠了。你須要作的就是輸入想要搜索的關鍵詞和最大產品數量（這是可選的）。你可使用 CSV 格式得到輸出，而後將其插入你最喜歡的工具中並開始分析。

PIGO – Face Detection in Go

（https://github.com/esimov/pigo）

PIGO 是一個用 Go 編程語言開發的人臉檢測庫。它是基於這篇研究論文 Pixel Intensity Comparison -based Object detection（https://arxiv.org/pdf/1305.4537.pdf）開發的。根據該庫的說明，這個庫的一些主要特色是：

處理速度快；在檢測以前無需對圖像進行預處理；無需計算積分圖像、圖像金字塔、HOG 金字塔或任何其餘相似的數據結構；人臉檢測是基於二進制文件數據樹結構編碼的像素強度比較。

RL-Adventure-2: Policy Gradients

（https://github.com/higgsfield/RL-Adventure-2）

這個庫是爲全部的強化學習愛好者開發的。深度學習已經推進了強化學習編程人工智能以人類專家水平技能進行 Atari 遊戲。這個庫涵蓋了策略梯度算法的有趣的新擴展，這是解決強化學習問題的最受歡迎的默認選擇之一。這些擴展帶來了訓練時間的改善，提高了強化學習的總體表現。

Reddit 討論

實時多手姿態判斷演示

（https://www.reddit.com/r/MachineLearning/comments/8n04hp/p_realtime_multihand_pose_estimation_demo/）

做者將上述概念以視頻的形式發佈後，討論就開始了。這是一個使人着迷的概念，使用深度學習來看到它變得生動起來，這真是一件美妙的事情。它引發了數據科學家和機器學習愛好者的關注，正如你能夠經過討論中的問題數量看得出。我鼓勵你們去瀏覽一下這些討論，大家會對這項技術是如何實現的有一個很好的認識。

爲了證實機器學習之美，大家會選擇哪篇研究論文來證實這一點？

（https://www.reddit.com/r/MachineLearning/comments/8kbmyn/d_if_you_had_to_show_one_paper_to_someone_to_show/）

若是你是機器學習的菜鳥，或者正在尋找須要閱讀或者參考的論文，那麼這就是一條很棒的線索。在這場討論中提到的一些優秀的機器學習研究論文，每個有遠大抱負或有所建樹的數據科學家都會從中受益。這場討論包含了從基本的機器學習概念（如高斯模型）到高級概念（如神經藝術風格轉換）、使用簡單功能的提高級聯來實現快速目標檢測等論文。

咱們目前對泛化瞭解多少？接下來該問些什麼呢？

（https://www.reddit.com/r/MachineLearning/comments/8mpxmm/d_what_do_we_currently_know_about_generalization/）

深度學習中的泛化問題一直是人們爭論不休的話題。正如這篇文章的做者所提到的，咱們仍然有很多場景須要努力去實現任何泛化。這就引發了對目前的泛化現狀的深刻討論，以及爲何泛化在深度學習和強化學習中很難理解。這些討論中，包括冗長的帖子，若是你是這個領域的菜鳥，這些帖子對你來講可能有點複雜。儘管如此，我仍是建議你，不管如何都要通讀這些帖子，由於這些帖子都是由一些經驗豐富、知識淵博的數據科學家提出的見解。

醫療行業中的機器學習情況

（https://www.reddit.com/r/MachineLearning/comments/8mqh2r/d_machine_learning_deployed_in_health_care_and/）

這個話題深刻研究了醫療行業（不是研究領域）當前的機器學習現狀。這個行業的數據科學家分享了他們在工做中獲得的經驗和觀點。當誰找你詢問生命科學領域中有關機器學習和深度學習的任何問題時，你就能夠參考這個話題。

將來三年數據科學家的職業發展前景

（https://www.reddit.com/r/datascience/comments/8m0zev/what_are_the_potential_career_paths_for_data/）

這個話題，也是大多數人在進入該領域以前都會問的一個很是相關的問題。隨着自動化機器學習工具的迅速普及，企業在幾年內還會須要數據科學家嗎？這個話題收集了數據科學領域中不一樣人士的觀點，他們認爲數據科學家在將來幾年內將會擴展或者多樣化。這裏有一些很好的職業建議，因此必定要來看一下。

原文連接：

https://www.analyticsvidhya.com/blog/2018/06/top-5-github-reddit-data-science-machine-learning-may-2018/

相關標籤/搜索

每日一句

每一个你不满意的现在，都有一个你没有努力的曾经。