懶人綜合症患者福利——我整理了10篇機器學習和數據科學的好文,不要錯過

做者 | Flavian Hautboisjavascript

翻譯 | AI科技大本營(rgznai100)html

參與 | JeyZhang,波波前端

 

上個月,咱們發了不少文章。可是,機器學習和數據科學整個領域所發表的新文章更多。如何用一篇文章就能梳理好這些最新的內容呢?咱們苦思冥想,從中找出了這十篇有關神經網絡、TensorFlow、數據可視化、生成式對抗網絡(GAN)以及LSTM的最佳文章。只此一篇,你就能把握住機器學習和數據科學整個領域的新內容,絕對不容錯過。java

 

若是你的閱讀習慣是邊看邊動手作,請必定先備好Python環境。web

 

咱們先從下面的漫畫開始:算法

圖片翻譯:編程

「這個問題已經困擾咱們不少年了。」flask

「不用糾結,讓我用算法來替你解決它。」網絡

6個月後…機器學習

「哇,你這問題確實好難。」「你不是說……」

 

➤1 —  Dash入門

Dash提供了一套全新的用於web的圖表庫,而這篇文章深刻介紹了Dash圖表庫是如何設計的,以及介紹了在Dash中如何有效地處理常見錯誤以及多重集成。文章中對Excel和R語言系統進行了很合理的對比。使用Dash進行圖表實現時,一個技術上的挑戰是,你須要維護一個flask應用以及擁有一個對ReactJS友好的前端。

 

Adil Baaj在咱們的博客上發佈了一篇對比多種javascript圖表庫的文章。若是但願入門Dash,能夠閱讀來自plotly的《Dash入門》。

 

 

➤2 —  Google發佈用於目標檢測的TensorFlow API

 

Google公司一直致力於讓大數據領域最新研究的實現變得更加簡單。本月他們在TensorFlow上發佈了用於目標檢測的API,也發佈了適用於移動設備的版本。

 

詳見Google Research Blog的原文

 

➤3  — 初識生成式對抗網絡(Generative Adversarial Networks, GAN)

 

 

這是一篇介紹如何訓練一個神經網絡來生成手寫數字圖片的教程。咱們很欣賞這種在對抗式網絡這個新的研究方向上的實踐技術,這又是一個在經典MNIST數據集上作的實驗。在這篇文章中,你將得知訓練生成式對抗網絡是一件困難的事,是由於你須要在生成器與判別器的訓練中找到平衡。本教程僅須要大概半小時就能讀完,屬同類教程中的佼佼者。

 

詳見O’Reilly原文

 

➤4  —  使用深度學習技術重構出高分辨率的音頻

 

 

受到最近圖像方面研究的啓發,文章做者嘗試用低質量的音頻文件來重構出分辨率更高的音頻,最終音頻質量上沒有取得大幅度的提升,但也必定程度上達到了目的。儘管實驗結果上的提高並不顯著,咱們仍然認爲該篇文章爲本月最佳文章之一。緣由以下:

 

  • 本文着重於重構VoIP語音,這點很巧妙。

  • 語音方面的研究工做比較複雜,而深度學習技術的應用除了在語音轉文本應用領域以外,其餘的較少見到。

 

咱們以爲若是做者在卷積網絡中使用頻譜表示而不是時間表示的話,實驗結果還能再提高一步。

 

詳見Insight Data原文

 

➤5  —  探索LSTM

 

咱們破例收錄了這篇文章(發表時間在5月30日,嚴格上說不是6月份的文章),由於文章寫得特別好。這篇文章的前半部分是一個LSTM教程,後半部分深刻淺出對LSTM做了詳解。詳解部分使得本文很是有價值。審計 (Audit) 仍然是大數據算法中最困難的部分。正因如此,Edwin Chen作的可視化工具很是棒,由於它詳細解析了LSTM的原理。

 

詳見AI科技大本營的完整譯文:多圖|入門必看:萬字長文帶你輕鬆瞭解LSTM全貌

 

➤6  —  怎樣訓練神經網絡來自動寫代碼?

 

 

若是你閱讀了前面關於LSTM的文章,那麼你已經看到了一個關於生成Java程序的例子。來自Thibault Neveu的這篇文章也在嘗試作一樣的事情。文中使用TensorFlow而且比以前的文章更易於上手,而且更適合作快速閱讀。

 

詳見AI科技大本營的完整譯文:手把手教你自制編程AI:訓練2小時,RNN就能寫本身的代碼

 

➤7  —  人工智能讓製藥業再創輝煌以及所面臨的挑戰

 

 

這篇文章介紹瞭如何使用生成式對抗網絡來生成新的抗癌藥物,思路很棒。在製藥研究領域有一個Eroom定律,與摩爾定律正相反(隨着時間推移,尋找新葯的難度呈指數增加)。Mostapha Benhenda強烈呼籲研究人員在大數據與藥理學交叉領域上的研究採起行動。

 

詳見Hackernoon原文

 

➤8  —  你所不知道的圖表展現小技巧

 

 

注意到上面餅狀圖裏一些奇怪的地方了嗎?你應該注意到,不過你可能沒有(至少我沒)。這篇文章詳細舉例說明了用圖表來作比較時的錯誤用法,從中你會學到在對比兩種類似的數據時,圖表展現的方式很是重要。

 

詳見Andrew Gelman的原文

 

➤9 — 我在Kaggle上獲勝的小技巧

 

Kaggle是一個數據科學方面在線競賽平臺。公司能夠提交賽題以及相關數據集供參賽者解決。Kaggle是一個大型社區,你在上面有機會得到百萬美金大獎。這篇文章的做者分享了他從開始時的新手到後來比賽取得第五名的經驗。咱們認爲他總結的參賽小技巧也可供企業數據科學家參考,若是你想參與Kaggle上的競賽,那麼這篇文章將很是值得一讀。

 

詳見Dataquest原文

 

➤10 — 大數據的體現:Amazon收購全食超市的交易

 

 

最後再介紹一篇關於商業上Amazon收購Whole Foods超市的文章。隨着大數據的研究逐漸滲透商界,咱們認爲這類文章是這個列表的重要補充。從企業獲取數據的角度來看,Amazon收購Whole Foods超市是明智之舉。由於Amazon雖然是個大公司,可是數量上遠不及Whole Foods超市多,因此收購將爲其帶來巨大的數據財富。

 

詳見Dataiku

 

對於咱們選出來的本月十佳文章,你都有看過嗎?你內心有沒有其餘更好的選項?歡迎在評論中告訴咱們,若是大家喜歡,我們下期再見。

 

原文連接

相關文章
相關標籤/搜索