全文共2458字,預計學習時長5分鐘python
圖源:Unsplash 攝影:Skye Studiosios
本文將對如何構建數據科學做品集進行深刻介紹。
微信
激情必不可少機器學習
若是你真的想作一個數據科學的做品集的話,就不太可能有不少業餘時間,致力於創建數據科學做品集確定須要精力上的投入和時間上的犧牲。根據經驗,只有在作一個讓你充滿激情的項目時,你才能成功作到這些。激情也不必定是一下就能找到的。學習
寫做是一個很好的媒介,由於經過寫做可以實現分享想法的激情。也許你很想用深度學習作一個項目,卻動力不足,但也許你對音樂充滿熱情,那你就可使用深度學習創做音樂的方式來建立做品集。把精力投入到感興趣的事情上能夠在你想要放棄的時候助你突破各類艱難險阻。人工智能
提出你本身的問題3d
在kaggle等數據科學平臺上圍繞預約義問題作一些輔助性項目很是有吸引力。雖然這樣作確定會使整個過程更容易,但卻忽略了數據科學研究過程當中最重要的部分之一:提出問題。在應用中,最難的每每是將業務問題轉化爲數據科學問題。編寫代碼前請仔細考慮如下問題:cdn
• 我想解決什麼問題?blog
• 怎樣才能用數據科學來解決這個問題?ci
• 若是我能解決這個問題,那會創造什麼價值?
你的回答可能很簡單。好比說,我想作一些帶有我喜歡的樂隊風格的音樂,而我通過調查發現深度學習在解決這個問題上已經取得了一些成功,若是我能解決這個問題,就會有聽不完的音樂,而這些音樂都好像是我喜歡的明星作的同樣!
考慮這些問題是必不可少的,由於它爲你項目的故事提供了背景。這一步能幫助你更好地向別人解釋你選擇這個項目的緣由,同時也能說明你在解決一個問題時有戰略性思惟。
收集本身的數據
若是你提出了本身的問題,收集數據這個步驟是必須的。你的問題多是獨一無二的,所以須要花費一些時間來收集數據。這樣作很好!你能夠在項目中展現收集數據的技能。好比說咱們剛剛舉的作音樂的例子,這個項目可能就須要找免費的音樂包(https://freemusicarchive.org/about),這些音樂包裏須要有高品質,合法的本地音頻。搜索和收集本身的數據的過程當中,你必定會學會收集數據這個數據科學研究中關鍵的一步,而這一步學校並不會教給你。
圖源:Unsplash 攝影:Craig Whitehead
展現數據探索的過程
正如特斯拉公司人工智能研究負責人安德烈·卡錫(Andrej Karpathy)所說:成爲一個與數據共生的人。
全部機器學習項目的首要任務之一就是花時間檢查和分析數據。不要跳過這一步。這很是重要,由於它可讓你作出一些真正優秀的數據可視化。仔細檢查數據,並關注如下內容:
• 是否有異常值?
• 特徵分佈是什麼樣的?
• 繪製要素與目標之間的關係
• 查看數據的真實案例
在此步驟中,你還能夠作更多事情,但以上這些問題已是一個很好的開始了。使用seaborn統計圖製做庫(https://seaborn.pydata.org/)可美化圖表,或者你想要作得更多更好的話,能夠嘗試讓可視化與諸如Plotly等開源數據可視化平臺(https://plot.ly/python/)進行交互。這一步的目標是向其餘人展現你是如何經過分析數據來揭示其餘人並未發現的知識,而這一步也將讓你的模型變得更好。
構建多個模型
一般狀況下,項目只展現最好的模型。一個真正優秀的做品集可讓人們理解你的思惟過程,因此請將思惟過程展現給咱們!爲能知足這個要求,建議你採起如下步驟:
• 第一步,建立一個非機器學習基線。這個基線應該像歷史平均值同樣合理。對於評估第一個基於機器學習的模型,這是關鍵的一步。
• 第二步,建立第一個機器學習模型。說明你選擇將此做爲第一個模型的緣由,並將其與非機器學習基線進行比較。
• 第三步,創建第二個機器學習模型。這一步的要點是要解釋清楚爲何在創建第一個機器學習模型以後創建這個模型是最好的一步。是否由於你的模型過分擬合才須要使用一個相對簡單的模型或添加正則化呢?也許你使用了相同的模型,可是由於分析錯誤而開發了不在預約計劃內的功能。
• 第四步,重複步驟三直至你對結果滿意。
最後,你不只須要在項目中構建多個模型,還須要按照邏輯敘述並解釋你開發一個完整機器學習模型的思惟模式。
描述過程
到這個時候,你已經作完了不少關鍵步驟,可能會以爲任務已經差很少完成了。沒這麼快!你如今須要倒回去,把全部工做聯繫在一塊兒並進行一次完整的描述。
優秀的數據科學家也是優秀的故事講述者。
這是構建你的優秀項目過程當中最重要的一步。若是你跳過這一步,你可能只是在GitHub開源代碼庫上有一堆代碼,而那稱不上是個做品集。建議用一些諸如Medium的博客平臺,或者甚至能夠開發本身的博客來說開發歷程。寫下項目的目標,強調重點的探索性分析,其中包括你的模型結果和思考過程,而後告訴你們如何在項目中創造價值。
能夠把描述過程這一步看做是給董事會展現項目。你並不須要在描述過程時提到任何代碼(但必定要提供「GitHub」上的代碼連接)。
圖源:Unsplash 攝影:JOSHUA COLEMAN
重複
如今做品集裏有一個很好的項目了。以後要作的就是重複這個過程。這一步確實須要巨大的工做量,消耗不少時間,但只要堅持並保持專一,你就會發現本身有一些很好的故事,能夠講述你是如何使用機器學習在你充滿激情的領域創造價值的(要確保你在「領英」(LinkedIn)職場社交平臺和簡歷上突出了你的做品集)。這個數據科學做品集很是優秀,必定會讓你脫穎而出。
想要尋找一些靈感嗎?能夠看看蒂姆·德特莫(https://timdettmers.com/data-science-portfolio/)的數據科學做品集。
留言 點贊 關注
咱們一塊兒分享AI學習與發展的乾貨
歡迎關注全平臺AI垂類自媒體 「讀芯術」
(添加小編微信:dxsxbb,加入讀者圈,一塊兒討論最新鮮的人工智能科技哦~)