新手數據科學家常犯的13種錯誤及其解決方法

介紹

因此當你已經決定在數據科學這條道路走下去的時候。世界上愈來愈多的企業正在成爲或者轉型成爲數據驅動的企業,世界變得愈來愈緊密,而且看起來每一個企業都須要數據科學的人才。所以,對數據科學家的需求是巨大的。更巧妙的是,每一個人都認可這個行業內人才是短缺的。面試

然而,成爲一名數據科學家並不容易。要想得到真正的成功,須要解決問題,擁有結構化思惟以及編程和各類技術技能的結合。若是你並不是來自技術和數學的教育背景,那麼你頗有可能經過書籍和視頻課程來學習。大多數的這些資源並不能告訴你業界須要的數據科學家的要求是什麼。算法

這就是爲何有抱負的數據科學家正在努力彌合自我教育與現實工做之間的差距。編程

在本文中,我將討論新手數據科學家所犯的常見錯誤(我本身也犯過一些)。我還提供了儘量多的資源,旨在幫助你避免數據科學之旅中的這些陷阱。網絡

1.只學習理論概念而不該用它們

正如我在關於文章中提到的那樣 - 掌握機器學習技術背後的理論是很好的。但若是你不該用它們,它們只是理論概念。當我開始學習數據科學時,我犯了一樣的錯誤 - 我學習了書籍和在線課程,可是並不能把它們所有都應用到實際的問題中去。架構

所以如今當我遇到一個挑戰或問題時,我會盡量的去使用我所學的一切有關的知識,而不是隻用一部分!有不少東西須要學習 - 算法,推導,研究論文等。你頗有可能在中途失去你的動力並放棄一部分或者所有。我親眼看到這種狀況發生在不少試圖進入這個領域的人身上。框架

如何避免這個錯誤?

你的學習過程必須在理論和實踐之間保持良好的平衡。只要你學習了一個概念,請當即訪問百度,找到可使用它的數據集或問題,而後進行實踐。你會發現你比之前更好地學習了這種概念。你還可使用各類數據科學領域平臺的練習題和正在進行的比賽。機器學習

你將不得不接受你沒法一次性學習全部東西。用你的練習去填補空白,這樣你將學到更多東西!工具

2.在不學習先決條件的狀況下直接進行機器學習技術

想要成爲數據科學家的大多數人都受到機器人視頻或使人敬畏的預測模型的啓發,在某些狀況下甚至是成爲數據科學家會有高薪。遺憾的是(很抱歉讓你失望了),在到達你想要的以前,你須要走很長的路。學習

在將技術應用實際問題以前,你應該先了解技術的工做原理。學習這些將有助於你瞭解算法的工做原理,你能夠作些什麼進行優化它,而且還將幫助你構建現有技術。數學在這裏發揮着重要的做用,因此瞭解某些概念老是有幫助的。在平常的企業數據科學家角色中,你可能不須要了解高級微積分,但明白一些高級概述仍是確定會有幫助的。測試

若是你有必定的好奇心,或者想要從事研究工做,在進入核心機器學習以前,你須要瞭解的四個關鍵要素是:

  • 線性代數
  • 微積分
  • 統計數據
  • 機率

如何避免這個錯誤?

正如房子是一磚一瓦慢慢砌起來同樣,數據科學家也是全部獨立部分的總和。有大量的資源能夠幫助你學習這些主題。我已經提到了下面每一個主題的一個資源,你能夠在網絡上搜索到他們:

  • 數據科學家線性代數綜合入門指南
  • 可汗學院的微積分課程
  • 經過案例解釋數據科學機率的基礎知識

3.徹底依賴證書和學位

啊,這是招聘經理和招聘人員最煩惱的事。自從數據科學變得很是受歡迎以來,各類的認證和學位幾乎都出現了。瀏覽一下個人招聘資料,至少能夠看到5張使人自豪的認證展現圖片。雖然得到認證並不是易事,但徹底依賴它是災難的根源。

網上有太多這樣的課程被成千上萬有抱負的數據科學家一遍遍的學習和完成。若是他們曾經爲你的數據科學簡歷添加了獨特的價值,那如今並非這樣了。招聘經理並不關心這些 - 他們更加劇視你的知識,以及你如何在現實生活中如何應用這些知識。

這是由於與客戶打交道,處理截止日期,瞭解數據科學項目生命週期如何工做,如何設計模型以適應現有的業務框架 - 這些都只是你做爲數據科學家成功所須要瞭解的一些事項。僅僅一個證書或者學位並不能說明你能夠勝任這份工做。

如何避免這個錯誤?

不要誤解個人意思 - 證書是頗有價值的,但只有當你將這些知識應用到課堂以外並將其公之於衆時,證書纔會有價值。使用真實世界的數據集和你作的任何分析,都要寫下來。保存到你的博客上,並在招聘網站上發佈,徵求社區的意見。這代表你願意學習而且足夠靈活的接受建議並將其用於你的項目。

你應該對實習的想法持積極的態度(不管你的經驗水平如何)。你將學到不少關於數據科學團隊如何工做的知識,這將使你在參加另外一次面試時受益。

4.認爲在比賽中的看到的是真實的工做數據

這是如今有抱負的數據科學家最大的誤解之一。比賽和黑客馬拉松爲咱們提供了乾淨和一塵不染的數據集(好吧 - 我有點過火,但你應該明白是什麼意思)。你下載它們,並開始處理該問題。即便那些具備缺失值列的數據集也不須要你去使用你的腦細胞 - 只須要找出插補技術而後填充空白就能夠了。

不幸的是,現實世界的項目數據並不像那樣。而是有一個端到端的管道,涉及與一羣人合做。你幾乎老是要處理混亂和不乾淨的數據。關於花費70-80%的時間來收集和清理數據的老話是正確的。這是一個使人筋疲力盡的部分,你會(極可能)不喜歡這種事情,但它最終會成爲例行公事的一部分。

此外,咱們將在下一點更詳細地介紹這一點,更簡單的模型將優先於任何複雜的堆疊集成模型。準確性並不老是最終目標,這是你在工做中將學到的最鮮明的事情之一。

怎麼避免這個錯誤

諷刺的是,消除這種誤解的關鍵因素之一是經驗。你得到的經驗越多(實習在這種狀況下有不少幫助),你就能越好地區分二者。這是社交媒體派上用場的地方 - 與數據科學家聯繫並向他們詢問他們的經驗。

另外,我建議經過數據科學網站的平臺,經過來自世界各地的數據科學家就這個確切的問題提供他們的意見。在競賽排行榜上得到好成績很是適合衡量你的學習進度,可是面試官會想知道你是如何優化算法以達到影響,而不是爲了提升準確性。瞭解數據科學項目的工做原理,團隊所擁有的不一樣類型的角色(從數據工程師到數據架構師),並從這個意義上構建答案。

5.過分關注模型的準確性,而不是適用性和可解釋性

如上所述,準確性並不是是企業所追求的。固然,一個可以以95%的準確度預測貸款違約的模型是好的,可是若是你沒法解釋模型是如何實現的,那些特徵致使了高準確度的出現,以及你在構建模型時的想法,那麼你的客戶將拒絕使用它。

若是有的話,你不多會發如今商業應用中使用的深度神經網絡。由於不可能向客戶解釋神經網絡(更不用說深層)如何與隱藏層,卷積層等一塊兒工做。第一個偏好是,而且將永遠是確保咱們可以理解正在發生的事情在模型下面是如何運做的。若是你沒法判斷本身的年齡,家庭成員數量或以前的信用記錄是否會拒絕貸款申請,那麼公司如何運營?

另外一個關鍵方面是你的模型是否適合組織的現有框架。若是生產環境沒法支持,使用10種不一樣類型的工具和庫那麼使用它們就會失敗。你將不得不採用更簡單的方法從頭開始設計和從新訓練模型。

怎麼避免這個錯誤

防止本身犯這個錯誤的最佳方法是與業內人士交談。沒有比經驗更好的老師了。選擇一個領域(財務,人力資源,營銷,銷售,運營等),並與人們瞭解他們的項目如何運做。

除此以外,練習製做更簡單的模型,而後向非技術人員解釋它。而後爲模型添加複雜性並繼續這樣作,直到你不知道下面發生了。這將教你明白什麼時候中止,以及爲何簡單模型老是在實際應用中被優先考慮。

6.在簡歷中使用太多數據科學術語

若是你之前這樣作過這樣的事情,那麼你會明白我在說什麼。若是你的簡歷目前有此問題,那麼立刻改過來吧!你可能知道不少技術和工具,但僅僅只是把它們列出來會讓那些潛在的招聘經理望而卻步。

你的簡歷是你得到的成就以及你如何作到的簡介 - 而不是簡單記下來的事情清單。當招聘人員查看你的簡歷時,他/她但願以簡明扼要的方式瞭解你的背景以及你所取得的成就。若是頁面的一半填充了模糊的數據科學術語,如線性迴歸,XGBoost,LightGBM,而沒有任何解釋,你的簡歷可能沒法經過篩選。

怎麼避免這個錯誤

消除簡歷雜亂的最簡單方法是使用要點。僅列出你用於完成某些事情的技術(多是項目或競賽)。寫下你是如何使用它的 - 這有助於招聘人員理解你的想法。

當你申請新的或入門級的工做時,你的簡歷須要反映你能夠爲業務增長的潛在影響。你將應用於不一樣領域中的職位,也許有一個固定的模板可能會有所幫助 - 只需更改一些部分,就能夠肯定你對特定行業的興趣。

7.工具和庫優先於業務

讓咱們舉個例子來理解爲何這是一個錯誤。想象一下,你已經得到了有關房價的數據集,你須要預測將來房地產的價值。有200多個變量,包括建築物數量,房間數量,租戶數量,家庭規模,庭院大小,是否有水龍頭等等。你極可能不知道某些變量的含義,但你刪除了它以後,仍然能夠構建具備良好精度的模型

但事實證實,該變量是真實場景中的一個關鍵因素。刪除它是一個災難性的錯誤。

擁有紮實的工具和庫知識是很是好的,但它只會讓你走到這一步。將這些知識與領域提出的業務問題相結合,纔是真正的數據科學家介入的地方。你應該至少了解你感興趣(或正在申請)的行業中所面臨的基本挑戰

你怎麼能避免這個錯誤?

這裏有不少選擇:

  • 若是你正在申請特定行業的數據科學家角色,請了解該領域的公司如何使用數據科學
  • 若是可能,搜索特定行業中的數據集並嘗試對其進行處理並理解。這將是你簡歷中一個很是出色的一點
  • 瞭解爲何領域知識是數據科學的主要推進力

8.沒有花費足夠的時間來探索和可視化數據

數據可視化是數據科學的一個很是美妙的方面,但許多有抱負的數據科學家更喜歡瀏覽它就進入模型構建階段。這種方法可能會在比賽中發揮做用,但在實際工做中確定會失敗。瞭解提供給你的數據是你將要作的最重要的事情,你的模型的結果將反映出來你對數據理解的程度。

經過花時間瞭解數據集並嘗試不一樣的圖表,你將得到對你所負責解決的挑戰或問題的有更深刻的瞭解。經過這樣作,你會驚訝地知道你能夠得到多少洞察力!模式和趨勢出現,如何講述數據和數據中最好的部分。可視化是向客戶展現結果的最佳方式。

做爲一名數據科學家,你須要擁有一顆好奇心。這是關於數據科學的偉大之處之一 - 你越是好奇,你會問的問題就越多。這樣能夠更好地理解提供給你的數據,並有助於解決你最初不知道的問題!

怎麼避免這個錯誤

練習!下次處理數據集時,請花更多時間在此步驟上。你會驚訝於它將爲提供產生的洞察力。多問問題!詢問你的經理,詢問領域專家,在互聯網上搜索解決方案,若是你沒有找到,那就請在社交媒體上詢問。有太多太多的選擇了!

9.不適用結構化方法處理問題

結構化思惟以多種方式幫助數據科學家:

  • 它能夠幫助你將問題語句分解爲邏輯部分
  • 它能夠幫助你可視化問題描述是如何展開的,以及你如何設計你的方法
  • 它有助於最終用戶或客戶以邏輯和易於理解的方式理解框架的順序

有不少緣由能夠解釋爲何擁有結構化思惟幫助很大。你能夠想象,沒有一個結構化的思惟方式是違反直覺的。你的工做和解決問題的方法都是隨機的,當遇到複雜的問題時你會忘記本身的步驟等等。

當你參加數據科學麪試時,你將不可避免地得到一個案例研究,猜想、估計和各類難題。因爲面試室內充滿壓力的氣氛和時間限制,面試官會考慮你的思惟結構如何達到最終結果。在許多狀況下,這多是一個破壞者或潤滑者,來決定你是否得到工做。

怎麼避免這個錯誤

你能夠經過簡單的訓練和規範的方法得到結構化的思惟方式。

10.嘗試一次學習多個工具

我已經見過這個太屢次了。因爲每一個工具面臨的困境和提供的獨特的特性,人們傾向於嘗試一次學習全部的工具。這是個壞主意 - 最終你不會掌握它們。工具只是執行數據科學的一種手段,並非最終的目標。

怎麼避免這個錯誤

選擇一個工具並堅持使用下去,直到你掌握它爲止。若是你已經開始學習R,那麼不要被Python所誘惑。堅持使用R,從頭至尾學習它,而後嘗試將另外一種工具融入你的技能組合中。你將經過這種方法學到更多。

每一個工具都有一個很好的用戶社區,你能夠在遇到困難時使用它們,使用論壇來提問,在線搜索,而不要放棄。目的是經過該工具學習數據科學,而不是經過數據科學學習工具。

若是你仍未肯定應該使用哪一種工具,那麼請去查看一下各個工具的優缺點,結合隻身的狀況,選擇一個合適本身的工具

11.沒有一致的學習方式

這一點適用於全部數據科學家,而不只僅是新手。咱們有容易分心的傾向。咱們學習了一段時間(好比一個月),而後咱們在接下來的兩個月裏休息一下。在哪以後想要找回最佳狀態的感受就像是一場噩夢。大多數早期的概念都被遺忘了,筆記也都丟失了,感受就像咱們浪費了幾個月同樣。

我我的也經歷過這一點。因爲咱們正在進行的各類事情,咱們找藉口和理由不去學習。但這最終成爲了咱們的損失 - 若是數據科學就像打開一本教科書,而後咱們只須要把全部東西都塞進去那麼簡單的話,那麼今天每一個人都將成爲數據科學家。數據科學須要不斷的努力和學習,這是人們直到爲時已晚才意識到的這一點。

怎麼避免這個錯誤

爲本身設定目標。畫出一張時間表並貼在牆上。計劃好你想要學習的方式和內容,併爲本身設定截止日期。例如,當我想學習神經網絡時,我給了本身幾個星期,而後經過參加比賽來測試我學到了什麼。

你既然已經決定成爲一名數據科學家,因此你應該準備好投入時間。若是你老是找藉口不去學習,那麼這個領域可能不適合你。

12.迴避討論和競爭

這是咱們在上述幾點中看到的一些事情的組合。有抱負的數據科學家每每羞於在線發表他們的分析,由於他們懼怕受到批評。可是,若是你沒有收到社區的反饋意見,那麼你將不會成長爲一名數據科學家。

數據科學是一個討論,思想和頭腦風暴相當重要的領域。你不能坐在孤島中工做 - 你須要合做並理解其餘數據科學家的觀點。一樣,人們不參加比賽,由於他們以爲本身不會獲勝。這是一種錯誤的心態!你參加這些比賽來學習,而不是贏。獲勝是獎勵,學習是目標。

怎麼避免這個錯誤

這很簡單 - 開始參與討論和比賽! 沒有進入前5%也沒關係。若是你從整個事物中學到一種新技術,那麼你就是憑本身的力量取得了勝利。

13.不注重溝通技巧

溝通技巧是數據科學家絕對必須擁有的最被低估價和最少被談論的方面之一。我尚未遇到一個強調這一點的課程。你能夠學習全部最新技術,掌握多種工具並製做最佳圖表,但若是你沒法向客戶解釋你的分析,那你就會說一位失敗的數據科學家。

並且不只僅是客戶,你還將與不熟悉數據科學的團隊成員合做 - IT,人力資源,財務,運營等。你能夠確信,面試官會一直關注你這一方面。

假設你使用邏輯迴歸構建了信用風險模型。做爲一個思考練習,花一點時間思考如何向非技術人員解釋你是如何得出最終結論的。若是你須要使用過任何技術詞彙,那麼你須要儘快的學習這一點!

如何避免這個錯誤

現在大多數數據科學家都來自計算機科學背景,因此我理解這多是一項使人生畏的技能。但要成爲一名成功的數據科學家並沿着階梯向上爬,你別無選擇,只能磨練本身個性的這一部分。

我以爲最有用的一件事就是向非技術人員解釋數據科學術語。它能夠幫助我衡量我對問題的清晰度。若是你在中小型公司工做,請在營銷或銷售部門找一我的並與他們一塊兒作這個練習。從長遠來看,它將極大地幫助你。

互聯網上有大量的免費資源能夠幫助你入門,但請記住,練習是軟技能的關鍵。確保你今天開始這樣作。

結束筆記

這可能不是一個詳細的清單 - 有抱負的數據科學家每每會犯其餘錯誤。但這些是我見過的最多見的錯誤,如前所述,個人目標是幫助其餘人(儘量多地避免錯誤)。

13 Common Mistakes Amateur Data Scientists Make and How to Avoid Them?

來源:CDA數據分析師研究院

相關文章
相關標籤/搜索