數據科學家自述:真正工做以後我才深入認識到這五點


做者: Admond Lee
編譯: Mika
CDA 數據分析師原創做品,轉載需受權機器學習

我從事數據科學工做了已經將近半年了,我一路上成長了不少,也犯了不少錯誤,並在這一過程當中從學習了不少。性能

不存在沒有失敗,只有反饋。而現實世界就是一種反饋機制。學習

是的,學習之旅並不容易。咱們該作的就是繼續努力,不斷學習和改進。測試

經過這段時間的學習歷程,我發如今從事數據科學領域時,大多數初學者可能會遇到一些常見的陷阱。在本文中我總結出了當中最須要注意的五點,但願能幫助你更好地進行數據科學之旅,讓咱們開始吧!spa

1. 業務領域知識設計

在剛開始從事數據科學工做時,這一點讓我最印象深入。一開始我並無意識到領域知識的重要性。相反,我花了大量時間用於提升技術知識,並且是在不真正瞭解業務需求的狀況下構建複雜的模型。3d

若是不完全瞭解公司業務,你的模型極可能不會爲公司增長任何價值,由於它沒法知足公司的商業目的,不管你的模型有多精確。blog

提升模型精度的最經常使用技術是網格搜索,用於搜索模型的最佳參數。可是,只有在瞭解業務需求,並添加相關功能訓練模型的前提下,這樣才能顯著提高模型性能。同時,功能工程也很是重要,網格搜索只是改善模型的最後一步。圖片

與此同時,你須要關注公司的業務,由於你的工做就是經過數據幫助公司解決問題。問問本身,你是否對公司目前的業務感興趣。數據分析

僅僅瞭解業務自己是不夠的,你還須要闡述本身的想法,並把相關內容用容易理解的術語表達給其餘公司高層以及同事。

換句話說,不要只用其餘人不熟悉且晦澀難懂的專業術語,這樣只會引發沒必要要的誤解。

有時儘管你的分析看法是正確的,但也可能受到他人的質疑,所以在展現如何用數據解決業務問題以前,建議你先代表本身對整個業務的瞭解,而後肯定問題可用現有數據進行回答。

2. 細緻的思惟模式和工做流程

作到就像偵探同樣,你須要注重細節。這在數據清理和轉換過程當中尤其重要。現實世界中的數據很混亂,你必須可以在數據的汪洋大海中找到所需的數據進行分析處理。

所以,具備以細節爲導向的思惟模式和工做流程對於在數據科學領域取得成功相當重要。若是沒有一絲不苟的心態和嚴謹的工做流程,你可能會在探索數據的過程當中失去方向。

你可能會在進行了一段時間探索性數據分析後,但仍未得到任何看法;你可能會不斷地用不一樣參數訓練模型,但願獲得改進;你可能好不容易完成數據清理,而實際上數據卻不夠乾淨,沒法提供給模型。

曾經我也經歷過這些過程,後來我意識到本身缺少結構良好的工做流程,並且心裏急於求成。

最後我所作的是退後一步,從全局把握問題。而且從新梳理想法和工做流程,努力使一切都標準化和系統化。最終這奏效了!

3. 實驗設計和邏輯

系統的工做流程可以爲整個數據科學系統提供宏觀的角度; 實驗是工做流程中不可或缺的一部分,它包括假設測試和建模的過程。

Kaggle競賽等機器學習問題比較直接,從中你能得到訓練數據並開始構建模型。

然而在現實狀況比較複雜,你須要經過構建邏輯和設計實驗來測試你的假設,並使用合適的指標評估模型。

在實驗結束時,你的任何結論都須要事實和數據的支持,永遠不要沒有驗證其有效性的狀況下得出結論。

4. 溝通技巧

若是本文只能強調一點,那麼我但願你能提升本身的溝通技巧。不管你是數據科學的初學者,仍是數據科學專家。

當在表達本身見解的同時,你須要聆聽他人的意見,而且可以接受批評和反饋。

在與公司領導層和同事溝通業務時,要用簡單易懂的語言。這與第一點提到的業務領域知識同樣,若是缺少這點會下降與團隊成員的溝通效率,由於他人可能很難理解你想表達的內容。

更糟糕的是,缺少溝通技巧會讓領導層難以理解你的分析結果。即便你的分析很複雜,但始終要用簡單的方式傳達你的想法和建議。

5. 用數據講故事

圖片描述

數據科學不只僅是進行數據處理和建模模。憑藉可以知足業務需求的出色模型,你最終目標應該是經過數據講故事,把分析結果傳達給公司領導層,當中須要能回答如下問題:

  • 爲何咱們要分析它?
  • 咱們能夠從結果中得到什麼看法?
  • 咱們能夠作出哪些決策或行動計劃?

用數據講故事既簡單又複雜。在數據驅動的分析中,有時即便是出色的模型和分析看法,也會由於糟糕的展示形式而變得毫無用處。這實在太惋惜了!

想象一下你是公司領導,當數據科學家給你展示了可以出色解決業務問題的模型,而不作進一步解釋。你可能會想,這很厲害,模型很在贊。那而後呢?

問題在於,模型結果和行動計劃之間沒有聯繫起來。即便你展現了高度精確的模型預測,而其餘人殊不知道該作什麼。咱們必須從他們的角度來思考,而不是僅僅知足業務目標。

有許多方法可以改善這一狀況,我將簡要介紹兩種方法,它們能夠提供啓發性的看法並更好地制定行動計劃。

設置比較基準

良好的模型沒有對比是不夠的。換句話說,須要基準讓咱們知道模型是否達標。

若是沒有基準,那麼是不夠的,容易出現質疑:怎樣才能被認爲是足夠好?我爲何要相信你的結果?

風險管理

這一點尤其重要,由於它將決定你的模型是否會投入生產。這意味着你必須從模型性能中顯示最佳和最差的案例場景。

這就是風險管理的用武之地,由於公司高層但願知道模型的侷限在哪兒,當模型投入生產時公司要承擔多大的風險,這最終會影響行動計劃。

所以,風險管理不只會使你的結果更具吸引力,並且還會提升公司利對你的信心。

謝謝你的閱讀,但願這五點可以對你的數據科學之旅中有所幫助。

相關文章
相關標籤/搜索