想入門數據科學領域?明確方向更重要

做者 | Jeremie Harris網絡

翻譯 | Mika機器學習

CDA 數據分析師原創做品,轉載需受權工具

我在一家數據科學培訓公司工做。對於學員,我經常給出的建議並非推薦庫或者工具,而是讓他們首先明確本身想成爲何樣的數據科學家,肯定本身的方向。oop

當中的緣由在於,數據科學並非單一且定義明確的領域,公司並不會僱用所謂的全能型數據科學家,而是會選擇有擁專業技能的我的。學習

爲了更好的理解,假設大家公司想聘請數據科學家。那麼,大家確定有明確的問題須要解決,而這須要具體的技術知識和專業知識。例如,有些公司將簡單模型應用於大型數據集;有些公司將複雜模型應用於小型模型;有些公司須要動態訓練模型;有些公司根本不使用(傳統)模型。測試

以上這些都須要徹底不一樣的技能。對於想進入數據科學領域的人羣收到的建議每每是:學習使用Python,構建分類/迴歸/聚類等項目在開始找工做,這實際上是不太合理的。優化

數據科學家在工做中承擔了不少責任。人們會將過多的內容納入「數據科學」的範疇。爲生產構建強大的數據管道,這應該是數據科學方面的問題。開發一種新的神經網絡,這應該是數據科學方面的問題。spa

這種現象並很差,由於這會讓有抱負的數據科學家失去方向和對特定問題的關注。翻譯

爲了不成爲全能型數據科學家,再次以前讓咱們先了解數據科學領域主要有哪些職位,以及他們經常被混淆的緣由:設計

1. 數據工程師

職位描述

爲處理大量數據的公司管理數據管道。這意味着在數據須要從源頭進行有效地收集和檢索,並且在使用前須要進行清理和預處理。

重要性

若是你只使用過存儲在.csv或.txt文件中的相對較小的數據集(小於5G),那麼你可能很難理解爲何須要專人維護數據管道。

當中的緣由在於:1)計算機很難承載大小爲50 G的數據集,所以須要以其餘方式將其提供給模型;2)大量數據可能須要花費大量時間來處理,而且常常須要冗餘存儲。進行管理存儲須要專業的技術知識。

技能要求

你須要使用Apache Spark、Hadoop、Hive和Kafka。還須要有紮實的SQL的基礎。

處理的問題

如何構建每分鐘能處理1萬個請求的管道?

如何在不將其所有加載到RAM的狀況下清理該數據
clipboard.png
..]

2. 數據分析師

職位描述

將數據轉化爲可操做的商業看法。你一般會成爲技術團隊和商業策略業,銷售或營銷團隊之間的中間人。數據可視化是你平常工做的重要組成部分。

重要性

有些人很難理解爲何數據分析師如此重要,但他們確實如此。數據分析師須要將通過訓練和測試的模型,以及大量用戶數據轉換爲易於理解的格式,以便轉化爲圍商業策略。數據分析師幫助確保數據科學團隊不會浪費時間來解決沒法提供商業價值的問題。

技能要求

技能包括Python,SQL,Tableau和Excel。你還須要出色的溝通能力。

處理的問題

是什麼帶來了用戶增加?

如何向管理層解釋最近的使用費讓用戶望而卻步?

3. 數據科學家

職位描述

清理和探索數據集,並進行能帶來商業價值的預測。你的平常工做包括訓練和優化模型,並將其部署到生產中。

重要性

當你有大量難以被解析的數據,你須要從中提取出可理解的分析看法。這是數據科學家的基本工做:將數據集轉換爲易於理解的結論。

技能要求

包括Python、scikit-learn、Pandas、SQL、也許還須要掌握Flask、Spark、TensorFlow、PyTorch。有些數據科學職位純粹是技術性的,但大多數人要求你具有必定的商業意識。

處理的問題

咱們有多少種不一樣的用戶類型?

是否能創建一個模型來預測哪些產品將銷售給哪些用戶?

4. 機器學習工程師

職位描述

構建、優化機器學習模型,以及部署到生產。你的工做離不開機器學習模型,並且須要將其放入全棧應用程序或硬件中,但也須要本身設計模型。

技能要求

須要掌握Python、Javascript、scikit-learn,TensorFlow 、PyTorch,以及SQL或MongoDB。

處理的問題

如何將此Keras模型集成到咱們的Javascript應用程序中?

如何減小推薦系統的預測時間和預測成本?

5. 機器學習研究員

職位描述

找到解決數據科學和深度學習中的挑戰性問題的新方法。你不會使用開箱即用的解決方案,而是須要建立解決方案。

技能要求

須要用到Python、TensorFlow、PyTorch和SQL。

處理的問題

如何將模型的準確性提升到最高水平?

自定義優化器有助於減小訓練時間嗎?

結語

我在這裏列出的五個職位絕對不是孤立的。例如,在早期創業公司,數據科學家也須要充當數據工程師或數據分析師的角色。可是大多數工做會按類別分類,公司規模越大,類別則越具體。

總的來講,爲了找到心儀的工做,你須要明確具體的方向。若是你想成爲一名數據分析師,就不用學習TensorFlow;若是你想成爲一名機器學習研究員,那麼不用先學Pyspark。

能夠思考一下你但願爲公司帶來哪方面的價值,並朝着這個方向努力,這是入門的最佳方式。

相關文章
相關標籤/搜索