最近常常遇到有朋友問下面這類問題,結合最近的一些思考,本篇聊一下,數據人該具有哪些通用的技能。算法
技能分爲兩部分:工具和知識。工具包括Excel、Sql 和 Python,知識包括大數據、統計學和機器學習相關知識。機器學習
掌握指數:5顆星工具
掌握人羣:全部數據人學習
Excel 是每一個數據人都應該掌握的一項技能,不論是研發仍是產品,Excel 應該是必備的一項基本技能。不要覺得只有搞大數據、深度學習這種纔是有技術含量的工做,不少時候 Excel 能提供的功能,如今大部分大數據系統差的還遠。特別是Excel的透視表和各類圖,基本是數據分析必備。大數據
只是從處理的數據量上來說,通常配置的辦公機,Excel 只能處理幾十萬行的數據。相對來說是小數據量。人工智能
掌握指數:4.5顆星設計
掌握人羣:全部數據人cdn
從研發崗來說,數據開發、數據倉庫、數據分析都應該具有 Sql 能力,這點不用多作解釋。那麼數據產品和數據運營是否應該掌握 Sql 呢?答案是確定的!對象
從使用數據的角度來說,Sql 能力意味着產品和運營可以快速本身提取本身想要的數據,而不是所有都要等研發的排期。你的核心競爭力並非 Sql ,可是 Sql 應該能幫你更有效的驗證想法。居士身邊大部分數據產品和數據運營都是或多或少會一些 Sql 的,至少這個比例在逐漸增長。開發
從設計數據系統的角度來說,數據產品也應該掌握 Sql,若是一點 Sql 不懂,那麼如何設計自助數據分析平臺?如何設計更多的數據系統?
掌握指數:4顆星
掌握人羣:數據開發、數據倉庫、數據分析、數據挖掘
Python,基本上是偏研發向崗位必備技能了,重要性毋庸置疑。這裏只簡單聊一下 Python 和 R 的選擇。首先,居士支持 Python,這裏無心評價哪一個語言是好的,只想說明:
至於說數據產品和運營是否須要,居士認爲,簡單瞭解就行,不是核心技能要求。
掌握指數:4.5顆星
掌握人羣:全部數據人
大數據時代,全部數據人都應該具有必定的大數據知識!由於大數據相關技術已經侵入了互聯網行業的方方面面,傳統行業也都逐漸往大數據靠攏。
不管是研發、產品亦或者運營,都應該對大數據有一些的基本的認知,好比統計學,之前多是幾萬行的小數據作統計,那麼當數據上億甚至是百億千億以後,統計學的思路可能依舊不變,可是想要處理這些數據,就必須對大數據有所瞭解,要了解該怎麼使用大數據的工具!
數據產品和運營亦是相似,只有瞭解大數據相關的一些知識,才能更好地和數據團隊的各個工種站在一樣的知識理解層面上對話。
注意:讓產品來了解技術,並非讓產品本身作技術,而是瞭解必定的技術後,可以更順暢地和研發作溝通。良好的溝通有時候能決定你是否可以順利地開展項目。
掌握指數:4顆星
掌握人羣:全部數據人
統計學,玩數據的同窗都應該瞭解必定的統計學知識!通常來說,大部分數據分析都應該具有統計學的知識。那麼問題來了?數據倉庫是否也須要了解統計學?
居士是這樣思考這個問題的,假設你是一名數據倉庫同窗,你的一個主要服務對象可能就是數據分析,那麼,你是否瞭解你的使用方是如何使用你的數據的?若是你都不知道使用方是如何使用你的勞動成果的,那麼,你提供的數據會很好用嗎?
自省一下,工做前兩年,居士作的不少數據表的設計,在如今看來基本無法用!由於當時根本不知道使用方是如何用本身的表,基本處於自嗨狀態。
掌握指數:4顆星
掌握人羣:全部數據人
這裏引用一部分 Japson 在《ML/DL科普向:從Sklearn到TensorFlow》中提到的一句話:
再結合居士的觀點:統計學相關知識、人工智能相關知識已經逐漸地成爲了咱們必備的基礎技能。不少時候咱們要跳出本身的眼界,從更高的角度來講,這些知識有助於咱們更好的瞭解本身的數據,更加了解業務,從而提升本身的競爭力,打破本身的能力邊界,來進行「錯位競爭」。
總體的思路就是,數據開發、數據倉庫亦或者是數據產品,該不應去學習機器學習?居士想表達是,該學!爲何?