數據科學之大數據知識體系大全

一 淺談數據科學前端

數據科學(Data Science)這一律念自大數據崛起也隨之成爲數據領域的討論熱點,從去年開始,「數據科學家」便成爲了一個工做職位出如今各類招聘信息上。那麼究竟什麼是數據科學?大數據和數據科學又是什麼關係?大數據在數據科學中起到怎樣的做用?本文主要是想起到科普做用,使即將或正在從事數據工做的朋友對數據科學工做有一個全概貌瞭解,也使各有想法進入大數據領域的朋友在真正從事大數據工做以前對行業的狀況有所知曉。數據科學是一個混合交叉學科(以下圖所示),要完整的成爲一個數據科學家,就須要具有較好的數學和計算機知識,以及某一個專業領域的知識。所作的工做都是圍繞數據打轉轉,在數據量爆發以後,大數據被看作是數據科學中的一個分支。算法

二 淺談大數據安全

大數據(Big Data)其實已經興起好些年了,只是隨着無處不在的傳感器、無處不在的數據埋點,獲取數據變得愈來愈容易、量愈來愈大、內容愈來愈多樣化,因而原來傳統的數據領域不得不思考從新換一個平臺能夠處理和使用逐漸龐大數據量的新平臺。用如下兩點進一步闡述:網絡

吳軍博士提出的一個觀點:現有產業+新技術=新產業,大數據也符合這個原則,只是催生出來的不只僅是一個新產業,而是一個完整的產業鏈:原有的數據領域+新的大數據技術=大數據產業鏈;架構

數據使用的範圍,原來的數據應用主要是從現有數據中的數據中進行採樣,再作數據挖掘和分析,發掘出數據中的潛在規則用以預測或決策,然而採樣始終會捨棄一部分數據,即會丟失一部分潛在規則和價值,隨着數據量和內容的不斷累積,企業愈來愈重視在數據應用時可使用全量數據,能夠儘量的覆蓋全部潛在規則從而發掘出可能想到或從未想到的價值。框架

在我學習和從事大數據相關工做的4年裏,在我有限的知識海洋裏,大數據是一個以數據流向爲主的鏈條或管道,數據從何而來,又去往哪裏,不只是哲學上的一個問題,也能夠在作數據工做的時候考慮這個問題。以下圖所示,大數據領域能夠分爲如下幾個主要方向,而這幾個方向又能夠分別對應一些工做職位:機器學習

1 數據平臺分佈式

Data Platform,構建、維護穩定、安全的大數據平臺,按需設計大數據架構,調研選型大數據技術產品、方案,實施部署上線。對於大數據領域涉及到的大多數技術都須要求有所瞭解,並精通給一部分,具有分佈式系統的只是背景……函數

對應職位:大數據架構師,數據平臺工程師工具

2 數據採集

Data Collecting,從Web/Sensor/RDBMS等渠道獲取數據,爲大數據平臺提供數據來源,如Apache Nutch是開源的分佈式數據採集組件,你們熟知的Python爬蟲框架ScraPy等。

對應職位:爬蟲工程師,數據採集工程師

3 數據倉庫

Data Warehouse,有點相似於傳統的數據倉庫工做內容:設計數倉層級結構、ETL、進行數據建模,但基於的平臺不同,在大數據時代,數據倉庫大多基於大數據技術實現,例如Hive就是基於Hadoop的數據倉庫。

對應職位:ETL工程師,數據倉庫工程師

4 數據處理

Data Processing,完成某些特定需求中的處理或數據清洗,在小團隊中是結合在數據倉庫中一塊兒作的,之前作ETL或許是利用工具直接配置處理一些過濾項,寫代碼部分會比較少,現在在大數據平臺上作數據處理能夠利用更多的代碼方式作更多樣化的處理,所需技術有Hive、Hadoop、Spark等。BTW,千萬不要小看數據處理,後續的數據分析、數據挖掘等工做都是基於數據處理的質量,能夠說數據處理在整個流程中有特別重要的位置。

對應職位:Hadoop工程師,Spark工程師

5 數據分析

Data Analysis,基於統計分析方法作數據分析:例如迴歸分析、方差分析等,天善也有不少數據分析課程。大數據分析例如Ad-Hoc交互式分析、SQL on Hadoop的技術有:Hive 、Impala、Presto、Spark SQL,支持OLAP的技術有:Kylin。

對應職位:數據分析師

6 數據挖掘

Data Mining,是一個比較寬泛的概念,能夠直接理解爲從大量數據中發現有用的信息。大數據中的數據挖掘,主要是設計並在大數據平臺上實現數據挖掘算法:分類算法、聚類算法、關聯分析等。

對應職位:數據挖掘工程師

7 機器學習

Machine Learning,與數據挖掘常常一塊兒討論,甚至被認爲是同一事物。機器學習是一個計算機與統計學交叉的學科,基本目標是學習一個x->y的函數(映射),來作分類或者回歸的工做。之因此常常和數據挖掘合在一塊兒講是由於如今好多數據挖掘的工做是經過機器學習提供的算法工具實現的,例如個性化推薦,是經過機器學習的一些算法分析平臺上的各類購買,瀏覽和收藏日誌,獲得一個推薦模型,來預測你喜歡的商品。

對應職位:算法工程師,研究員

8 深度學習

Deep Learning,是機器學習裏面的一個topic(很是火的Topic),從深度學習的內容來看其自己是神經網絡算法的衍生,在圖像、語音、天然語言等分類和識別上取得了很是好的效果,大部分的工做是在調參。不知道你們有否發現如今的Google 翻譯比之前的要準確不少,由於Google在去年末將其Google 翻譯的核心從原來基於統計的方法換成了基於神經網絡的方法~So~

對應職位:算法工程師,研究員

9 數據可視化

Data Visualization,將分析、挖掘後的高價值數據用比較優美、靈活的方式展示在老闆、客戶、用戶面前,更多的是一些前端的東西,maybe要求必定的美學知識。結合使用者的喜愛,以最恰當的方式呈現數據價值。

對應職位:數據工程師,BI工程師

10 數據應用

Data Application,從以上的每一個部分能夠衍生出的應用,例如廣告精準投放、個性化推薦、用戶畫像等。

對應職位:數據工程師

楚江數據是一家專業的互聯網數據技術服務商,提供網站APP數據採集和爬蟲軟件定製開發服務,服務範圍涵蓋社交網絡、電子商務、分類信息、學術研究等。
官方網站 http://www.chujiangdata.com

做者:Mars
做者:天善智能
連接:https://zhuanlan.zhihu.com/p/...來源:知乎

相關文章
相關標籤/搜索