大數據:是數據科學中的一個分支。至於數據科學,其被認爲是數學,計算機知識和某個專業領域知識的交叉學科。計算機知識和數學的交集區域,被稱爲機器學習;數學和某專業領域知識的交集,屬於傳統研究範疇。並且大數據領域又能夠劃分爲幾個主要的方向:html
- 數據平臺 (Data Platform): 構建、維護穩定、安全的大數據平臺,按需設計大數據架構,調研大數據產品、方案、實施部署上線。
- 數據採集(Data Collecting): 從網頁/Sensor/RDBMS等渠道獲取數據,爲大數據平臺提供數據來源。如:Apache Nutch 是開源的分佈式數據採集組件,Python爬蟲框架ScraPy等。
- 數據倉庫(Data Warehouse): 設計數倉層級結構、ETL、進行數據建模。如:Hive就是基於Hadoop的數據倉庫。
- 數據處理(Data Processing): 完成某種特定需求中的處理或者數據清洗,結合在數據倉庫中一塊兒作的,利用工具直接配置處理,寫代碼的部分比較少。是數據分析、數據挖掘等工做的基礎。
- 數據分析 (Data Analysis): 基於統計分析方法開展工做,如:迴歸分析,方差分析等。
- 數據挖掘(Data Mining): 概念較爲寬泛,設計在大數據平臺上實現算法:分類,聚類,關聯分析等。
- 機器學習(Machine Learning): 與數據挖掘比較相近,是計算機與統計學交叉的學科,基於業務目標學習一個函數(映射),作分類或者回歸的工做。如:個性化推薦。
- 深度學習(Deep Learning): 機器學習的一個分支,利用神經網絡,處理圖像、語音、天然語言等分類和識別這些分類,調參是很重要的部分。
- 數據可視化(Data Visualization): 分析、挖掘後獲得的數據結果以合適與恰當的方式展現出來。
- 數據應用(Data Application): 廣告精準投放、個性化推薦、用戶畫像等。
現今普光率比較高的分支,數據分析、數據挖掘、機器學習、數據可視化和深度學習,其中深度學習和人工智能的關係很是緊密,被認爲是AI發展的基礎。算法