一、大數據是數據集的總稱,傳統管理技術很難處理大型或複雜數據。大數據具備四大特色:高速,多樣化,體積大和準確。數據庫
二、數據科學是使用方法來分析由小數據集組成的龐大的大數據;編程
三、儘管數據科學流程不是線性的,但可分爲如下步驟:安全
a、設置研究目標;框架
b、檢索數據;機器學習
c、數據準備;分佈式
d、數據探索;oop
e、數據建模;學習
f、展現與自動化測試
四、大數據技術不單單是Hadoop。它有許多不一樣技術組成,能夠分爲如下幾類:大數據
a、文件系統;
b、分佈式編程框架;
c、數據集成;
d、數據庫;
e、機器學習;
f、安全;
g、工做流;
h、基準測試;
i、系統部署;
j、服務開發
五、並非每一個大數據類別都須要數據科學家利用大量的數據。他們主要關注文件系統、分佈式編程框架、數據庫和機器學習。他們確實接觸到其餘部分,但這些都是其餘職業領域。
六、數據能夠有不一樣的形式。主要有:
a、結構和數據;
b、非結構化數據;
c、天然語言數據;
d、計算機數據;
e、圖類數據;
f、流數據’