python數據科學導論--讀書筆記01

一、大數據是數據集的總稱,傳統管理技術很難處理大型或複雜數據。大數據具備四大特色:高速,多樣化,體積大和準確。數據庫

二、數據科學是使用方法來分析由小數據集組成的龐大的大數據;編程

三、儘管數據科學流程不是線性的,但可分爲如下步驟:安全

  a、設置研究目標;框架

  b、檢索數據;機器學習

  c、數據準備;分佈式

  d、數據探索;oop

  e、數據建模;學習

  f、展現與自動化測試

四、大數據技術不單單是Hadoop。它有許多不一樣技術組成,能夠分爲如下幾類:大數據

  a、文件系統;

  b、分佈式編程框架;

  c、數據集成;

  d、數據庫;

  e、機器學習;

  f、安全;

  g、工做流;

  h、基準測試;

  i、系統部署;

  j、服務開發

五、並非每一個大數據類別都須要數據科學家利用大量的數據。他們主要關注文件系統、分佈式編程框架、數據庫和機器學習。他們確實接觸到其餘部分,但這些都是其餘職業領域。

六、數據能夠有不一樣的形式。主要有:

  a、結構和數據;

  b、非結構化數據;

  c、天然語言數據;

  d、計算機數據;

  e、圖類數據;

  f、流數據’

相關文章
相關標籤/搜索