數據分析由三大重要部分組成:python
1.數據採集。它是咱們的原材料,由於任何分析都是須要數據源;算法
2.數據挖掘。它能夠說是最「高大上」的部分,也是整個商業價值所在。數據挖掘的核心是挖掘數據的商業價值,也就是咱們所談的商業智能BIpython爬蟲
3.數據可視化。它能夠說是數據領域中萬金油的技能,能夠讓咱們直觀的瞭解到分析數據的結果。工具
下面總結詳解這三大部分的內容:優化
一 數據採集設計
採集工具:八爪魚,自動抓取的神器,它能夠幫你抓取 99% 的頁面源。3d
python爬蟲:可編寫,採集,存儲數據,以及自動化採集設計。blog
二數據挖掘數據分析
它能夠說是知識型的工程,至關於整個專欄中的「算法」部分。首先要知道他的基本流程,算法,以及底層的數學基礎。數學
基本流程:商業理解,數據理解,數據準備,模型創建,模型評估,上線發佈
算法:分類算法,聚類算法,關聯分析,鏈接分析
數學基礎:機率論和數據統計,線性代數,圖論,最優化方法
三數據可視化
當數據量大的時候很難理解,可視化能夠幫咱們很好地理解這些數據的結構,以及分析結果的視覺呈現。
數據可視化有兩種方法(並非所有):
1.python第三方庫:Matplotlib,Seaborn等
2.第三方工具:若是生成了csv格式文件,想要採用所見即得的方式進行呈現,能夠採用微圖,DataV,Data GIF Maker等第三方工具。