Python數據分析之思惟導圖彙總

關於Python數據分析，其實網上可以找到的學習資源不少，主要分爲兩類：一類是提供各類資源的推薦，好比書單、教程、以及學習的前後順序；另外一類是提供具體的學習內容，知識點或實際案例。html

但不少繁瑣而又雜亂的內容，除了給初學者增長理解和認識的噪音外，真正可以起到明確的方向指引導的，確實很少。以致於不少人一開始沒有明確的方向就一頭扎進去，學了好久殊不知道本身到底在學什麼，或者本身學了好久不知道可以作什麼。python

學習一門技術以前，你應該知道，你想要達成的目標是什麼樣的。也就是說，你想經過這門技術來解決哪些問題。你就能夠知道要達成這樣的目標，它的知識體系是怎麼樣的。更重要一點的是，每一個部分是用來解決哪些問題，只有明確的目標導向，學習最有用的那部分知識，才能避免無效信息下降學習效率。正則表達式

經過這些常見的數據分析場景，你就能夠得到數據分析項目的基本流程。通常大體能夠按「數據獲取-數據存儲與提取-數據預處理-數據建模與分析-數據報告」這樣的步驟來實施一個數據分析項目。算法

按照這個流程，每一個部分須要掌握的細分知識點以下：數據庫

接下來咱們分別從每個部分展開，講講具體應該學什麼、怎麼學，以及各個部分主要的知識點進行結構化地展現，並有針對性地推薦學習資源。apache

如何獲取數據 編程

咱們分析的數據通常有內部數據和外部數據兩種。網頁爬蟲

內部數據是在咱們的業務運轉中產生，好比常見的用戶數據、產品數據、銷售數據、內容數據等等。內部的數據相對來講更加完善、規整，咱們常常要作的工做彙報、產品優化等分析數據通常來源於此。能夠找公司的技術人員索要，或者本身去數據庫提取。數組

固然，不少時候，咱們須要利用外部的數據。好比進行市場調研，競品分析，或者輸出報告的時候，外部數據的分析是必不可少的，這也能夠幫助咱們得出更多的結論。免費領取學習資料和源碼，歡迎加入咱們【python學習交流羣】cookie

1. 公開數據源

UCI：加州大學歐文分校開放的經典數據集，真的很經典，被不少機器學習實驗室採用。

http://archive.ics.uci.edu/ml/datasets.html

國家數據：數據來源於中國國家統計局，包含了我國經濟民生等多個方面的數據。

http://data.stats.gov.cn/index.htm

CEIC：超過128個國家的經濟數據，可以精確查找GDP、CPI、進出口以及國際利率等深度數據。

https://www.ceicdata.com/zh-hans

中國統計信息網：國家統計局的官方網站，聚集了海量的全國各級政府各年度的國民經濟和社會發展統計信息。

http://www.tjcn.org/

政務數據網站：如今各個省都在很大程度上地開放政務數據，好比北京、上海、廣東、貴州等等，都有專門的數據開放網站，搜索好比「北京政務數據開放」。

2. 網絡爬蟲

基於互聯網爬取的數據，你能夠對某個行業、某種人羣進行分析。好比：

職位數據：拉勾、獵聘、51job、智聯

金融數據：IT桔子、雪球網

房產數據：鏈家、安居客、58同城

零售數據：淘寶、京東、亞馬遜

社交數據、微博、知乎、Twitter

影視數據：豆瓣、時光網、貓眼

……

在爬蟲以前你須要先了解一些 Python 的基礎知識：元素（列表、字典、元組等）、變量、循環、函數（菜鳥教程就很好）……

以及如何用成熟的 Python 庫（urllib、BeautifulSoup、requests、scrapy）實現網頁爬蟲。

掌握基礎的爬蟲以後，你還須要一些高級技巧。好比正則表達式、模擬用戶登陸、使用代理、設置爬取頻率、使用cookie等等，來應對不一樣網站的反爬蟲限制。爬蟲能夠說是最爲靈活、有效的數據獲取方式，但學習成本相對來講也要高一些。開始建議先利用公開數據進行分析，後續有更多的數據需求，再上手爬蟲。那個時候你已經掌握了Python基礎，爬蟲上手也會更輕鬆。

3. 其餘數據獲取方式

若是你暫時不會爬蟲，但又有采集數據的需求，能夠嘗試各類採集軟件，不須要編程知識也能夠輕鬆爬取信息，好比火車頭、八爪魚等。不少數據競賽網站也會公開不錯的數據集，好比國外的Kaggle，國內的DataCastle、天池。這些數據都是真實的業務數據，且規模一般不小，能夠常常去搜集和整理。

推薦數據彙總資源：

數據獲取方式彙總 https://dwz.cn/Q44MsDkH

經常使用的數據獲取方式以下:

數據存儲與提取

數據庫這個技能放在這裏，是由於這是數據分析師的必備技能。大多數的企業，都會要求你有操做、管理數據庫的基本技能，進行數據的提取和基本分析。SQL做爲最經典的關係型數據庫語言，爲海量數據的存儲與管理提供可能。MongoDB則是新崛起的非關係型數據庫，掌握一種便可。

初學建議SQL。你須要掌握如下技能：

1.查詢/提取特定狀況下的數據：企業數據庫裏的數據必定是巨量而繁複的，你須要提取你想要的那一部分。

好比你能夠根據你的須要提取2017年全部的銷售數據、提取今年銷量最大的50件商品的數據、提取上海、廣東地區用戶的消費數據……

2.數據庫的增、刪、改：這些是數據庫最基本的操做，但只要用簡單的命令就可以實現。

3.數據的分組聚合、創建多個表之間的聯繫：這個部分是數據庫的進階操做，多個表之間的關聯。

在你處理多維度、多個數據集的時候很是有用，這也讓你能夠去處理更復雜的數據。

數據庫聽起來很可怕，但其實知足數據分析的那部分技能不要太簡單。固然，仍是建議你找一個數據集來實際操做一下，哪怕是最基礎的查詢、提取等操做。

推薦數據庫教程：

SQL-菜鳥教程 https://dwz.cn/a042MLdz

MongoDB-菜鳥教程 https://dwz.cn/sJFhRzj1

mySQL知識框架以下：

MongoDB知識框架以下：

數據清洗及預分析

不少時候咱們拿到的數據是不乾淨的，數據的重複、缺失、異常值等等。這時候就須要進行數據的清洗，把這些影響分析的數據處理好，才能得到更加精確地分析結果。好比空氣質量的數據，其中有數日的數據因爲設備的緣由是沒有監測到的，有一些數據是記錄重複的，還有一些數據是設備故障時監測無效的。好比用戶行爲數據，有不少無效的操做對分析沒有意義，就須要進行刪除。

·選擇：數據訪問（標籤、特定值、布爾索引等）

·缺失值處理：對缺失數據行進行刪除或填充

·重複值處理：重複值的判斷與刪除

·空格和異常值處理：清楚沒必要要的空格和極端、異常數據

·相關操做：描述性統計、Apply、圖形繪製等

從數據處理開始，就須要介入編程知識了，但沒必要把Python的教程徹底啃一遍，只須要掌握數據分析必備的那部分便可。

·基本的數據類型：好比字符串、列表、字典、元組，不一樣的數據類型如何建立、進行增、刪、改等操做，以及其中經常使用的函數及方法；

·Python函數：學習如何去建立本身的函數，實現更豐富的定製化程序，知道在使用中如何調用；

·控制語句：主要是條件語句和循環語句，利用不一樣的語句對流程進行控制，這是實現程序的自動化的基礎。

Python教程推薦：

Python3-菜鳥教程 https://dwz.cn/2nJnWkrp

Python練手項目合集 https://dwz.cn/cpM0jua5

Python基礎知識框架以下：

另外，Python中兩個很是重要的庫Numpy和Pandas也是須要掌握的，咱們的不少數據處理及分析方法就源於其中。若是把Python比做是咱們的房子，爲咱們提供基礎的框架，那麼Numpy和Pandas就是房子裏的傢俱和電器，爲咱們入住提供各類功能。固然，即使只是這兩個庫，官方文檔的內容也是很是多的，建議先掌握最經常使用的一些方法，這樣你能夠解決大部分的實際問題，若後續遇到問題能夠有針對性地去查詢文檔。

Numpy

·數組建立：從已有的數組建立、從數值範圍建立

·數組切片：經過切片進行選擇

·數組操做：元素增刪、數組維度修改、數組的分割及鏈接

·Numpy函數：字符串函數、數學函數、統計函數

推薦Numpy文檔：

Nump快速入門 http://h5ip.cn/ypHr

Numpy中文文檔 https://www.numpy.org.cn/

Numpy知識框架以下：

Pandas

·數據準備：數據讀取、建立數據表

·數據查看：查看數據基本信息、查找空值和惟一值

·數據清洗：缺失值處理、重複值處理、字符處理

·數據提取：按標籤值進行提取、按位置進行提取

·數據統計：採樣、彙總、基本的統計量計算

推薦Pandas文檔：

十分鐘入門Pandas http://t.cn/EVTGis7

Pandas中文文檔 https://www.pypandas.cn/

Pandas知識框架以下：

數據清洗是數據預處理的重要組成部分，也是耗時間最長的一部分，所以根本多篇文章總結腦圖便於本身梳理清楚數據清洗的處理步驟，由此知道數據清洗該如何下手。
借鑑文章及數據以下：
專欄1：數據清洗https://zhuanlan.zhihu.com/dataclean ：詳細介紹了數據清洗的主要方面
專欄2：python3 pandas庫https://zhuanlan.zhihu.com/c_129235459：數據清洗主要用pandas庫，其中有不少函數衆多，該專欄將主要函數介紹的相對清楚
書籍：《利用python進行數據分析》

數據分析及建模

若是你有一些瞭解的話，就知道目前市面上其實有不少 Python 數據分析的書籍，但每一本都很厚，學習阻力很是大。若是沒有總體的認識，每每不知道爲何要學習這些操做，這在數據分析中到底起什麼樣的做用。爲了得出廣泛意義上的結論（或者從通常的數據分析項目來看），咱們一般要進行三種類型的數據分析：描述性分析、探索性分析以及預測性分析。

描述性分析主要是有目的去描述數據，這就要藉助統計學的知識，好比基本的統計量、整體樣本、各類分佈等等。

經過這些信息，咱們能夠得到對數據的初步感知，也可以獲得不少簡單觀察得不到的結論。

因此其實描述性的分析主要須要兩個部分的知識，其一是統計學的基礎，其二是實現描述性的工具，用上述 Numpy 和 Pandas 的知識便可實現。

探索性分析一般須要藉助可視化的手段，利用圖形化的方式，更進一步地去觀看數據的分佈規律，發現數據裏的知識，獲得更深刻的結論。

所謂「探索」，事實上有不少結論咱們是沒法提早預知的，圖形則彌補了觀察數據和簡單統計的不足。

Python中的Seaborn和Matplotlib庫都提供了強大的可視化功能。

相對於Matplotlib，Seaborn更加簡單易於理解，畫基本的圖形也就是幾行代碼的事情，更推薦初學使用。

如後續須要定製化圖形，可進一步瞭解Matplotlib。

預測性的數據分析主要用於預測將來的數據，好比根據歷史銷售數據預測將來某段時間的銷售狀況，好比經過用戶數據預測將來用戶的行爲……

預測性分析稍難，越深刻會涉及更多數據挖掘、機器學習的知識，因此能夠只作作基本瞭解（或者等有需求的時候再學習）。

好比基本的迴歸、分類算法，以及如何用Python的scikit-learn庫去實現，至於機器學習相關的算法選擇、模型調優則沒必要深刻（除非你遊刃有餘）。

推薦數據分析資料：

書籍《深刻淺出統計學》《商務與經濟統計學》

Matplotlib中文文檔 https://www.matplotlib.org.cn

十分鐘掌握Seaborn https://dwz.cn/4ePGzwAg

Scikit-learn中文文檔 http://sklearn.apachecn.org

數據分析建模知識框架以下：

撰寫數據報告

數據報告是整個數據分析項目的最終呈現，也是全部分析過程的總結，輸出結論和策略的部分。因此不管你的心路歷程多麼精彩，數據報告纔是最終決定你分析價值的產物。要寫好一個分析報告，首先要明確數據分析任務的目標，是要探索數據裏的知識，還有要對產品進行優化，或者預測將來的數據。針對這些目標，那麼須要對問題進行拆分，要達到目標，必需要輸出哪些有價值的信息。

對於最終的決策，哪些數據、信息是有用的，是否要進一步探索，哪些是無效的，是否直接丟棄。肯定好輸出的大體內容、在數據分析過程當中獲得有用的結論以後，接下來應該思考，如何把這些分散的信息整合起來，爲了達到最終的說服力，應該以怎樣的邏輯進行整合。

這是一個創建框架的過程，同時也反映這這個問題的拆解思路。在搭建好框架以後，就是把已有的結論填充進去，選擇合適的表達形式。選擇更合適的數據，哪些須要更加直觀的圖表，哪些結論須要進行詳細的解釋，並進行最終的美化設計，這樣一份完整的數據分析報告也就完成了。

在寫分析報告時，有一些必定要注意的地方：

1.必定要有框架，最簡單的就是以問題拆分的邏輯來進行搭建，在每一個分支進行內容填充，分點說明；

2.數據的選擇不要過於片面，要多元化，進行對比分析，不然結論可能有失偏頗。

數據的價值決定了分析項目的上限，儘量多收集有用的數據，進行多維度的分析；

3.結論必定要有客觀的數據論證，或者嚴密的邏輯推導，不然沒有說服力，特別容易陷入自嗨；

4.圖表比文字更加直觀，並且可讀性更高，應該多利用圖形化的表達方式；

5.分析報告不僅是要說明問題，更重要的是基於問題提出建議、解決方案、預測趨勢；

6.多看行業報告，多練習，Business Sense 在後期比技巧更重要。

推薦數據報告相關網站：

艾瑞網-數據報告 http://report.iresearch.cn/

友盟+-數據報告 http://t.cn/EVT6Z6z

世界經濟論壇報告 http://t.cn/RVncVVv

普華永道行業報告 http://t.cn/RseRaoE

撰寫數據報告的框架以下：

以上就是Python數據分析完整的學習路徑，只須要一些業務的常識，像均值、極值、排序、相關性、中位數……這些東西咱們信手捏來的東西每每佔據數據分析的絕大多數內容，你所學的只不過是實現這些的工具而已。就像一個100行的數據，給任何一個智力正常的人，不用任何工具和編程技術，他也能得到一份基本的結論，而工具則是讓咱們在效率、可擴展性和實現維度方面獲得更好的提高.