python大數據挖掘和分析的套路

時間 2019-11-19

原文原文鏈接

　　大數據的4V特色：python

　　Volume（大量）：數據巨大。
　　Velocity（高速）：數據產生快，每一天每一秒全球人產生的數據足夠龐大且數據處理也逐漸變快。
　　Variety（多樣）：數據格式多樣化，如音頻數據、文本數據等
　　Value（價值）：經過收集大量數據不相關數據探查並證實其二者之間的關聯性，所產生的價值，如買啤酒的人一般會購買尿布的案例。正則表達式

　　數據分析流程算法

　　通常能夠按「數據獲取-數據存儲與提取-數據預處理-數據建模與分析-數據可視化」這樣的步驟來實施一個數據分析項目。按照這個流程，每一個部分須要掌握的細分知識點以下：數據庫

　　咱們能夠經過如下的工具包，來實現整個數據分析的流程：numpy(科學計算/矩陣)、Pandas(數據處理/分析)、Matplotlib（數據圖表）、seaborn（數據可視化）等。網頁爬蟲

　　數據分析中80%的時間都是在數據清理部分，loading, clearning, transforming, rearranging。而pandas很是適合用來執行這些任務。api

　　數據分析的模塊有哪些：數組

numpy 高效處理數據，提供數組支持，不少模塊都依賴它，好比pandas，scipy，matplotlib都依賴他，因此這個模塊都是基礎。因此必須先安裝numpy。
pandas 主要用於進行數據的採集與分析
scipy 主要進行數值計算。同時支持矩陣運算，並提供了不少高等數據處理功能，好比積分，微分方程求樣等。
matplotlib 做圖模塊，結合其餘數據分析模塊，解決可視化問題
statsmodels 這個模塊主要用於統計分析
Gensim 這個模塊主要用於文本挖掘
sklearn，keras 前者機器學習，後者深度學習。

　　數據獲取：公開數據、Python爬蟲cookie

　　外部數據的獲取方式主要有如下兩種。機器學習

　　第一種是獲取外部的公開數據集，一些科研機構、企業、政府會開放一些數據，你須要到特定的網站去下載這些數據。這些數據集一般比較完善、質量相對較高。scrapy

　　另外一種獲取外部數據的方式就是爬蟲。

　　好比你能夠經過爬蟲獲取招聘網站某一職位的招聘信息，爬取租房網站上某城市的租房信息，爬取豆瓣評分評分最高的電影列表，獲取知乎點贊排行、網易雲音樂評論排行列表。基於互聯網爬取的數據，你能夠對某個行業、某種人羣進行分析。

　　在爬蟲以前你須要先了解一些 Python 的基礎知識：元素（列表、字典、元組等）、變量、循環、函數………

　　以及，如何用 Python 庫（urllib、BeautifulSoup、requests、scrapy）實現網頁爬蟲。

　　掌握基礎的爬蟲以後，你還須要一些高級技巧，好比正則表達式、使用cookie信息、模擬用戶登陸、抓包分析、搭建代理池等等，來應對不一樣網站的反爬蟲限制。

　　數據存取：SQL語言

　　在應對萬之內的數據的時候，Excel對於通常的分析沒有問題，一旦數據量大，就會力不從心，數據庫就可以很好地解決這個問題。並且大多數的企業，都會以SQL的形式來存儲數據。

　　SQL做爲最經典的數據庫工具，爲海量數據的存儲與管理提供可能，而且使數據的提取的效率大大提高。你須要掌握如下技能：

　　提取特定狀況下的數據