整個分享分爲三個階段,第一階段先介紹了本身從大學以來從事編程開發以來的相關歷程,第二階段是正式的網絡爬蟲分享流程,詳細總結了網絡爬蟲開發的一些要點,第三階段是解答一些提問,並抽獎送出一些禮品。因此在這裏我會對我昨天分享的主要內容作下總結,另外還會附上視頻回放、PPT,另外還會爲你們送上一些福利,但願你們能夠支持!html
總括python
整個分享的主題叫作《健壯高效的網絡爬蟲》,本次分享從抓取、解析、存儲、反爬、加速五個方面介紹了利用 Python 進行網絡爬蟲開發的相關知識點和技巧,介紹了不一樣場景下如何採起不一樣措施高效地進行數據抓取的方法,包括 Web 抓取、App 抓取、數據存儲、代理選購、驗證碼破解、分佈式抓取及管理、智能解析等多方面的內容,另外還結合了不一樣場景介紹了經常使用的一些工具包,所有內容是我在從事網絡爬蟲研究過程以來的經驗精華總結。mysql
爬取git
對於爬取來講,咱們須要學會使用不一樣的方法來應對不一樣情景下的數據抓取任務。若是你在學習Python的過程當中碰見了不少疑問和難題,能夠加-q-u-n 227 -435-450裏面有軟件視頻資料免費github
爬取的目標絕大多數狀況下要麼是網頁,要麼是 App,因此這裏就分爲這兩個大類別來進行了介紹。正則表達式
對於網頁來講,我又將其劃分爲了兩種類別,即服務端渲染和客戶端渲染,對於 App 來講,我又針對接口的形式進行了四種類別的劃分——普通接口、加密參數接口、加密內容接口、很是規協議接口。redis
因此整個大綱是這樣子的:算法
爬取 / 網頁爬取sql
服務端渲染的意思就是頁面的結果是由服務器渲染後返回的,有效信息包含在請求的 HTML 頁面裏面,好比貓眼電影這個站點。客戶端渲染的意思就是頁面的主要內容由 JavaScript 渲染而成,真實的數據是經過 Ajax 接口等形式獲取的,好比淘寶、微博手機版等等站點。數據庫
服務端渲染的狀況就比較簡單了,用一些基本的 HTTP 請求庫就能夠實現爬取,如 urllib、urllib三、pycurl、hyper、requests、grab 等框架,其中應用最多的可能就是 requests 了。
對於客戶端渲染,這裏我又劃分了四個處理方法:
爬取 / App 爬取
對於 App 的爬取,這裏分了四個處理狀況:
以上即是爬取流程的相關分類和對應的處理方法。
解析
對於解析來講,對於 HTML 類型的頁面來講,經常使用的解析方法其實無非那麼幾種,正則、XPath、CSS Selector,另外對於某些接口,常見的可能就是 JSON、XML 類型,使用對應的庫進行處理便可。
這些規則和解析方法其實寫起來是很繁瑣的,若是咱們要爬上萬個網站,若是每一個網站都去寫對應的規則,那麼不就太累了嗎?因此智能解析即是一個需求。
智能解析意思就是說,若是能提供一個頁面,算法能夠自動來提取頁面的標題、正文、日期等內容,同時把無用的信息給刨除,例如上圖,這是 Safari 中自帶的閱讀模式自動解析的結果。
對於智能解析,下面分爲四個方法進行了劃分:
若是可以容忍必定的錯誤率,可使用智能解析來大大節省時間。
目前這部份內容我也還在探索中,準確率有待繼續提升。
存儲
存儲,即選用合適的存儲媒介來存儲爬取到的結果,這裏仍是分爲四種存儲方式來進行介紹。
這部分的關鍵在於和實際業務相結合,看看選用哪一種方式更能夠應對業務需求。
反爬
反爬這部分是個重點,爬蟲如今已經愈來愈難了,很是多的網站已經添加了各類反爬措施,在這裏能夠分爲非瀏覽器檢測、封 IP、驗證碼、封帳號、字體反爬等。
下面主要從封 IP、驗證碼、封帳號三個方面來闡述反爬的處理手段。
反爬 / 封 IP
對於封 IP 的狀況,能夠分爲幾種狀況來處理:
反爬 / 驗證碼
驗證碼分爲很是多種,如普通圖形驗證碼、算術題驗證碼、滑動驗證碼、點觸驗證碼、手機驗證碼、掃二維碼等。
反爬 / 封帳號
某些網站須要登陸才能爬取,可是一個帳號登陸以後請求過於頻繁會被封號,爲了不封號,能夠採起以下措施:
加速
當爬取的數據量很是大時,如何高效快速地進行數據抓取是關鍵。
常見的措施有多線程、多進程、異步、分佈式、細節優化等。
加速 / 多線程、多進程
爬蟲是網絡請求密集型任務,因此使用多進程和多線程能夠大大提升抓取效率,如使用 threading、multiprocessing 等。
加速 / 異步
將爬取過程改爲非阻塞形式,當有響應式再進行處理,不然在等待時間內能夠運行其餘任務,如使用 asyncio、aiohttp、Tornado、Twisted、gevent、grequests、pyppeteer、pyspider、Scrapy 等。
加速 / 分佈式
分佈式的關鍵在於共享爬取隊列,可使用 celery、huey、rq、rabbitmq、kafka 等來實現任務隊列的對接,也可使用現成的框架 pyspider、Scrapy-Redis、Scrapy-Cluster 等。
加速 / 優化
能夠採起某些優化措施來實現爬取的加速,如:
加速 / 架構
若是搭建了分佈式,要實現高效的爬取和管理調度、監控等操做,咱們可使用兩種架構來維護咱們的爬蟲項目。
以上即是我分享的所有內容,全部的內容幾乎都展開說了,一共講了一個半小時。