Python分佈式爬蟲必學框架Scrapy打造搜索引擎完整版附代碼

時間 2020-12-26

標籤 php css html python mysql linux web 正則表達式 redis 算法欄目 Python 简体版

原文原文鏈接

課程介紹

將來是什麼時代？是數據時代！數據分析服務、互聯網金融，數據建模、天然語言處理、醫療病例分析……愈來愈多的工做會基於數據來作，而爬蟲正是快速獲取數據最重要的方式，相比其它語言，Python爬蟲更簡單、高效

單機爬蟲（Scrapy）到分佈式爬蟲（Scrapy-Redis）的完美實戰

不怕你和別的爬蟲課程比較，隨便去看，你會明白，慕課網的情懷歷來不是靠嘴說的，是靠高質量內容體現的

課程亮點

說真的，你再也沒有理由學不會爬蟲了

從0開始講解

爬蟲基本原理

講精講透

最流行爬蟲框架

Scrapy

從單機爬蟲到

分佈式爬蟲

爬取知名網站

真實數據

打造本身的

搜索引擎

從0講解爬蟲基本原理，對爬蟲中所須要用到的知識點進行梳理，從搭建開發環境、設計數據庫開始，經過爬取三個知名網站的真實數據，帶你由淺入深的掌握Scrapy原理、各模塊使用、組件開發，Scrapy的進階開發以及反爬蟲的策略

完全掌握Scrapy以後，帶你基於Scrapy、Redis、elasticsearch和django打造一個完整的搜索引擎網站

課程目錄

第1章課程介紹

介紹課程目標、經過課程能學習到的內容、和系統開發前須要具有的知識

1-1python分佈式爬蟲打造搜索引擎簡介試看

第2章windows下搭建開發環境

介紹項目開發須要安裝的開發軟件、python虛擬virtualenv和virtualenvwrapper的安裝和使用、最後介紹pycharm和navicat的簡單使用

2-1pycharm的安裝和簡單使用

2-2mysql和navicat的安裝和使用

2-3windows和linux下安裝python2和python3

2-4虛擬環境的安裝和配置

第3章爬蟲基礎知識回顧

介紹爬蟲開發中須要用到的基礎知識包括爬蟲能作什麼，正則表達式，深度優先和廣度優先的算法及實現、爬蟲url去重的策略、完全弄清楚unicode和utf8編碼的區別和應用。

3-1技術選型爬蟲能作什麼

3-2正則表達式-1

3-3正則表達式-2

3-4正則表達式-3

3-5深度優先和廣度優先原理

3-6url去重方法

3-7完全搞清楚unicode和utf8編碼

第4章scrapy爬取知名技術文章網站

搭建scrapy的開發環境，本章介紹scrapy的經常使用命令以及工程目錄結構分析，本章中也會詳細的講解xpath和css選擇器的使用。而後經過scrapy提供的spider完成全部文章的爬取。而後詳細講解item以及itemloader方式完成具體字段的提取後使用scrapy提供的pipeline分別將數據保存到json文件以及mysql數據庫中。...

4-1關於文章網站不能訪問的解決辦法(本章學習以前的注意事項)

4-2scrapy安裝以及目錄結構介紹

4-3pycharm調試scrapy執行流程

4-4xpath的用法-1

4-5xpath的用法-2

4-6xpath的用法-3

4-7css選擇器實現字段解析-1

4-8css選擇器實現字段解析-2

4-9編寫spider爬取jobbole的全部文章-1

4-10編寫spider爬取jobbole的全部文章-2

4-11items設計-1

4-12items設計-2

4-13items設計-3

4-14數據表設計和保存item到json文件

4-15經過pipeline保存數據到mysql-1

4-16經過pipeline保存數據到mysql-2

4-17scrapyitemloader機制-1

4-18scrapyitemloader機制-2

第5章scrapy爬取知名問答網站

本章主要完成網站的問題和回答的提取。本章除了分析出問答網站的網絡請求之外還會分別經過requests和scrapy的FormRequest兩種方式完成網站的模擬登陸，本章詳細的分析了網站的網絡請求並分別分析出了網站問題回答的api請求接口並將數據提取出來後保存到mysql中。...

sion和cookie自動登陸機制試看

5-2.selenium模擬登陸知乎-1new

5-3.selenium模擬登陸知乎-2new

5-4.selenium模擬登陸知乎-3new

5-5.知乎倒立文字識別new

5-6.selenium自動識別驗證碼完成模擬登陸-1new

5-7.selenium自動識別驗證碼完成模擬登陸-2new

5-8requests模擬登錄知乎-1(可選觀看)

5-9requests模擬登錄知乎-2（可選觀看）

5-10requests模擬登錄知乎-3（可選觀看）

5-11scrapy模擬知乎登陸（可選觀看）

5-12知乎分析以及數據表設計1

5-13知乎分析以及數據表設計-2

5-14itemloder方式提取question-1

5-15itemloder方式提取question-2

5-16itemloder方式提取question-3

5-17知乎spider爬蟲邏輯的實現以及answer的提取-1

5-18知乎spider爬蟲邏輯的實現以及answer的提取-2

5-19保存數據到mysql中-1

5-20保存數據到mysql中-2

5-21保存數據到mysql中-3

第6章經過CrawlSpider對招聘網站進行整站爬取

本章完成招聘網站職位的數據表結構設計，並經過linkextractor和rule的形式並配置CrawlSpider完成招聘網站全部職位的爬取，本章也會從源碼的角度來分析CrawlSpider讓你們對CrawlSpider有深刻的理解。

6-1數據表結構設計

6-2CrawlSpider源碼分析-新建CrawlSpider與settings配置

6-3CrawlSpider源碼分析

6-4Rule和LinkExtractor使用

6-5拉勾網302以後的模擬登陸和cookie傳遞(網站須要登陸時學習本視頻教程)

6-6itemloader方式解析職位

6-7職位數據入庫-1

6-8職位信息入庫-2

第7章Scrapy突破反爬蟲的限制

本章會從爬蟲和反爬蟲的鬥爭過程開始講解，而後講解scrapy的原理，而後經過隨機切換user-agent和設置scrapy的ip代理的方式完成突破反爬蟲的各類限制。本章也會詳細介紹httpresponse和httprequest來詳細的分析scrapy的功能，最後會經過雲打碼平臺來完成在線驗證碼識別以及禁用cookie和訪問頻率來下降爬蟲被屏蔽的可能性。...

7-1爬蟲和反爬的對抗過程以及策略試看

7-2scrapy架構源碼分析

7-3Requests和Response介紹

7-4經過downloadmiddleware隨機更換user-agent-1

7-5經過downloadmiddleware隨機更換user-agent-2

7-6scrapy實現ip代理池-1

7-7scrapy實現ip代理池-2

7-8scrapy實現ip代理池-3

7-9雲打碼實現驗證碼識別

7-10cookie禁用、自動限速、自定義spider的settings

第8章scrapy進階開發

本章將講解scrapy的更多高級特性，這些高級特性包括經過selenium和phantomjs實現動態網站數據的爬取以及將這兩者集成到scrapy中、scrapy信號、自定義中間件、暫停和啓動scrapy爬蟲、scrapy的核心api、scrapy的telnet、scrapy的webservice和scrapy的log配置和email發送等。這些特性使得咱們不只只是能夠經過scrapy來完成...

8-1selenium動態網頁請求與模擬登陸知乎

8-2selenium模擬登陸微博，模擬鼠標下拉

8-3chromedriver不加載圖片、phantomjs獲取動態網頁

8-4selenium集成到scrapy中

8-5其他動態網頁獲取技術介紹-chrome無界面運行、scrapy-splash、selenium-grid,splinter

8-6scrapy的暫停與重啓

8-7scrapyurl去重原理

8-8scrapytelnet服務

8-9spidermiddleware詳解

8-10scrapy的數據收集

8-11scrapy信號詳解

8-12scrapy擴展開發

第9章scrapy-redis分佈式爬蟲

Scrapy-redis分佈式爬蟲的使用以及scrapy-redis的分佈式爬蟲的源碼分析，讓你們能夠根據本身的需求來修改源碼以知足本身的需求。最後也會講解如何將bloomfilter集成到scrapy-redis中。

9-1分佈式爬蟲要點

9-2redis基礎知識-1

9-3redis基礎知識-2

9-4scrapy-redis編寫分佈式爬蟲代碼

9-5scrapy源碼解析-connection.py、defaults.py-

9-6scrapy-redis源碼剖析-dupefilter.py-

9-7scrapy-redis源碼剖析-pipelines.py、queue.py-

9-8scrapy-redis源碼分析-scheduler.py、spider.py-

9-9集成bloomfilter到scrapy-redis中

第10章elasticsearch搜索引擎的使用

本章將講解elasticsearch的安裝和使用，將講解elasticsearch的基本概念的介紹以及api的使用。本章也會講解搜索引擎的原理並講解elasticsearch-dsl的使用，最後講解如何經過scrapy的pipeline將數據保存到elasticsearch中。

10-1elasticsearch介紹

10-2elasticsearch安裝

10-3elasticsearch-head插件以及kibana的安裝

10-4elasticsearch的基本概念

10-5倒排索引

10-6elasticsearch基本的索引和文檔CRUD操做

10-7elasticsearch的mget和bulk批量操做

10-8elasticsearch的mapping映射管理

10-9elasticsearch的簡單查詢-1

10-10elasticsearch的簡單查詢-2

10-11elasticsearch的bool組合查詢

10-12scrapy寫入數據到elasticsearch中-1

10-13scrapy寫入數據到elasticsearch中-2

第11章django搭建搜索網站

本章講解如何經過django快速搭建搜索網站，本章也會講解如何完成django與elasticsearch的搜索查詢交互。

11-1es完成搜索建議-搜索建議字段保存-1

11-2es完成搜索建議-搜索建議字段保存-2

11-3django實現elasticsearch的搜索建議-1

11-4django實現elasticsearch的搜索建議-2

11-5django實現elasticsearch的搜索功能-1

11-6django實現elasticsearch的搜索功能-2

11-7django實現搜索結果分頁

11-8搜索記錄、熱門搜索功能實現-1

11-9搜索記錄、熱門搜索功能實現-2

第12章scrapyd部署scrapy爬蟲

本章主要經過scrapyd完成對scrapy爬蟲的線上部署。

12-1scrapyd部署scrapy項目

第13章課程總結

從新梳理一遍系統開發的整個過程，讓同窗對系統和開發過程有一個更加直觀的理解

13-1課程總結php