'''
爬蟲的構成
下載器: 抓取頁面
urllib
equests
selenium + webdriver
解析器: 解釋並提取頁面元素
BeautifulSoup4
PyQuery
Xpath
Regular Expression
調度器:協調完成所有抓取任務
進程
線程
協程
分佈式抓取
處理器:
數據清洗
數據入庫
圖片上傳html
'''
# 開始一個爬蟲
'''
一、肯定一個抓取目標
二、頁面分析
① pyquery
② xpath
③ json
④ regexp
三、流程規則
四、存儲規則
'''
'''
超文本傳輸協議 HTTP
統一資源定位符 URL
http://example.com:80/123/456/789?x=0&y=abc#part1
組成:
scheme: http、https
hostname: example.com
port: 80
path:/123/456/789
query: ?x=0&y=abc
fragment: #part1
'''
'''
Request
Method(方法) 做用
GET 請求一個指定資源的表示形式,使用GET請求應該只被用於獲取數據
HEAD 請求一個月GET請求響應相同的響應,但沒有響應體
POST 用於將實體提交到指定的資源,一般致使狀態或服務器上的反作用更改
PUT 用於請求有效載荷替換目標資源的左右當前表示
DELETE 刪除指定的資源
OPTIONS 用於描述目標資源的通訊選型
CONNNET 創建目標資源標識的服務器隧道,主要用於作代理服務器
TRACE 執行一個消息迴環測試,主要用於診斷
PATCH 用於對資源應用部分修改
'''
'''
Header
Header Names 描述
Accept text/plain 告訴服務器接受什麼介質類型,/ 表示任何類型,type/* 表示該類型下的全部子類
Accept-Charset utf-8 瀏覽器申明本身接收的字符集
Accept-Encoding gzip 瀏覽器申明本身接收的編碼方法,一般指定壓縮方法
Accept-language zh-CN en-US 瀏覽器申明本身接收的語言
Cache-Control true,max-age 設置是否容許被緩存,緩存有效時間,也能夠經過 no-cache 指令來禁止緩存
connection keep-alive 又稱持久鏈接、鏈接重用
content-length 當內容將要被傳輸到瀏覽器時,服務器能夠經過該頭部告知瀏覽器將要傳送文件的大小(bytes)
content-Type 指定響應的內容類型,瀏覽器將會依據該參數決定如何對文檔進行解析,默認 text/html
User-Agent 瀏覽器標識
Cookie cookie信息
Referer 當前頁面是經過此來源頁面裏的連接進入的
'''web