爬蟲-day01-基礎知識

'''
爬蟲的構成
下載器: 抓取頁面
  urllib
  equests
  selenium + webdriver
解析器: 解釋並提取頁面元素
  BeautifulSoup4
  PyQuery
  Xpath
  Regular Expression
調度器:協調完成所有抓取任務
  進程
  線程
  協程
  分佈式抓取
處理器:
  數據清洗
  數據入庫
  圖片上傳html

'''
# 開始一個爬蟲
'''
一、肯定一個抓取目標
二、頁面分析
  ① pyquery
  ② xpath
  ③ json
  ④ regexp
三、流程規則
四、存儲規則
'''
'''
超文本傳輸協議 HTTP
統一資源定位符 URL
  http://example.com:80/123/456/789?x=0&y=abc#part1
  組成:
  scheme: http、https
  hostname: example.com
  port: 80
  path:/123/456/789
  query: ?x=0&y=abc
  fragment: #part1
'''
'''
Request
Method(方法)    做用
GET       請求一個指定資源的表示形式,使用GET請求應該只被用於獲取數據
HEAD      請求一個月GET請求響應相同的響應,但沒有響應體
POST      用於將實體提交到指定的資源,一般致使狀態或服務器上的反作用更改
PUT        用於請求有效載荷替換目標資源的左右當前表示
DELETE      刪除指定的資源
OPTIONS    用於描述目標資源的通訊選型
CONNNET       創建目標資源標識的服務器隧道,主要用於作代理服務器
TRACE       執行一個消息迴環測試,主要用於診斷
PATCH        用於對資源應用部分修改
'''
'''
Header
Header Names                 描述
Accept text/plain        告訴服務器接受什麼介質類型,/ 表示任何類型,type/* 表示該類型下的全部子類
Accept-Charset utf-8       瀏覽器申明本身接收的字符集
Accept-Encoding gzip     瀏覽器申明本身接收的編碼方法,一般指定壓縮方法
Accept-language zh-CN en-US 瀏覽器申明本身接收的語言
Cache-Control true,max-age  設置是否容許被緩存,緩存有效時間,也能夠經過 no-cache 指令來禁止緩存
connection keep-alive     又稱持久鏈接、鏈接重用
content-length        當內容將要被傳輸到瀏覽器時,服務器能夠經過該頭部告知瀏覽器將要傳送文件的大小(bytes)
content-Type        指定響應的內容類型,瀏覽器將會依據該參數決定如何對文檔進行解析,默認 text/html
User-Agent          瀏覽器標識
Cookie            cookie信息
Referer            當前頁面是經過此來源頁面裏的連接進入的
'''web

相關文章
相關標籤/搜索