爬蟲-day01-基礎知識

時間 2019-11-17

原文原文鏈接

'''
爬蟲的構成
下載器：抓取頁面
　　urllib
　　equests
　　selenium + webdriver
解析器：解釋並提取頁面元素
　　BeautifulSoup4
　　PyQuery
　　Xpath
　　Regular Expression
調度器：協調完成所有抓取任務
　　進程
　　線程
　　協程
　　分佈式抓取
處理器：
　　數據清洗
　　數據入庫
　　圖片上傳html

'''
# 開始一個爬蟲
'''
一、肯定一個抓取目標
二、頁面分析
　　① pyquery
　　② xpath
　　③ json
　　④ regexp
三、流程規則
四、存儲規則
'''
'''
超文本傳輸協議 HTTP
統一資源定位符 URL
　　http://example.com:80/123/456/789?x=0&y=abc#part1
　　組成：
　　scheme: http、https
　　hostname： example.com
　　port: 80
　　path:/123/456/789
　　query: ?x=0&y=abc
　　fragment: #part1
'''
'''
Request
Method(方法) 　　做用
GET 　　　　　請求一個指定資源的表示形式，使用GET請求應該只被用於獲取數據
HEAD 　　　　請求一個月GET請求響應相同的響應，但沒有響應體
POST　　　　用於將實體提交到指定的資源，一般致使狀態或服務器上的反作用更改
PUT 　　　　用於請求有效載荷替換目標資源的左右當前表示
DELETE 　　刪除指定的資源
OPTIONS 　　用於描述目標資源的通訊選型
CONNNET 創建目標資源標識的服務器隧道，主要用於作代理服務器
TRACE 　　執行一個消息迴環測試，主要用於診斷
PATCH 　　用於對資源應用部分修改
'''
'''
Header
Header Names 　　　　　　　　　　描述
Accept text/plain 　　　　　　告訴服務器接受什麼介質類型，/ 表示任何類型，type/* 表示該類型下的全部子類
Accept-Charset utf-8 　　　　瀏覽器申明本身接收的字符集
Accept-Encoding gzip 　　　　瀏覽器申明本身接收的編碼方法，一般指定壓縮方法
Accept-language zh-CN en-US 瀏覽器申明本身接收的語言
Cache-Control true,max-age 　設置是否容許被緩存，緩存有效時間，也能夠經過 no-cache 指令來禁止緩存
connection keep-alive 　　　　又稱持久鏈接、鏈接重用
content-length 　　　　　　當內容將要被傳輸到瀏覽器時，服務器能夠經過該頭部告知瀏覽器將要傳送文件的大小（bytes）
content-Type 　　　　　　指定響應的內容類型，瀏覽器將會依據該參數決定如何對文檔進行解析，默認 text/html
User-Agent 　　　　　　　　瀏覽器標識
Cookie 　　　　　　　　　　 cookie信息
Referer 　　　　　　　　　　當前頁面是經過此來源頁面裏的連接進入的
'''web

相關標籤/搜索

每日一句

每一个你不满意的现在，都有一个你没有努力的曾经。