HTTP 超文本傳輸協議 默認端口號:80 HTTPS HTTP + SSL(安全套接字層) 默認端口號:443
HTTPS比HTTP更安全,可是性能更低
HTTP常見請求頭
1. Host (主機和端口號) 2. Connection (連接類型) 3. Upgrade-Insecure-Requests (升級爲HTTPS請求) 4. User-Agent (瀏覽器名稱) 5. Accept (傳輸文件類型) 6. Referer (頁面跳轉處) 7. Accept-Encoding(文件編解碼格式) 8. Cookie (Cookie) 9. x-requested-with :XMLHttpRequest (是Ajax 異步請求)
------------------------------ajax
爬蟲的分類:聚焦爬蟲和通類爬蟲-瀏覽器
--------------------------------安全
微指數-新浪異步
-----------------------------------性能
robots.txt網站
Robots協議:網站經過Robots協議告訴搜索引擎哪些頁面能夠抓取,哪些頁面不能抓取。搜索引擎
------------------------------------url
爬蟲是模擬瀏覽器發送請求,獲取響應spa
url--->發送請求,獲取響應--->提取數據---》保存code
發送請求,獲取響應--->提取url
------------------------------------
當前url地址對應的響應中
其餘的url地址對應的響應中
好比ajax請求中
js生成的
部分數據在響應中
所有經過js生成
-----------------------------------------------