爬蟲基礎知識

HTTP       超文本傳輸協議                 默認端口號:80

HTTPS      HTTP + SSL(安全套接字層)       默認端口號:443

HTTPS比HTTP更安全,可是性能更低
HTTP常見請求頭

1
. Host (主機和端口號) 2. Connection (連接類型) 3. Upgrade-Insecure-Requests (升級爲HTTPS請求) 4. User-Agent (瀏覽器名稱) 5. Accept (傳輸文件類型) 6. Referer (頁面跳轉處) 7. Accept-Encoding(文件編解碼格式) 8. Cookie (Cookie) 9. x-requested-with :XMLHttpRequest (是Ajax 異步請求)

------------------------------ajax

爬蟲的分類:聚焦爬蟲和通類爬蟲-瀏覽器

--------------------------------安全

微指數-新浪異步

-----------------------------------性能

robots.txt網站

Robots協議:網站經過Robots協議告訴搜索引擎哪些頁面能夠抓取,哪些頁面不能抓取。搜索引擎

------------------------------------url

爬蟲的概念

  • 爬蟲是模擬瀏覽器發送請求,獲取響應spa

爬蟲的流程

  • url--->發送請求,獲取響應--->提取數據---》保存code

  • 發送請求,獲取響應--->提取url

------------------------------------

爬蟲要根據當前url地址對應的響應爲準 ,當前url地址的elements的內容和url的響應不同

頁面上的數據在哪裏

  • 當前url地址對應的響應中

  • 其餘的url地址對應的響應中

    • 好比ajax請求中

  • js生成的

    • 部分數據在響應中

    • 所有經過js生成

-----------------------------------------------

相關文章
相關標籤/搜索