python爬蟲學習指引

  • 須要有python基礎html

  • python爬蟲相關網絡請求包python

    • urllib庫
    • requests庫
    • 二者區別:urllib出來比較早,比較原生,而requests在urllib基礎上封裝的,一些方法更好用。二者能夠實現的功能差很少相同。
  • curl簡單去學習curl,在模擬請求的時候能夠用curl去調試web

  • chrome瀏覽器:通常的web的抓取,用chrome的調試工具調試便可,大部分問題能夠解決(包括抓包、調試js代碼),切記熟練使用chrome調試工具。chrome

  • 火狐瀏覽器:當chrome隱藏了一些請求頭信息的時候,能夠使用火狐瀏覽器去抓包,火狐中能夠看到。windows

  • 抓包工具charles(Mac os)和fiddler(windows)必須熟悉其中一種。抓app數據包時必須用獲得。瀏覽器

  • 爬蟲框架:scrapy網絡

  • 解析經常使用python包app

    • 一些不規則數據:用正則—>re模塊
    • dom樹結構(html網頁):xpath
    • xpath有語法規則:上菜鳥教程上搜索,這個xpath經常使用語法必須熟練
  • 某些網站作反扒作的很嚴重,須要調用瀏覽器來抓取了python爬蟲

    • selenium + headless(chromedriver、phantomjs)

總結

上面這些應付web端爬蟲目前是能夠了,app端抓取可能會使用到一些其餘技術,好比說anyproxy等。框架

相關文章
相關標籤/搜索