python爬蟲學習指引

時間 2019-11-29

標籤 python 爬蟲學習指引欄目 Python 简体版

原文原文鏈接

須要有python基礎html
- 官方中文文檔：docs.python.org/zh-cn/3/
- 入門的話看菜鳥教程就好
python爬蟲相關網絡請求包python
- urllib庫
- requests庫
- 二者區別：urllib出來比較早，比較原生，而requests在urllib基礎上封裝的，一些方法更好用。二者能夠實現的功能差很少相同。
curl簡單去學習curl，在模擬請求的時候能夠用curl去調試web
chrome瀏覽器：通常的web的抓取，用chrome的調試工具調試便可，大部分問題能夠解決（包括抓包、調試js代碼），切記熟練使用chrome調試工具。chrome
火狐瀏覽器：當chrome隱藏了一些請求頭信息的時候，能夠使用火狐瀏覽器去抓包，火狐中能夠看到。windows
抓包工具charles（Mac os）和fiddler（windows）必須熟悉其中一種。抓app數據包時必須用獲得。瀏覽器
爬蟲框架：scrapy網絡
- scrapy中文文檔：scrapy-chs.readthedocs.io/zh_CN/lates…
解析經常使用python包app
- 一些不規則數據：用正則—>re模塊
- dom樹結構（html網頁）：xpath
- xpath有語法規則：上菜鳥教程上搜索，這個xpath經常使用語法必須熟練
某些網站作反扒作的很嚴重，須要調用瀏覽器來抓取了python爬蟲
- selenium + headless（chromedriver、phantomjs）

總結

上面這些應付web端爬蟲目前是能夠了，app端抓取可能會使用到一些其餘技術，好比說anyproxy等。框架

相關文章

相關標籤/搜索

Python爬蟲教學

爬蟲－反爬蟲

網站建設指南

Thymeleaf 教程

每日一句

每一个你不满意的现在，都有一个你没有努力的曾经。

最新文章

本站公眾號

歡迎關注本站公眾號,獲取更多信息

相關文章

>>更多相關文章<<