Python爬蟲之爬取靜態網頁實踐

時間 2021-01-05

原文原文鏈接

通過上一篇的學習，對網頁文件的結構有了初步的瞭解，下面實戰爬取某網頁的知識問答語料： 1、使用庫文件 request：用於get請求 threading：多線程 bs4：網頁解析 re：正則表達式 os：系統相關操作 time：獲取時間 2、對網頁文件進行解析打開谷歌瀏覽器，按F12進入開發者工具，並定位到自己想爬取的內容，如圖 3、獲取網頁請求的頭文件，一般網上有User-Agent大全：

>>阅读原文<<