爬取某單位網頁上發佈的文書信息

時間 2021-01-20

原文原文鏈接

因爲聽說某單位的網頁反爬機制弱，所以我作死爬了該單位近期發佈的文書信息，學習相關案例並對自己以示警戒。首先打開該網頁對應的html代碼分析想要得到的信息存在哪裏。經過分析，得知這些位置是存放文書對應表項的地方。然後找頁碼鏈接，先爬下6頁來學習學習。得到這兩個位置之後，就可以寫代碼了，下面附代碼： from bs4 import BeautifulSoup import requests i

>>阅读原文<<