比較全面的百度百科爬蟲

課題需要,寫了一個百度百科的爬蟲,暫時不能全面獲取頁面的內容,但是相比網上的大部分爬蟲已經比較全面了,以「尼米茲級航空母艦」爲例,可以獲取的內容包含以下幾個部分: 用紅色方框框出來的部分,包括:詞條名稱、描述、基本信息、第二級標題、正文描述。 本人的爬蟲使用beautifulsoup4解析網頁,一共分爲三步 下載頁面,僞造header,通過Py自帶的request工具打開網頁,設置10秒超時; 搜
相關文章
相關標籤/搜索