保留頁面結構爬取wiki數據

最近有個爬取各國領導人信息的奇怪需求,要求百度和維基兩種版本的數據,最要命的還要保持數據的結構不變。正好印象中隱約記得維基有專門的領導人列表頁,不考慮爬取下來的格式不變的話應該很好爬的樣子。 首先思路是通過列表頁把每個領導人的信息頁鏈接爬取下來,然後再逐個去解析信息頁就OK了,思路很簡單。 那麼準備好爬取入口,在wiki上有一個各國領導人信息的列表頁:https://zh.wikipedia.or
相關文章
相關標籤/搜索