網絡爬蟲-抓取1000W百度文庫doc文檔

時間 2021-01-20

標籤網絡爬蟲百度文庫爬蟲 gevent協程 1000W數據百度文庫下載欄目系統網絡简体版

原文原文鏈接

今天抓取的是百度文庫doc文檔，但是要求確實隨機的1000萬份文檔並存爲txt文本，下載百度文庫的開源項目已經有了，那麼去哪裏找到1000萬個百度文庫doc文檔的url呢，並且在短時間內下載下來。因爲爬蟲是一個IO密集型業務，所以使用協程效率則最高，第一時間想到了gevent。首先分析百度文庫的url https://wenku.baidu.com/search?word=%BD%CC%CA%

>>阅读原文<<