網絡爬蟲-抓取1000W百度文庫doc文檔

今天抓取的是百度文庫doc文檔,但是要求確實隨機的1000萬份文檔並存爲txt文本,下載百度文庫的開源項目已經有了,那麼去哪裏找到1000萬個百度文庫doc文檔的url呢,並且在短時間內下載下來。 因爲爬蟲是一個IO密集型業務,所以使用協程效率則最高,第一時間想到了gevent。 首先分析百度文庫的url https://wenku.baidu.com/search?word=%BD%CC%CA%
相關文章
相關標籤/搜索