實戰:爬取簡書之多線程爬取(一)

在上上篇我們編寫了一個簡單的程序框架來爬取簡書的文章信息,10分鐘左右爬取了 1萬 5千條數據。 現在,讓我們先來做一個簡單的算術題: 假設簡書有活躍用戶一千萬人(不知道簡書有多少活躍用戶,我只能往小了算) 平均每人寫了 15篇文章,那麼一共有一億五千萬篇文章 我們10分鐘爬取了 1萬 5千篇,湊個整算 2萬 那麼爬取一億五千萬條數據需要 150000000 / 20000 = 10 * 7500
相關文章
相關標籤/搜索