如何讓你的Python爬蟲採集得更快

如何讓Python爬蟲採集的更快,如何處理海量數據的下載是我們一直探索和研究的對象。下面是我們從數學角度給出的一些分析以及我們的一些經驗分享。     假設線程數爲n,線程中下載平均用時爲td,線程中數據處理部分(純計算)用時爲tc。由於單個Python進程只能使用單CPU核心,因此總的數據處理耗時應是各線程tc的累加即n*tc。因爲下載是阻塞操作,CPU可以幾乎同時處理所有下載,因此總的下載耗時
相關文章
相關標籤/搜索