異步爬蟲

異步爬蟲 以往寫爬蟲就是單進程單線程,假設要爬取100哥頁面,就是一個循環挨個爬。可是要執行下面一條抓取,就須要等待網絡IO請求執行完畢,因此效率就不高了。 一開始處理的數據不大,還意識不到,若是要爬取上萬個頁面,差距立刻就能凸顯了。 因此爬蟲必需要併發執行,異步編程。 在python中併發編程,有三種途徑:多進程,多線程和協程。固然這三者還能夠組合使用,好比多進程+多線程。 因爲存在GIL鎖,因
相關文章
相關標籤/搜索