Python學習，多進程瞭解一下！學爬蟲不會用多進程能行嗎？

時間 2019-11-19

原文原文鏈接

python中的多線程其實並非真正的多線程，若是想要充分地使用多核CPU的資源，在python中大部分狀況須要使用多進程。Python提供了很是好用的多進程包multiprocessing，只須要定義一個函數，Python會完成其餘全部事情。藉助這個包，能夠輕鬆完成從單進程到 併發執行的轉換

原本想寫多線程的，可是演示效果並非很好，就改爲進程了。html

其實多進程沒有咱們想象的那麼難，用幾個小例子給你們分享一下！python

多進程

首先咱們先作一個小腳本，就用turtle畫4個同心圓吧！這樣在演示多進程的時候比較直觀。代碼以下：網絡

import turtle

def cir(n,m):
	turtle.penup()
	turtle.goto(n)
	turtle.pendown()
	turtle.circle(m)
	time.sleep(1)
def runn(lis1,lis2):
	for n, m in zip(lis1,lis2):
		cir(n,m)
if __name__ == '__main__':
	nn = [(0,-200),(0,-150),(0,-100),(0,-50)]
	mm = [200,150,100,50]
	runn(nn,mm)

這段代碼，實現了畫4個同心圓的效果，若是用多進程的話，咱們稍微該寫一下,將runn()函數替換下面的代碼多線程

from multiprocessing import Process,Pool

for i in range(4):
	Process(target=runn,args=(nn,mm)).start()

這裏，啓動4個進程，同時畫圓，給個圖你們感覺一下！併發

能夠看到，這裏直接生成4個畫板同時畫同心圓。若是還要在加進程的話，能夠用pool進程池，注意pool有2個方法，建議用非阻塞的p.apply_async不要用阻塞的p.apply方法，p.apply_async會由系統自行判斷並運行，好比指定4個進程運行5個任務，那麼會在某一個進程運行完畢的同時自動開始第5個任務，而阻塞的p.apply方法會一次只運行一個進程。app

而後就是記得close()進程池，並用p.join()等待全部進程完成！相關代碼以下async

p = Pool(9)
	for i in range(9):
		p.apply_async(runn,(nn,mm))#非阻塞
		#p.apply(runn,(nn,mm))#阻塞
	p.close()
	p.join()

Pool()裏面不帶參數會自動適應電腦自己內核數量，這裏我設置9個進程同時進行！來看看效果函數

能夠看到，同時進行了9個畫圖的進程，可是一樣的，有明顯的卡頓感！固然，咱們也能夠用map函數來寫多進程，先修改下代碼學習

def cir(m):
	turtle.penup()
	turtle.goto(m[0])
	turtle.pendown()
	turtle.circle(m[1])
	time.sleep(14)
if __name__ == '__main__':
	nn = [(0, -200), (0, -150), (0, -100), (0, -50)]
	mm = [200, 150, 100, 50]
	mn = [(x,y) for x,y in zip(nn,mm)]
	p = Pool(3)
	p.map(cir,mn)

此次不畫4個同心圓了，咱們讓它4個進程各畫一個圓，來看看效果網站

爲了演示效果，多加了點間隔時間，並把cir函數的參數改成1個，這樣便於生成元組列表！能夠看到，有了明顯的卡頓，電腦很差，你們看看效果就好了

寫個簡單的多進程爬蟲

作一個小爬蟲，加入運行時間，先上一個不使用進程的代碼：

import requests
from lxml import etree
import time
from multiprocessing import Process,Pool

def main(url):
	time.sleep(1)
	html = requests.get(url)
	html.encoding = 'gb2312'
	data = etree.HTML(html.text)
	title = data.xpath('//a[@class="ulink"]/text()')
	summary = data.xpath('//td[@colspan="2"]/text()')
	urls = data.xpath('//a[@class="ulink"]/@href')
	for t,s,u in zip(title,summary,urls):
		print(t)
		print('【url:】http://www.dytt8.net'+u)
		print('【簡介】>>>>>>>'+s)

if __name__ == '__main__':
	start = time.time()
	url = 'http://www.dytt8.net/html/gndy/dyzz/'
	pg_url = [url+'list_23_{}.html'.format(str(x)) for x in range(1,10)]
	for pg_u in pg_url:
		main(pg_u)
	end = time.time()
	print("共計用時%.4f秒"%(end-start))

在修改下多進程，直接修改最後幾行行代碼便可

pg_url = [url+'list_23_{}.html'.format(str(x)) for x in range(1,10)]
	# for pg_u in pg_url:
	# 	main(pg_u)
	p=Pool()
	p.map(main,pg_url)
	end = time.time()
	print("共計用時%.4f秒"%(end-start))

能夠看到，速度提升了1倍多，固然，並非說只能提升一倍，而是個人代碼太簡單了，只是從網站抓取字符串打印出來，響應速度很快，致使提高的倍率並無咱們想象的那麼高，若是你們有興趣，能夠嘗試一下，基本上能夠提高到進程數的倍率，也就是說，不超過電腦核心數量，且沒有其餘外因（好比網絡響應速度等等）的狀況下，用4進程能夠提高接近4倍的速度！