Python學習,多進程瞭解一下!學爬蟲不會用多進程能行嗎?

python中的多線程其實並非真正的多線程,若是想要充分地使用多核CPU的資源,在python中大部分狀況須要使用多進程。Python提供了很是好用的多進程包multiprocessing,只須要定義一個函數,Python會完成其餘全部事情。藉助這個包,能夠輕鬆完成從單進程到併發執行的轉換
原本想寫多線程的,可是演示效果並非很好,就改爲進程了。

其實多進程沒有咱們想象的那麼難,用幾個小例子給你們分享一下!html

目錄
  • 多進程的多種實現方法及效果演示:這段將經過幾個小腳本實現多進程的效果
  • 一個小爬蟲實例,經過運行時間來查看進程對代碼速度的影響
 多進程
首先咱們先作一個小腳本,就用turtle畫4個同心圓吧!這樣在演示多進程的時候比較直觀。代碼以下:
 1 import turtle
 2 
 3 def cir(n,m):
 4     turtle.penup()
 5     turtle.goto(n)
 6     turtle.pendown()
 7     turtle.circle(m)
 8     time.sleep(1)
 9 def runn(lis1,lis2):
10     for n, m in zip(lis1,lis2):
11         cir(n,m)
12 if __name__ == '__main__':
13     nn = [(0,-200),(0,-150),(0,-100),(0,-50)]
14     mm = [200,150,100,50]
15     runn(nn,mm)

這段代碼,實現了畫4個同心圓的效果,若是用多進程的話,咱們稍微該寫一下,將runn()函數替換下面的代碼python

from multiprocessing import Process,Pool
for i in range(4):
    Process(target=runn,args=(nn,mm)).start()
這裏,啓動4個進程,同時畫圓,給個圖你們感覺一下!
 

能夠看到,這裏直接生成4個畫板同時畫同心圓。若是還要在加進程的話,能夠用pool進程池,注意pool有2個方法,建議用非阻塞的p.apply_async不要用阻塞的p.apply方法,p.apply_async會由系統自行判斷並運行,好比指定4個進程運行5個任務,那麼會在某一個進程運行完畢的同時自動開始第5個任務,而阻塞的p.apply方法會一次只運行一個進程。網絡

而後就是記得close()進程池,並用p.join()等待全部進程完成!相關代碼以下
1 p = Pool(9)
2     for i in range(9):
3         p.apply_async(runn,(nn,mm))#非阻塞
4         #p.apply(runn,(nn,mm))#阻塞
5     p.close()
6     p.join()

Pool()裏面不帶參數會自動適應電腦自己內核數量,這裏我設置9個進程同時進行!來看看效果多線程

能夠看到,同時進行了9個畫圖的進程,可是一樣的,有明顯的卡頓感!固然,咱們也能夠用map函數來寫多進程,先修改下代碼
def cir(m):
    turtle.penup()
    turtle.goto(m[0])
    turtle.pendown()
    turtle.circle(m[1])
    time.sleep(14)
if __name__ == '__main__':
    nn = [(0, -200), (0, -150), (0, -100), (0, -50)]
    mm = [200, 150, 100, 50]
    mn = [(x,y) for x,y in zip(nn,mm)]
    p = Pool(3)
    p.map(cir,mn)

此次不畫4個同心圓了,咱們讓它4個進程各畫一個圓,來看看效果併發

爲了演示效果,多加了點間隔時間,並把cir函數的參數改成1個,這樣便於生成元組列表!能夠看到,有了明顯的卡頓,電腦很差,你們看看效果就好了
  寫個簡單的多進程爬蟲
作一個小爬蟲,加入運行時間,先上一個不使用進程的代碼:
import requests
from lxml import etree
import time
from multiprocessing import Process,Pool

def main(url):
    time.sleep(1)
    html = requests.get(url)
    html.encoding = 'gb2312'
    data = etree.HTML(html.text)
    title = data.xpath('//a[@class="ulink"]/text()')
    summary = data.xpath('//td[@colspan="2"]/text()')
    urls = data.xpath('//a[@class="ulink"]/@href')
    for t,s,u in zip(title,summary,urls):
        print(t)
        print('【url:】http://www.dytt8.net'+u)
        print('【簡介】>>>>>>>'+s)

if __name__ == '__main__':
    start = time.time()
    url = 'http://www.dytt8.net/html/gndy/dyzz/'
    pg_url = [url+'list_23_{}.html'.format(str(x)) for x in range(1,10)]
    for pg_u in pg_url:
        main(pg_u)
    end = time.time()
    print("共計用時%.4f秒"%(end-start))

在修改下多進程,直接修改最後幾行行代碼便可
    pg_url = [url+'list_23_{}.html'.format(str(x)) for x in range(1,10)]
    # for pg_u in pg_url:
    #     main(pg_u)
    p=Pool()
    p.map(main,pg_url)
    end = time.time()
    print("共計用時%.4f秒"%(end-start))

能夠看到,速度提升了1倍多,固然,並非說只能提升一倍,而是個人代碼太簡單了,只是從網站抓取字符串打印出來,響應速度很快,致使提高的倍率並無咱們想象的那麼高,若是你們有興趣,能夠嘗試一下,基本上能夠提高到進程數的倍率,也就是說,不超過電腦核心數量,且沒有其餘外因(好比網絡響應速度等等)的狀況下,用4進程能夠提高接近4倍的速度!
後記
在學習的過程當中,不免會遇到很高深而且很難理解的知識點,咱們能夠先嚐試去簡化理解它,好比多進程,它自己還有進程池、進程間通信、守護進程、進程類(重寫run方法)、進程鎖、進程隊列、管道、信號量等等功能或知識點,這裏都沒有涉及,不過這並不影響咱們使用簡單的多進程寫代碼!
相關文章
相關標籤/搜索