昨天晚上組會輪到我彙報技術內容,最近正在和 ray 以及 spark 打交道,索性講一下併發和並行。反正你們都是管理學院的,平時不多接觸這種,所以這個選題不大可能由於內容基礎而貽笑大方。html
本文擺一擺併發和並行。附上很簡單的 Python 代碼,涉及到自帶庫 threading 和 multiprocessing 的使用。python
我們簡單用多線程對應併發,多進程對應並行。多線程併發更強調充分利用性能;多進程並行更強調提高性能上限。bash
我用很是簡單且不那麼嚴謹的比喻來講明。微信
一個 CPU 至關於一個學生。網絡
一個學生一週開一次組會,換句話說一週給老師彙報一次工做。多線程
老師通常會給學生同時佈置幾個任務,好比作比賽、作項目、讀論文,學生可能週一作作比賽、週二讀讀論文、週三作作項目... 到了組會,他就把三件事都拿出來彙報,老師很欣慰,由於在老師的視角里:學生這三件事是同時在作的。併發
多線程也是同一個道理,假設你的手機只有一塊單核 CPU 。你的 CPU 這 0.01 秒用來播放音樂,下 0.01 秒用來解析網頁... 在你的視角里:播放音樂和解析網頁是同時進行的。你大能夠暢快地邊聽音樂邊網上衝浪異步
何謂充分利用性能? 若是這學生只有一項工做,那他這一週可能只須要花費兩天來作任務,剩下時間摸魚(針不搓,三點鐘飲茶先!)。所以,咱們用「多線程」來讓學生實現『併發』,充分利用學生能力。分佈式
在實際狀況中,多線程、高併發這些詞語更多地出如今服務端程序裏。好比一個網絡鏈接由一個線程負責,一塊 CPU 能夠負責處理多個異步的請求,大大提高了 CPU 利用率。函數
多個 CPU ( CPU 的多核)至關於多個學生。
一個任務能夠拆成幾個任務相互協做、同時進行,則是多進程。
好比研究生課程,老師非得留個論文做業,都研究生了我去,留啥大做業。
那咱就多線程並行搞唄。肯定了大概思路,剩下的一股腦寫就行。咱隊伍裏一共甲乙丙丁四名同窗,那就:
這是乙同窗提出異議:不該該是先完成 Introduction 再寫 Background ,一個個來嘛?
大哥,都研究生了嗷,做業糊弄糊弄差很少得了啊。讓你寫你就寫。
能夠預知,上述四部分同時進行,怎麼也比一我的寫四塊要快。
因此說 多進程並行提高性能上限 。
在實際狀況中,多進程更多地與高性能計算、分佈式計算聯繫在一塊兒。
首先聲明咱的實驗環境。
> python --version Python 3.8.5
我們設置個任務:求數的歐拉函數值。
def euler_func(n: int) -> int: res = n i = 2 while i <= n // i: if n % i == 0: res = res // i * (i - 1) while (n % i == 0): n = n // i i += 1 if n > 1: res = res // n * (n - 1) return res
求一個數的歐拉函數值可能很快,可是一堆數呢?
因此咱想着用並行完成這個任務。
我們把任務分紅三份。
task1 = list(range(2, 50000, 3)) # 2, 5, ... task2 = list(range(3, 50000, 3)) # 3, 6, ... task3 = list(range(4, 50000, 3)) # 4, 7, ... def job(task: List): for t in task: euler_func(t)
來看看平平無奇的正常串行。
@timer def normal(): job(task1) job(task2) job(task3)
完成了 task1
再完成 task2
... 行,沒毛病。
看看多線程?
import threading as th @timer def mutlthread(): th1 = th.Thread(target=job, args=(task1, )) th2 = th.Thread(target=job, args=(task2, )) th3 = th.Thread(target=job, args=(task3, )) th1.start() th2.start() th3.start() th1.join() th2.join() th3.join()
再看看多進程?
import multiprocessing as mp @timer def multcore(): p1 = mp.Process(target=job, args=(task1, )) p2 = mp.Process(target=job, args=(task2, )) p3 = mp.Process(target=job, args=(task3, )) p1.start() p2.start() p3.start() p1.join() p2.join() p3.join()
上述代碼的邏輯是這樣的:
job(task1)
或job(task2)
、job(task3)
,注意這裏函數名和參數被分開了target=job, args=(task1, )
start()
,告訴線程/進程:你能夠開始幹活了join()
這裏,我們是指讓線程/進程阻塞住咱的主邏輯,好比p1.join()
是指:p1
不幹完活,我主邏輯不往下進行(屬因而「阻塞」)multcore
結束後,必定其中的線程/進程任務都完成了咱看看結果:
if __name__ == '__main__': print("同步串行:") normal() print("多線程併發:") mutlthread() print("多進程並行:") multcore() # 下面是結果 同步串行: timer: using 0.24116 s 多線程併發: timer: using 0.24688 s 多進程並行: timer: using 0.13791 s
結果不太對,按理說,多進程並行
的耗時應該是同步串行
的三分之一,畢竟三個同等體量的任務在同時進行。
多線程併發
比同步串行
慢是應該的,由於多線程併發
和同步串行
的算力是同樣的,可是多線程併發得在各個任務間來回切換,致使更慢。
你問 @timer
是什麼意思?哦,這個是我寫的修飾器,以下。
def timer(func): @wraps(func) def inner_func(): t = time.time() rts = func() print(f"timer: using {time.time() - t :.5f} s") return rts return inner_func
不太明白『Python修飾器』的老鐵,不如給我點個「在看」,再關注下我,我們之後詳細道來。
我是小拍,微信 PiperLHJ ,感謝關注與在看。