爬蟲性能相關

一背景知識

爬蟲的本質就是一個socket客戶端與服務端的通訊過程，若是咱們有多個url待爬取，採用串行的方式執行，只能等待爬取一個結束後才能繼續下一個，效率會很是低。html

須要強調的是：串行並不意味着低效，若是串行的都是純計算的任務，那麼cpu的利用率仍然會很高，之因此爬蟲程序的串行低效，是由於爬蟲程序是明顯的IO密集型程序。python

關於IO模型詳見連接：http://www.cnblogs.com/linhaifeng/articles/7454717.htmlreact

那麼該如何提升爬取性能呢？程序員

二同步、異步、回調機制

一、同步調用：即提交一個任務後就在原地等待任務結束，等到拿到任務的結果後再繼續下一行代碼，效率低下web

import requests

def get_page(url):
    response=requests.get(url)
    if response.status_code == 200:
        return response.text


urls=['https://www.baidu.com/','http://www.sina.com.cn/','https://www.python.org']
for url in urls:
    res=get_page(url) #調用一個任務，就在原地等待任務結束拿到結果後才繼續日後執行
    print(len(res))

同步調用

二、一個簡單的解決方案：多線程或多進程數據庫

#在服務器端使用多線程（或多進程）。多線程（或多進程）的目的是讓每一個鏈接都擁有獨立的線程（或進程），這樣任何一個鏈接的阻塞都不會影響其餘的鏈接。

from multiprocessing import Process
from threading import Thread
import requests

def get_page(url):
    response=requests.get(url)
    if response.status_code == 200:
        return response.text


if __name__ == '__main__':
    urls=['https://www.baidu.com/','http://www.sina.com.cn/','https://www.python.org']
    for url in urls:
        p=Process(target=get_page,args=(url,))
        p.start()
        # t=Thread(target=get_page,args=(url,))
        # t.start()

多進程或多線程

該方案的問題是：api

#開啓多進程或都線程的方式，咱們是沒法無限制地開啓多進程或多線程的：在遇到要同時響應成百上千路的鏈接請求，則不管多線程仍是多進程都會嚴重佔據系統資源，下降系統對外界響應效率，並且線程與進程自己也更容易進入假死狀態。

三、改進方案：線程池或進程池+異步調用：提交一個任務後並不會等待任務結束，而是繼續下一行代碼緩存

#不少程序員可能會考慮使用「線程池」或「鏈接池」。「線程池」旨在減小建立和銷燬線程的頻率，其維持必定合理數量的線程，並讓空閒的線程從新承擔新的執行任務。「鏈接池」維持鏈接的緩存池，儘可能重用已有的鏈接、減小建立和關閉鏈接的頻率。這兩種技術均可以很好的下降系統開銷，都被普遍應用不少大型系統，如websphere、tomcat和各類數據庫等。

from concurrent.futures import ThreadPoolExecutor,ProcessPoolExecutor
import requests

def get_page(url):
    print('GET : %s' %url)
    response=requests.get(url)
    if response.status_code == 200:
        return response.text


if __name__ == '__main__':
    p=ProcessPoolExecutor()
    # p=ThreadPoolExecutor()

    urls=['https://www.baidu.com/','http://www.sina.com.cn/','https://www.python.org']
    for url in urls:
        p.submit(get_page,url)
    p.shutdown(wait=True)

進程池或線程池

from concurrent.futures import ThreadPoolExecutor,ProcessPoolExecutor
import requests
import os

def get_page(url):
    print('%s GET : %s' %(os.getpid(),url))
    response=requests.get(url)
    if response.status_code == 200:
        return response.text

def parse_page(res):
    res=res.result()
    print('%s parsing' %os.getpid())

if __name__ == '__main__':
    p=ProcessPoolExecutor()
    # p=ThreadPoolExecutor()

    urls=['https://www.baidu.com/','http://www.sina.com.cn/','https://www.python.org']
    for url in urls:
        p.submit(get_page,url).add_done_callback(parse_page)
    p.shutdown(wait=True)

異步調用+回調機制

改進後方案其實也存在着問題：tomcat

#「線程池」和「鏈接池」技術也只是在必定程度上緩解了頻繁調用IO接口帶來的資源佔用。並且，所謂「池」始終有其上限，當請求大大超過上限時，「池」構成的系統對外界的響應並不比沒有池的時候效果好多少。因此使用「池」必須考慮其面臨的響應規模，並根據響應規模調整「池」的大小。

對應上例中的所面臨的可能同時出現的上千甚至上萬次的客戶端請求，「線程池」或「鏈接池」或許能夠緩解部分壓力，可是不能解決全部問題。總之，多線程模型能夠方便高效的解決小規模的服務請求，但面對大規模的服務請求，多線程模型也會遇到瓶頸，能夠用非阻塞接口來嘗試解決這個問題。服務器

三高性能

上述不管哪一種解決方案其實沒有解決一個性能相關的問題：IO阻塞，不管是多進程仍是多線程，在遇到IO阻塞時都會被操做系統強行剝奪走CPU的執行權限，程序的執行效率所以就下降了下來。

解決這一問題的關鍵在於，咱們本身從應用程序級別檢測IO阻塞而後切換到咱們本身程序的其餘任務執行，這樣把咱們程序的IO降到最低，咱們的程序處於就緒態就會增多，以此來迷惑操做系統，操做系統便覺得咱們的程序是IO比較少的程序，從而會盡量多的分配CPU給咱們，這樣也就達到了提高程序執行效率的目的

一、在python3.3以後新增了asyncio模塊，能夠幫咱們檢測IO（只能是網絡IO），實現應用程序級別的切換

import asyncio

@asyncio.coroutine
def task(task_id,senconds):
    print('%s is start' %task_id)
    yield from asyncio.sleep(senconds) #只能檢測網絡IO,檢測到IO後切換到其餘任務執行
    print('%s is end' %task_id)

tasks=[task(task_id=1,senconds=3),task(task_id=2,senconds=4)]

loop=asyncio.get_event_loop()
loop.run_until_complete(asyncio.gather(*tasks))
loop.close()

基本使用

二、但asyncio模塊只能發tcp級別的請求，不能發http協議，所以，在咱們須要發送http請求的時候，須要咱們自定義http報頭

#咱們爬取一個網頁的過程，以https://www.python.org/doc/爲例，將關鍵步驟列舉以下
#步驟一：向www.python.org這臺主機發送tcp三次握手，是IO阻塞操做
#步驟二：封裝http協議的報頭
#步驟三：發送http協議的請求包，是IO阻塞操做
#步驟四：接收http協議的響應包，是IO阻塞操做
import asyncio

@asyncio.coroutine
def get_page(host,port=80,url='/'):
    #步驟一（IO阻塞）：發起tcp連接，是阻塞操做，所以須要yield from
    recv,send=yield from asyncio.open_connection(host,port)

    #步驟二：封裝http協議的報頭，由於asyncio模塊只能封裝併發送tcp包，所以這一步須要咱們本身封裝http協議的包
    requset_headers="""GET %s HTTP/1.0\r\nHost: %s\r\n\r\n""" % (url, host,)
    # requset_headers="""POST %s HTTP/1.0\r\nHost: %s\r\n\r\nname=egon&password=123""" % (url, host,)
    requset_headers=requset_headers.encode('utf-8')

    #步驟三（IO阻塞）：發送http請求包
    send.write(requset_headers)
    yield from send.drain()

    #步驟四（IO阻塞）：接收http協議的響應包
    text=yield from recv.read()

    #其餘處理
    print(host,url,text)
    send.close()
    print('-===>')
    return 1

tasks=[get_page(host='www.python.org',url='/doc'),get_page(host='www.cnblogs.com',url='linhaifeng'),get_page(host='www.openstack.org')]

loop=asyncio.get_event_loop()
results=loop.run_until_complete(asyncio.gather(*tasks))
loop.close()

print('=====>',results) #[1, 1, 1]

asyncio+自定義http協議報頭

三、自定義http報頭多少有點麻煩，因而有了aiohttp模塊，專門幫咱們封裝http報頭，而後咱們還須要用asyncio檢測IO實現切換

import aiohttp
import asyncio

@asyncio.coroutine
def get_page(url):
    print('GET:%s' %url)
    response=yield from aiohttp.request('GET',url)

    data=yield from response.read()

    print(url,data)
    response.close()
    return 1

tasks=[
    get_page('https://www.python.org/doc'),
    get_page('https://www.cnblogs.com/linhaifeng'),
    get_page('https://www.openstack.org')
]

loop=asyncio.get_event_loop()
results=loop.run_until_complete(asyncio.gather(*tasks))
loop.close()

print('=====>',results) #[1, 1, 1]

asyncio+aiohttp

四、此外，還能夠將requests.get函數傳給asyncio，就可以被檢測了

import requests
import asyncio

@asyncio.coroutine
def get_page(func,*args):
    print('GET:%s' %args[0])
    loog=asyncio.get_event_loop()
    furture=loop.run_in_executor(None,func,*args)
    response=yield from furture

    print(response.url,len(response.text))
    return 1

tasks=[
    get_page(requests.get,'https://www.python.org/doc'),
    get_page(requests.get,'https://www.cnblogs.com/linhaifeng'),
    get_page(requests.get,'https://www.openstack.org')
]

loop=asyncio.get_event_loop()
results=loop.run_until_complete(asyncio.gather(*tasks))
loop.close()

print('=====>',results) #[1, 1, 1]

asyncio+requests模塊的方法

五、還有以前在協程時介紹的gevent模塊

from gevent import monkey;monkey.patch_all()
import gevent
import requests

def get_page(url):
    print('GET:%s' %url)
    response=requests.get(url)
    print(url,len(response.text))
    return 1

# g1=gevent.spawn(get_page,'https://www.python.org/doc')
# g2=gevent.spawn(get_page,'https://www.cnblogs.com/linhaifeng')
# g3=gevent.spawn(get_page,'https://www.openstack.org')
# gevent.joinall([g1,g2,g3,])
# print(g1.value,g2.value,g3.value) #拿到返回值


#協程池
from gevent.pool import Pool
pool=Pool(2)
g1=pool.spawn(get_page,'https://www.python.org/doc')
g2=pool.spawn(get_page,'https://www.cnblogs.com/linhaifeng')
g3=pool.spawn(get_page,'https://www.openstack.org')
gevent.joinall([g1,g2,g3,])
print(g1.value,g2.value,g3.value) #拿到返回值

gevent+requests

六、封裝了gevent+requests模塊的grequests模塊

#pip3 install grequests

import grequests

request_list=[
    grequests.get('https://wwww.xxxx.org/doc1'),
    grequests.get('https://www.cnblogs.com/linhaifeng'),
    grequests.get('https://www.openstack.org')
]


##### 執行並獲取響應列表 #####
# response_list = grequests.map(request_list)
# print(response_list)

##### 執行並獲取響應列表（處理異常） #####
def exception_handler(request, exception):
    # print(request,exception)
    print("%s Request failed" %request.url)

response_list = grequests.map(request_list, exception_handler=exception_handler)
print(response_list)

grequests

七、twisted：是一個網絡框架，其中一個功能是發送異步請求，檢測IO並自動切換

'''
#問題一：error: Microsoft Visual C++ 14.0 is required. Get it with "Microsoft Visual C++ Build Tools": http://landinghub.visualstudio.com/visual-cpp-build-tools
https://www.lfd.uci.edu/~gohlke/pythonlibs/#twisted
pip3 install C:\Users\Administrator\Downloads\Twisted-17.9.0-cp36-cp36m-win_amd64.whl
pip3 install twisted

#問題二：ModuleNotFoundError: No module named 'win32api'
https://sourceforge.net/projects/pywin32/files/pywin32/

#問題三：openssl
pip3 install pyopenssl
'''

#twisted基本用法
from twisted.web.client import getPage,defer
from twisted.internet import reactor

def all_done(arg):
    # print(arg)
    reactor.stop()

def callback(res):
    print(res)
    return 1

defer_list=[]
urls=[
    'http://www.baidu.com',
    'http://www.bing.com',
    'https://www.python.org',
]
for url in urls:
    obj=getPage(url.encode('utf=-8'),)
    obj.addCallback(callback)
    defer_list.append(obj)

defer.DeferredList(defer_list).addBoth(all_done)

reactor.run()




#twisted的getPage的詳細用法
from twisted.internet import reactor
from twisted.web.client import getPage
import urllib.parse


def one_done(arg):
    print(arg)
    reactor.stop()

post_data = urllib.parse.urlencode({'check_data': 'adf'})
post_data = bytes(post_data, encoding='utf8')
headers = {b'Content-Type': b'application/x-www-form-urlencoded'}
response = getPage(bytes('http://dig.chouti.com/login', encoding='utf8'),
                   method=bytes('POST', encoding='utf8'),
                   postdata=post_data,
                   cookies={},
                   headers=headers)
response.addBoth(one_done)

reactor.run()

twisted的用法

八、tornado

from tornado.httpclient import AsyncHTTPClient
from tornado.httpclient import HTTPRequest
from tornado import ioloop


def handle_response(response):
    """
    處理返回值內容（須要維護計數器，來中止IO循環），調用 ioloop.IOLoop.current().stop()
    :param response: 
    :return: 
    """
    if response.error:
        print("Error:", response.error)
    else:
        print(response.body)


def func():
    url_list = [
        'http://www.baidu.com',
        'http://www.bing.com',
    ]
    for url in url_list:
        print(url)
        http_client = AsyncHTTPClient()
        http_client.fetch(HTTPRequest(url), handle_response)


ioloop.IOLoop.current().add_callback(func)
ioloop.IOLoop.current().start()

Tornado

05 爬蟲性能相關

爬蟲性能相關

一 背景知識

二 同步、異步、回調機制

三 高性能

一背景知識

二同步、異步、回調機制

三高性能