網絡爬蟲(又被稱爲網頁蜘蛛,網絡機器人,在FOAF社區中間,更常常的稱爲網頁追逐者),是一種按照必定的規則,自動地抓取萬維網信息的程序或者腳本。css
咱們平時的上網就是瀏覽器提交請求->下載網頁代碼->解析/渲染成頁面。而咱們的爬蟲就是模擬瀏覽器發送請求->下載網頁代碼->只提取有用的數據->存放於數據庫或文件中。因此,咱們的爬蟲程序只提取網頁代碼中對咱們有用的數據。數據庫
http協議:https://home.cnblogs.com/u/wusir66/瀏覽器
Request:用戶將本身的信息經過瀏覽器(socket client)發送給服務器(socket server)服務器
Response:服務器接收請求,分析用戶發來的請求信息,而後返回數據(返回的數據中可能包含其餘連接,如:圖片,js,css等)網絡
ps:瀏覽器在接收Response後,會解析其內容來顯示給用戶,而爬蟲程序在模擬瀏覽器發送請求而後接收Response後,是要提取其中的有用數據。框架
一、總結爬蟲流程:
爬取--->解析--->存儲scrapy
二、爬蟲所需工具:
請求庫:urllib.request,urllib.parse,requests,selenium
解析庫:正則,beautifulsoup,lxml
存儲庫:文件,MySQL,Mongodb,Redissocket
三、爬蟲經常使用框架:
scrapy工具