初識爬蟲

何爲爬蟲

  網絡爬蟲(又被稱爲網頁蜘蛛,網絡機器人,在FOAF社區中間,更常常的稱爲網頁追逐者),是一種按照必定的規則,自動地抓取萬維網信息的程序或者腳本。css

  咱們平時的上網就是瀏覽器提交請求->下載網頁代碼->解析/渲染成頁面。而咱們的爬蟲就是模擬瀏覽器發送請求->下載網頁代碼->只提取有用的數據->存放於數據庫或文件中。因此,咱們的爬蟲程序只提取網頁代碼中對咱們有用的數據。數據庫

爬蟲的基本流程

請求與響應

http協議:https://home.cnblogs.com/u/wusir66/瀏覽器

Request:用戶將本身的信息經過瀏覽器(socket client)發送給服務器(socket server)服務器

Response:服務器接收請求,分析用戶發來的請求信息,而後返回數據(返回的數據中可能包含其餘連接,如:圖片,js,css等)網絡

ps:瀏覽器在接收Response後,會解析其內容來顯示給用戶,而爬蟲程序在模擬瀏覽器發送請求而後接收Response後,是要提取其中的有用數據。框架

 總結

一、總結爬蟲流程:
爬取--->解析--->存儲scrapy

二、爬蟲所需工具:
請求庫:urllib.request,urllib.parse,requests,selenium
解析庫:正則,beautifulsoup,lxml
存儲庫:文件,MySQL,Mongodb,Redissocket

三、爬蟲經常使用框架:
scrapy工具

相關文章
相關標籤/搜索