初識爬蟲

時間 2019-11-09

標籤爬蟲欄目網絡爬蟲简体版

原文原文鏈接

何爲爬蟲

　　網絡爬蟲（又被稱爲網頁蜘蛛，網絡機器人，在FOAF社區中間，更常常的稱爲網頁追逐者），是一種按照必定的規則，自動地抓取萬維網信息的程序或者腳本。css

　　咱們平時的上網就是瀏覽器提交請求->下載網頁代碼->解析/渲染成頁面。而咱們的爬蟲就是模擬瀏覽器發送請求->下載網頁代碼->只提取有用的數據->存放於數據庫或文件中。因此，咱們的爬蟲程序只提取網頁代碼中對咱們有用的數據。數據庫

http協議：https://home.cnblogs.com/u/wusir66/瀏覽器

Request：用戶將本身的信息經過瀏覽器（socket client）發送給服務器（socket server）服務器

Response：服務器接收請求，分析用戶發來的請求信息，而後返回數據（返回的數據中可能包含其餘連接，如：圖片，js，css等）網絡

ps：瀏覽器在接收Response後，會解析其內容來顯示給用戶，而爬蟲程序在模擬瀏覽器發送請求而後接收Response後，是要提取其中的有用數據。框架

一、總結爬蟲流程：
爬取--->解析--->存儲scrapy

二、爬蟲所需工具：
請求庫：urllib.request,urllib.parse,requests,selenium
解析庫：正則，beautifulsoup，lxml
存儲庫：文件，MySQL，Mongodb，Redissocket

三、爬蟲經常使用框架：
scrapy工具

相關標籤/搜索

每日一句

每一个你不满意的现在，都有一个你没有努力的曾经。