Python爬蟲《Python網絡爬蟲相關基礎概念》

時間 2020-06-22

原文原文鏈接

引入

以前在授課過程當中，好多同窗都問過我這樣的一個問題：爲何要學習爬蟲，學習爬蟲可以爲咱們之後的發展帶來那些好處？其實學習爬蟲的緣由和爲咱們之後發展帶來的好處都是顯而易見的，不管是從實際的應用仍是從就業上。php

咱們都知道，當前咱們所處的時代是大數據的時代，在大數據時代，要進行數據分析，首先要有數據源，而學習爬蟲，可讓咱們獲取更多的數據源，而且這些數據源能夠按咱們的目的進行採集。java

優酷推出的火星情報局就是基於網絡爬蟲和數據分析製做完成的。其中每期的節目話題都是從相關熱門的互動平臺中進行相關數據的爬取，而後對爬取到的數據進行數據分析而得來的。另外一方面，優酷根據用戶實時觀看視頻時的前進，後退等行爲數據，可以推測計算出觀衆的興趣點和愛好點，這樣有助於節目的剪輯和後期的節目方案的編寫。python

今日頭條做爲一個新聞推薦類的應用，其內部的新聞數據都是經過爬蟲程序在各個新聞網站進行新聞數據的爬取，而後經過相應的處理和運算將用戶感興趣的新聞話題推送到用戶的手機上。c++

從就業的角度來講，爬蟲工程師目前來講屬於緊缺人才，而且薪資待遇廣泛較高因此，深層次地掌握這門技術，對於就業來講，是很是有利的。有些人學習爬蟲可能爲了就業或者跳槽。從這個角度來講，爬蟲工程師是不錯的選擇之一。隨着大數據時代的來臨，爬蟲技術的應用將愈來愈普遍，在將來會擁有更好的發展空間。瀏覽器

今日概要服務器

爬蟲簡介
爬蟲分類
robots協議
反爬機制
反反爬機制

今日詳情網絡

什麼是爬蟲
爬蟲就是經過編寫程序模擬瀏覽器上網，而後讓其去互聯網上抓取數據的過程。
哪些語言能夠實現爬蟲

1.php：能夠實現爬蟲。php被號稱是全世界最優美的語言（固然是其本身號稱的，就是王婆賣瓜的意思），可是php在實現爬蟲中支持多線程和多進程方面作的很差。多線程

2.java：能夠實現爬蟲。java能夠很是好的處理和實現爬蟲，是惟一能夠與python並駕齊驅且是python的頭號勁敵。可是java實現爬蟲代碼較爲臃腫，重構成本較大。框架

3.c、c++：能夠實現爬蟲。可是使用這種方式實現爬蟲純粹是是某些人（大佬們）能力的體現，卻不是明智和合理的選擇。scrapy

4.python：能夠實現爬蟲。python實現和處理爬蟲語法簡單，代碼優美，支持的模塊繁多，學習成本低，具備很是強大的框架（scrapy等）且一句難以言表的好！沒有可是！
爬蟲的分類
1.通用爬蟲：通用爬蟲是搜索引擎（Baidu、Google、Yahoo等）「抓取系統」的重要組成部分。主要目的是將互聯網上的網頁下載到本地，造成一個互聯網內容的鏡像備份。簡單來說就是儘量的；把互聯網上的全部的網頁下載下來，放到本地服務器裏造成備分，在對這些網頁作相關處理(提取關鍵字、去掉廣告)，最後提供一個用戶檢索接口。
- 搜索引擎如何抓取互聯網上的網站數據？
  - 門戶網站主動向搜索引擎公司提供其網站的url
  - 搜索引擎公司與DNS服務商合做，獲取網站的url
  - 門戶網站主動掛靠在一些知名網站的友情連接中

2.聚焦爬蟲：聚焦爬蟲是根據指定的需求抓取網絡上指定的數據。例如：獲取豆瓣上電影的名稱和影評，而不是獲取整張頁面中全部的數據值。

robots.txt協議
- 若是本身的門戶網站中的指定頁面中的數據不想讓爬蟲程序爬取到的話，那麼則能夠經過編寫一個robots.txt的協議文件來約束爬蟲程序的數據爬取。robots協議的編寫格式能夠觀察淘寶網的robots（訪問www.taobao.com/robots.txt便可）。可是須要注意的是，該協議只是至關於口頭的協議，並無使用相關技術進行強制管制，因此該協議是防君子不防小人。可是咱們在學習爬蟲階段編寫的爬蟲程序能夠先忽略robots協議。
反爬蟲
- 門戶網站經過相應的策略和技術手段，防止爬蟲程序進行網站數據的爬取。
反反爬蟲
- 爬蟲程序經過相應的策略和技術手段，破解門戶網站的反爬蟲手段，從而爬取到相應的數據。