Python 從爬蟲到數據分析（一）定義

時間 2019-11-07

標籤 python 爬蟲到數據分析定義欄目 Python 简体版

原文原文鏈接

1.什麼是爬蟲？css

網絡爬蟲（又被稱爲網頁蜘蛛，網絡機器人，在FOAF社區中間，更常常的稱爲網頁追逐者），是一種按照必定的規則，自動地抓取萬維網信息的程序或者腳本。另一些不常使用的名字還有螞蟻、自動索引、模擬程序或者蠕蟲。html

其實通俗的講就是經過程序去獲取web頁面上本身想要的數據，也就是自動抓取數據。web

2.爬蟲能夠作什麼？瀏覽器

你能夠爬取淘寶商品，爬取妹子的圖片，爬取本身想看看的視頻。。等等，只要你能經過瀏覽器訪問的數據均可以經過爬蟲獲取服務器

利用爬蟲咱們能夠獲取大量的價值數據，從而得到感性認識中不能獲得的信息，好比：網絡

知乎：爬取優質答案，爲你篩選出各話題下最優質的內容。
淘寶、京東：抓取商品、評論及銷量數據，對各類商品及用戶的消費場景進行分析。大數據

3.爬蟲的本質是什麼？spa

模擬瀏覽器打開網頁，獲取網頁中咱們想要的那部分數據視頻

瀏覽器打開網頁的過程：
當你在瀏覽器中輸入地址後，通過DNS服務器找到服務器主機，向服務器發送一個請求，服務器通過解析後發送給用戶瀏覽器結果，包括html,js,css等文件內容，瀏覽器解析出來最後呈現給用戶在瀏覽器上看到的結果htm

因此用戶看到的瀏覽器的結果就是由HTML代碼構成的，咱們爬蟲就是爲了獲取這些內容，經過分析和過濾html代碼，從中獲取咱們想要資源（文本，圖片，視頻.....）

4.爬蟲的結果能夠作什麼？

經過爬蟲獲取到大量的結果，能夠進行數據分析來合理化安排。例如：

（1）.商家經過爬取淘寶單品的數據，分析出該單品受衆的喜好款式。合理化本身商品的銷售計劃，以及補貨方向。

（2）.我的經過爬取知乎某一個問題的相關結果，從而獲得一個更加合理化的結論。

另外，這在個大數據時代，只要你有了大量的數據，而且合理化時候這些數據，那麼成功就指日可待！

相關標籤/搜索

每日一句

每一个你不满意的现在，都有一个你没有努力的曾经。