Python 從爬蟲到數據分析(一)定義

1.什麼是爬蟲?css

網絡爬蟲(又被稱爲網頁蜘蛛,網絡機器人,在FOAF社區中間,更常常的稱爲網頁追逐者),是一種按照必定的規則,自動地抓取萬維網信息的程序或者腳本。另一些不常使用的名字還有螞蟻、自動索引、模擬程序或者蠕蟲。html

其實通俗的講就是經過程序去獲取web頁面上本身想要的數據,也就是自動抓取數據。web

2.爬蟲能夠作什麼?瀏覽器

你能夠爬取淘寶商品,爬取妹子的圖片,爬取本身想看看的視頻。。等等,只要你能經過瀏覽器訪問的數據均可以經過爬蟲獲取服務器

利用爬蟲咱們能夠獲取大量的價值數據,從而得到感性認識中不能獲得的信息,好比:網絡

知乎:爬取優質答案,爲你篩選出各話題下最優質的內容。 
淘寶、京東:抓取商品、評論及銷量數據,對各類商品及用戶的消費場景進行分析。大數據

3.爬蟲的本質是什麼?spa

模擬瀏覽器打開網頁,獲取網頁中咱們想要的那部分數據視頻

瀏覽器打開網頁的過程:
當你在瀏覽器中輸入地址後,通過DNS服務器找到服務器主機,向服務器發送一個請求,服務器通過解析後發送給用戶瀏覽器結果,包括html,js,css等文件內容,瀏覽器解析出來最後呈現給用戶在瀏覽器上看到的結果htm

因此用戶看到的瀏覽器的結果就是由HTML代碼構成的,咱們爬蟲就是爲了獲取這些內容,經過分析和過濾html代碼,從中獲取咱們想要資源(文本,圖片,視頻.....)

4.爬蟲的結果能夠作什麼?

經過爬蟲獲取到大量的結果,能夠進行數據分析來合理化安排。例如:

    (1).商家經過爬取淘寶單品的數據,分析出該單品受衆的喜好款式。合理化本身商品的銷售計劃,以及補貨方向。

    (2).我的經過爬取知乎某一個問題的相關結果,從而獲得一個更加合理化的結論。

另外,這在個大數據時代,只要你有了大量的數據,而且合理化時候這些數據,那麼成功就指日可待!

相關文章
相關標籤/搜索