Python爬蟲小白入門（一）寫在前面

時間 2019-11-08

標籤 python 爬蟲入門寫在前面欄目 Python 简体版

原文原文鏈接

1、前言

你是否是在爲想收集數據而不知道如何收集而着急？html

你是否是在爲想學習爬蟲而找不到一個專門爲小白寫的教程而煩惱？編程

Bingo! 你沒有看錯，這就是專門面向小白學習爬蟲而寫的！我會採用實例的方式，把每一個部分都跟實際的例子結合起來幫助小夥伴兒們理解。最後再寫幾個實戰的例子。瀏覽器

咱們使用Python來寫爬蟲，一方面由於Python是一個特別適合變成入門的語言，另外一方面，Python也有不少爬蟲相關的工具包，可以簡單快速的開發出咱們的小爬蟲。
本系列採用Python3.5版本，畢竟2.7會慢慢退出歷史舞臺~網絡

那麼，接下來，你得知道什麼是爬蟲、爬蟲從哪裏爬取數據的，以及，學習爬蟲都要學習哪些東西。工具

來看看百度百科是如何定義的學習

網絡爬蟲（又被稱爲網頁蜘蛛，網絡機器人，在FOAF社區中間，更常常的稱爲網頁追逐者），是一種按照必定的規則，自動地抓取萬維網信息的程序或者腳本。另一些不常使用的名字還有螞蟻、自動索引、模擬程序或者蠕蟲。網站

什麼？沒看懂？不要緊，我來給你解釋一下視頻

打開一個網頁，裏面有網頁內容吧，想象一下，有個工具，能夠把網頁上的內容獲取下來，存到你想要的地方，這個工具就是咱們今天的主角：爬蟲。htm

這樣是否是更清晰了呢？blog

既然瞭解了爬蟲是什麼，那麼爬蟲是如何爬取數據的呢？

打開瀏覽器（強烈建議谷歌瀏覽器），找到瀏覽器地址欄，而後在裏敲music.163.com，你會看到網頁內容。

欸，圖片中間那倆人在幹嗎？（單身狗請主動防護，這是誤傷，這真的是誤傷！）

鼠標在頁面上點擊右鍵，而後點擊view page source。看到這些文字了嗎？這纔是網頁最赤果果的樣子。

其實全部的網頁都是HTML代碼，只不過瀏覽器將這些代碼解析成了上面的網頁，咱們的小爬蟲抓取的其實就是HTML代碼中的文本啦。
這不合理啊，難不成那些圖片也是文本？

恭喜你，答對了。回到瀏覽器中有圖的哪一個tab頁，鼠標右鍵，點擊Inspect。會彈出一個面板，點擊板左上角的箭頭，點擊虐狗圖片，你會看到下面有紅圈圈的地方，是圖片的網絡地址。圖片能夠經過該地址保存到本地哦。

你猜的沒錯，咱們的小爬蟲抓取的正是網頁中的數據，你要知道你想要抓取什麼數據，你的目標網站是什麼，才能夠把想法變成現實的哦。你不能說，我想要這個這個，還有這個，而後數據就自動來了。。。(是否是讓你想起了你的導師或老闆？)

你們要先對如下內容有必定的瞭解再來學習爬蟲哦，磨刀不誤砍柴工

HTML
這個可以幫助你瞭解網頁的結構，內容等。能夠參考W3School的教程。
Python
若是有編程基礎的小夥伴兒，推薦看一個廖雪峯的Python教程就夠了
沒有編程基礎的小夥伴，推薦看看視頻教程（網易雲課堂搜Python），而後再結合廖雪峯的教程，左右開弓。
其實知乎上總結的已經很是好了，我就很少嘮叨了。知乎-如何系統的自學Python
TCP/IP協議，HTTP協議
這些知識可以讓你瞭解在網絡請求和網絡傳輸上的基本原理，瞭解就行，可以幫助從此寫爬蟲的時候理解爬蟲的邏輯。
廖雪峯Python教程裏也有簡單介紹，能夠參考：TCP/IP簡介，HTTP協議
想更深刻學習的小夥伴兒能夠去網上多搜搜相關的書籍哦