Python爬蟲小白入門(一)寫在前面

1、前言


你是否是在爲想收集數據而不知道如何收集而着急?html

你是否是在爲想學習爬蟲而找不到一個專門爲小白寫的教程而煩惱?編程

Bingo! 你沒有看錯,這就是專門面向小白學習爬蟲而寫的!我會採用實例的方式,把每一個部分都跟實際的例子結合起來幫助小夥伴兒們理解。最後再寫幾個實戰的例子。瀏覽器

咱們使用Python來寫爬蟲,一方面由於Python是一個特別適合變成入門的語言,另外一方面,Python也有不少爬蟲相關的工具包,可以簡單快速的開發出咱們的小爬蟲。
本系列採用Python3.5版本,畢竟2.7會慢慢退出歷史舞臺~網絡

那麼,接下來,你得知道什麼是爬蟲、爬蟲從哪裏爬取數據的,以及,學習爬蟲都要學習哪些東西。工具

2、什麼是爬蟲


來看看百度百科是如何定義的學習

網絡爬蟲(又被稱爲網頁蜘蛛,網絡機器人,在FOAF社區中間,更常常的稱爲網頁追逐者),是一種按照必定的規則,自動地抓取萬維網信息的程序或者腳本。另一些不常使用的名字還有螞蟻、自動索引、模擬程序或者蠕蟲網站

什麼?沒看懂?不要緊,我來給你解釋一下視頻

打開一個網頁,裏面有網頁內容吧,想象一下,有個工具,能夠把網頁上的內容獲取下來,存到你想要的地方,這個工具就是咱們今天的主角:爬蟲。htm

這樣是否是更清晰了呢?blog

既然瞭解了爬蟲是什麼,那麼爬蟲是如何爬取數據的呢?

3、爬蟲是哪裏爬取數據的


打開瀏覽器(強烈建議谷歌瀏覽器),找到瀏覽器地址欄,而後在裏敲music.163.com,你會看到網頁內容。

欸,圖片中間那倆人在幹嗎?(單身狗請主動防護,這是誤傷,這真的是誤傷!)

鼠標在頁面上點擊右鍵,而後點擊view page source。看到這些文字了嗎?這纔是網頁最赤果果的樣子。

其實全部的網頁都是HTML代碼,只不過瀏覽器將這些代碼解析成了上面的網頁,咱們的小爬蟲抓取的其實就是HTML代碼中的文本啦。
這不合理啊,難不成那些圖片也是文本?

恭喜你,答對了。回到瀏覽器中有圖的哪一個tab頁,鼠標右鍵,點擊Inspect。會彈出一個面板,點擊板左上角的箭頭,點擊虐狗圖片,你會看到下面有紅圈圈的地方,是圖片的網絡地址。圖片能夠經過該地址保存到本地哦。

你猜的沒錯,咱們的小爬蟲抓取的正是網頁中的數據,你要知道你想要抓取什麼數據,你的目標網站是什麼,才能夠把想法變成現實的哦。你不能說,我想要這個這個,還有這個,而後數據就自動來了。。。(是否是讓你想起了你的導師或老闆?)

4、學習爬蟲的必備知識


你們要先對如下內容有必定的瞭解再來學習爬蟲哦,磨刀不誤砍柴工

  • HTML
    這個可以幫助你瞭解網頁的結構,內容等。能夠參考W3School的教程

  • Python
    若是有編程基礎的小夥伴兒,推薦看一個廖雪峯的Python教程就夠了
    沒有編程基礎的小夥伴,推薦看看視頻教程(網易雲課堂搜Python),而後再結合廖雪峯的教程,左右開弓。
    其實知乎上總結的已經很是好了,我就很少嘮叨了。知乎-如何系統的自學Python

  • TCP/IP協議,HTTP協議
    這些知識可以讓你瞭解在網絡請求和網絡傳輸上的基本原理,瞭解就行,可以幫助從此寫爬蟲的時候理解爬蟲的邏輯。
    廖雪峯Python教程裏也有簡單介紹,能夠參考:TCP/IP簡介HTTP協議
    想更深刻學習的小夥伴兒能夠去網上多搜搜相關的書籍哦

OK, 下一篇就開始咱們的實戰啦

相關文章
相關標籤/搜索