什麼是網絡爬蟲html
網絡爬蟲又稱網絡蜘蛛,是指按照某種規則在網絡上爬取所需內容的腳本程序。衆所周知,每一個網頁一般包含其餘網頁的入口,網絡爬蟲則經過一個網址依次進入其餘網址獲取所需內容。python
優先申明:咱們使用的python編譯環境爲PyCharm網絡
1、首先一個網絡爬蟲的組成結構:ide
爬蟲調度程序(程序的入口,用於啓動整個程序)學習
url管理器(用於管理未爬取得url及已經爬取過的url)url
網頁下載器(用於下載網頁內容用於分析)3d
網頁解析器(用於解析下載的網頁,獲取新的url和所需內容)視頻
網頁輸出器(用於把獲取到的內容以文件的形式輸出)htm
2、編寫網絡爬蟲blog
(1)準備所需庫
咱們須要準備一款名爲BeautifulSoup(網頁解析)的開源庫,用於對下載的網頁進行解析,咱們是用的是PyCharm編譯環境因此能夠直接下載該開源庫。
在學習中有迷茫不知如何學習的朋友小編推薦一個學Python的學習q u n 227 -435- 450能夠來了解一塊兒進步一塊兒學習!免費分享視頻資料
步驟以下:
選擇File->Settings
打開Project:PythonProject下的Project interpreter
點擊加號添加新的庫
輸入bs4選擇bs4點擊Install Packge進行下載
(2)編寫爬蟲調度程序
這裏的bike_spider是項目名稱引入的四個類分別對應下面的四段代碼url管理器,url下載器,url解析器,url輸出器。
(3)編寫url管理器
咱們把已經爬取過的url和未爬取的url分開存放以便咱們不會重複爬取某些已經爬取過的網頁。
(4)編寫網頁下載器
經過網絡請求來下載頁面
(5)編寫網頁解析器
對網頁進行解析時咱們須要知道咱們要查詢的內容都有哪些特徵,咱們能夠打開一個網頁點擊右鍵審查元素來了解咱們所查內容的共同之處。
(6)編寫網頁輸出器
輸出的格式有不少種,咱們選擇以html的形式輸出,這樣咱們能夠的到一個html頁面。
寫在末尾
注意:網頁常常發生變化,咱們須要根據網頁的變化動態修改咱們的代碼來得到咱們所須要的內容。
這只是一個簡單的網絡爬蟲,若是須要完善其功能咱們須要考慮更多問題。