Python網頁爬蟲--

時間 2019-12-20

標籤 python 網頁爬蟲欄目 Python 简体版

原文原文鏈接

pycharm裏安裝beautifulSoup以及lxml，才能使爬蟲功能強大。html

作網頁爬蟲須要，《網頁解析器：從網頁中提取有價值數據的工具web

http://blog.csdn.net/ochangwen/article/details/51959754正則表達式

在爬取數據的時候，有兩種方式post和get，這兩種方式的區別和聯繫。算法

-------------------------------------------------------------------------------------------編程

https://www.jianshu.com/p/4231173ccc83網頁爬蟲

網絡爬蟲（又被稱爲網頁蜘蛛)，網絡機器人，是一種按照必定的規則，自動地抓信息的程序或者腳本。假設互聯網是一張很大的蜘蛛網，每一個頁面之間都經過超連接這根線相互鏈接，那麼咱們的爬蟲小程序就可以經過這些線不斷的搜尋到新的網頁。小程序

Python做爲一種表明簡單主義思想的解釋型、面向對象、功能強大的高級編程語言。它語法簡潔而且具備動態數據類型和高層次的抽象數據結構，這使得它具備良好的跨平臺特性，特別適用於爬蟲等程序的實現，此外Python還提供了例如Spyder這樣的爬蟲框架，BeautifulSoup這樣的解析框架，可以輕鬆的開發出各類複雜的爬蟲程序。網絡

在這篇文章中，使用Python自帶的urllib和BeautifulSoup庫實現了一個簡單的web爬蟲，用來爬取每一個URL地址及其對應的標題內容。數據結構

爬蟲算法從輸入中讀取的一個URL做爲初始地址，向該地址發出一個Request請求。
請求的地址返回一個包含全部內容的，將其存入一個String變量，使用該變量實例化一個BeautifulSoup對象，該對象可以將內容而且將其解析爲一個DOM樹。
根據本身的須要創建正則表達式，最後藉助HTML標籤從中解析出須要的內容和新的URL，將新的放入隊列中。
對於目前所處的URL地址與爬去的內容，在進行必定的過濾、整理後會創建索引，這是一個單詞-頁面的存儲結構。當用戶輸入搜索語句後，相應的分詞函數會對語句進行分解得到關鍵詞，而後再根據每一個關鍵詞查找到相應的URL。經過這種結構，能夠快速的獲取這個單詞所對應的地址列表。在這裏使用樹形結構的存儲方式，Python的字典和列表類型可以較好的構建出單詞詞典樹。
從隊列中彈出目前的URL地址，在爬取隊列不爲空的條件下，算法不斷從隊列中獲取到新的網頁地址，並重覆上述過程。

環境：框架

Python 3.5 or Anaconda3
BeautifulSoup 4

未完待續

--------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------

按照網上的不少安裝包和安裝教程最後總會報錯說我安裝的beautifulSoup版本不對來來回回折騰一週忽然發現我太蠢了

其實能夠直接利用一條命令搞定但前提是要安裝了pip 這樣利用pip就能夠直接安裝最新版本的beautifulSoup了