Python網頁爬蟲--

pycharm裏安裝beautifulSoup以及lxml,才能使爬蟲功能強大。html

作網頁爬蟲須要,《網頁解析器:從網頁中提取有價值數據的工具web

http://blog.csdn.net/ochangwen/article/details/51959754正則表達式

在爬取數據的時候,有兩種方式post和get,這兩種方式的區別和聯繫。算法

 

-------------------------------------------------------------------------------------------編程

https://www.jianshu.com/p/4231173ccc83網頁爬蟲

網絡爬蟲(又被稱爲網頁蜘蛛),網絡機器人,是一種按照必定的規則,自動地抓信息的程序或者腳本。假設互聯網是一張很大的蜘蛛網,每一個頁面之間都經過超連接這根線相互鏈接,那麼咱們的爬蟲小程序就可以經過這些線不斷的搜尋到新的網頁。小程序

Python做爲一種表明簡單主義思想的解釋型、面向對象、功能強大的高級編程語言。它語法簡潔而且具備動態數據類型和高層次的抽象數據結構,這使得它具備良好的跨平臺特性,特別適用於爬蟲等程序的實現,此外Python還提供了例如Spyder這樣的爬蟲框架,BeautifulSoup這樣的解析框架,可以輕鬆的開發出各類複雜的爬蟲程序。網絡

在這篇文章中,使用Python自帶的urllib和BeautifulSoup庫實現了一個簡單的web爬蟲,用來爬取每一個URL地址及其對應的標題內容。數據結構



  • 爬蟲算法從輸入中讀取的一個URL做爲初始地址,向該地址發出一個Request請求。
  • 請求的地址返回一個包含全部內容的,將其存入一個String變量,使用該變量實例化一個BeautifulSoup對象,該對象可以將內容而且將其解析爲一個DOM樹。
    根據本身的須要創建正則表達式,最後藉助HTML標籤從中解析出須要的內容和新的URL,將新的放入隊列中。
  • 對於目前所處的URL地址與爬去的內容,在進行必定的過濾、整理後會創建索引,這是一個單詞-頁面的存儲結構。當用戶輸入搜索語句後,相應的分詞函數會對語句進行分解得到關鍵詞,而後再根據每一個關鍵詞查找到相應的URL。經過這種結構,能夠快速的獲取這個單詞所對應的地址列表。在這裏使用樹形結構的存儲方式,Python的字典和列表類型可以較好的構建出單詞詞典樹。
  • 從隊列中彈出目前的URL地址,在爬取隊列不爲空的條件下,算法不斷從隊列中獲取到新的網頁地址,並重覆上述過程。


環境框架

  • Python 3.5 or Anaconda3
  • BeautifulSoup 4

未完待續

--------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------

 按照網上的不少安裝包和安裝教程  最後總會報錯 說我安裝的beautifulSoup版本不對  來來回回折騰一週 忽然發現我太蠢了

其實能夠直接利用一條命令搞定 但前提是要安裝了pip 這樣利用pip就能夠直接安裝最新版本的beautifulSoup了

 待這些模塊以cmd的命令安裝成功之後 執行文件仍是會出錯

相似No module named 'bs4'等錯誤的解決方法

參看連接 安裝pycharm的各個模塊   https://www.cnblogs.com/xisheng/p/7856334.html

 

網頁爬蟲原理

https://blog.csdn.net/hanchaobiao/article/details/72860523

相關文章
相關標籤/搜索