爬蟲前奏
爬蟲的實際例子:
- 搜索引擎(百度、谷歌、360搜索等)。
- 伯樂在線。
- 惠惠購物助手。
- 數據分析與研究(數據冰山知乎專欄)。
- 搶票軟件等。
什麼是網絡爬蟲:
- 通俗理解:爬蟲是一個模擬人類請求網站行爲的程序。能夠自動請求網頁、並數據抓取下來,而後使用必定的規則提取有價值的數據。
- 專業介紹:百度百科。
通用爬蟲和聚焦爬蟲:
- 通用爬蟲:通用爬蟲是搜索引擎抓取系統(百度、谷歌、搜狗等)的重要組成部分。主要是將互聯網上的網頁下載到本地,造成一個互聯網內容的鏡像備份。
- 聚焦爬蟲:是面向特定需求的一種網絡爬蟲程序,他與通用爬蟲的區別在於:聚焦爬蟲在實施網頁抓取的時候會對內容進行篩選和處理,儘可能保證只抓取與需求相關的網頁信息。
爲何用Python寫爬蟲程序:
- PHP:PHP是世界是最好的語言,但他天生不是作這個的,並且對多線程、異步支持不是很好,併發處理能力弱。爬蟲是工具性程序,對速度和效率要求比較高。
- Java:生態圈很完善,是Python爬蟲最大的競爭對手。可是Java語言自己很笨重,代碼量很大。重構成本比較高,任何修改會致使代碼大量改動。爬蟲常常要修改採集代碼。
- C/C++:運行效率是無敵的。可是學習和開發成本高。寫個小爬蟲程序可能要大半天時間。
- Python:語法優美、代碼簡潔、開發效率高、支持的模塊多。相關的HTTP請求模塊和HTML解析模塊很是豐富。還有Scrapy和Scrapy-redis框架讓咱們開發爬蟲變得異常簡單。
準備工具:
- Python3.6開發環境。
- Pycharm 2019 professional版。
- 虛擬環境。`virtualenv/virtualenvwrapper`。
歡迎關注本站公眾號,獲取更多信息