什麼是網絡爬蟲?windows
網絡爬蟲是一個自動提取網頁的程序,它爲搜索引擎從萬維網上下載網頁,是搜索引擎的重要組成。傳統爬蟲從一個或若干初始網頁的URL開始,得到初始網頁上的URL,在抓取網頁的過程當中,不斷從當前頁面上抽取新的URL放入隊列,直到知足系統的必定中止條件網絡
爬蟲有什麼用?學習
在這裏仍是要推薦下我本身建的Python開發學習羣:483546416,羣裏都是學Python開發的,若是你正在學習Python ,小編歡迎你加入,你們都是軟件開發黨,不按期分享乾貨(只有Python軟件開發相關的),包括我本身整理的一份2018最新的Python進階資料和高級開發教程,歡迎進階中和進想深刻Python的小夥伴網站
作爲通用搜索引擎網頁收集器。(google,baidu)搜索引擎
作垂直搜索引擎.google
科學研究:在線人類行爲,在線社羣演化,人類動力學研究,計量社會學,複雜網絡,數據挖掘,等領域的實證研究都須要大量數據,網絡爬蟲是收集相關數據的利器。3d
偷窺,hacking,發垃圾郵件……排序
爬蟲是搜索引擎的第一步也是最容易的一步教程
• 網頁蒐集索引
• 創建索引
• 查詢排序
用什麼語言寫爬蟲?
C,C++。高效率,快速,適合通用搜索引擎作全網爬取。缺點,開發慢,寫起來又臭又長,例如:天網搜索源代碼。
腳本語言:Perl, Python, Java, Ruby。簡單,易學,良好的文本處理能方便網頁內容的細緻提取,但效率每每不高,適合對少許網站的聚焦爬取
C#?(貌似信息管理的人比較喜歡的語言)
爲何最終選擇Python?
跨平臺,對Linux和windows都有不錯的支持。
科學計算,數值擬合:Numpy,Scipy
可視化:2d:Matplotlib(作圖很漂亮), 3d: Mayavi2
複雜網絡:Networkx
統計:與R語言接口:Rpy
交互式終端
網站的快速開發?
一個簡單的Python爬蟲