網絡爬蟲windows
網絡爬蟲是一個自動提取網頁的程序,它爲搜索引擎從萬維網上下載網頁,是搜索引擎的重要組成。傳統爬蟲從一個或若干初始網頁的URL開始,得到初始網頁上的URL,在抓取網頁的過程當中,不斷從當前頁面上抽取新的URL放入隊列,直到知足系統的必定中止條件網絡
爬蟲的做用網站
• 作爲通用搜索引擎網頁收集器。(google,baidu)搜索引擎
• 作垂直搜索引擎.(找工做的搜索引擎: www.deepdo.com,數據來源於:www.51job.com , www.zhaoping.com , www.chinahr.com 等等)
• 科學研究:在線人類行爲,在線社羣演化,人類動力學研究,計量社會學,複雜網絡,數據挖掘,等領域的實證研究都須要大量數據,網絡爬蟲是收集相關數據的利器。
• 偷窺,hacking,發垃圾郵件……(《google hack》….)google
爬蟲是搜索引擎的第一步也是最容易的一步spa
• 網頁蒐集 • 創建索引 • 查詢排序3d
用什麼語言寫爬蟲?
• C,C++。高效率,快速,適合通用搜索引擎作全網爬取。缺點,開發慢,寫起來又臭又長,例如:天網搜索源代碼。
• 腳本語言:Perl, Python, Java, Ruby。簡單,易學,良好的文本處理能方便網頁內容的細緻提取,但效率每每不高,適合對少許網站的聚焦爬取
• C#?(貌似信息管理的人比較喜歡的語言)blog
爲何最終選擇Python?
• 跨平臺,對Linux和windows都有不錯的支持。
• 科學計算,數值擬合:Numpy,Scipy
• 可視化:2d:Matplotlib(作圖很漂亮), 3d: Mayavi2
• 複雜網絡:Networkx
• 統計:與R語言接口:Rpy
• 交互式終端
• 網站的快速開發?排序