網絡爬蟲

 網絡爬蟲windows

        網絡爬蟲是一個自動提取網頁的程序,它爲搜索引擎從萬維網上下載網頁,是搜索引擎的重要組成。傳統爬蟲從一個或若干初始網頁的URL開始,得到初始網頁上的URL,在抓取網頁的過程當中,不斷從當前頁面上抽取新的URL放入隊列,直到知足系統的必定中止條件網絡

爬蟲的做用網站

作爲通用搜索引擎網頁收集器。(google,baidu)搜索引擎

• 作垂直搜索引擎.(找工做的搜索引擎: www.deepdo.com,數據來源於:www.51job.com , www.zhaoping.com , www.chinahr.com 等等)
• 科學研究:在線人類行爲,在線社羣演化,人類動力學研究,計量社會學,複雜網絡,數據挖掘,等領域的實證研究都須要大量數據,網絡爬蟲是收集相關數據的利器。
• 偷窺,hacking,發垃圾郵件……(《google hack》….)
google

爬蟲是搜索引擎的第一步也是最容易的一步spa

 • 網頁蒐集                 • 創建索引                   • 查詢排序3d

 

用什麼語言寫爬蟲?
• C,C++。高效率,快速,適合通用搜索引擎作全網爬取。缺點,開發慢,寫起來又臭又長,例如:天網搜索源代碼。
• 腳本語言:Perl, Python, Java, Ruby。簡單,易學,良好的文本處理能方便網頁內容的細緻提取,但效率每每不高,適合對少許網站的聚焦爬取
• C#?(貌似信息管理的人比較喜歡的語言)blog

爲何最終選擇Python?
• 跨平臺,對Linux和windows都有不錯的支持。
• 科學計算,數值擬合:Numpy,Scipy
• 可視化:2d:Matplotlib(作圖很漂亮), 3d: Mayavi2
• 複雜網絡:Networkx
• 統計:與R語言接口:Rpy
• 交互式終端
• 網站的快速開發?排序

相關文章
相關標籤/搜索