網絡爬蟲

時間 2019-12-12

原文原文鏈接

網絡爬蟲windows

網絡爬蟲是一個自動提取網頁的程序，它爲搜索引擎從萬維網上下載網頁，是搜索引擎的重要組成。傳統爬蟲從一個或若干初始網頁的URL開始，得到初始網頁上的URL，在抓取網頁的過程當中，不斷從當前頁面上抽取新的URL放入隊列,直到知足系統的必定中止條件網絡

爬蟲的做用網站

• 作爲通用搜索引擎網頁收集器。（google,baidu）搜索引擎

• 作垂直搜索引擎.(找工做的搜索引擎: www.deepdo.com,數據來源於：www.51job.com , www.zhaoping.com , www.chinahr.com 等等)
• 科學研究：在線人類行爲，在線社羣演化，人類動力學研究，計量社會學，複雜網絡，數據挖掘，等領域的實證研究都須要大量數據，網絡爬蟲是收集相關數據的利器。
• 偷窺，hacking，發垃圾郵件……（《google hack》….）google

爬蟲是搜索引擎的第一步也是最容易的一步spa

• 網頁蒐集 • 創建索引 • 查詢排序3d

用什麼語言寫爬蟲？
• C，C++。高效率，快速，適合通用搜索引擎作全網爬取。缺點，開發慢，寫起來又臭又長，例如：天網搜索源代碼。
• 腳本語言：Perl, Python, Java, Ruby。簡單，易學，良好的文本處理能方便網頁內容的細緻提取，但效率每每不高，適合對少許網站的聚焦爬取
• C#？（貌似信息管理的人比較喜歡的語言）blog

爲何最終選擇Python？
• 跨平臺，對Linux和windows都有不錯的支持。
• 科學計算，數值擬合：Numpy，Scipy
• 可視化：2d：Matplotlib(作圖很漂亮), 3d: Mayavi2
• 複雜網絡：Networkx
• 統計：與R語言接口：Rpy
• 交互式終端
• 網站的快速開發？排序

相關標籤/搜索

每日一句

每一个你不满意的现在，都有一个你没有努力的曾经。