設計和實現高水平分佈式網絡爬蟲

本人翻譯,原創,轉載務必註明:哈爾濱工程大學李海波正則表達式      設計和實現高水平分佈式網絡爬蟲算法 摘要:縱觀網絡搜索引擎和其餘特殊的搜索工具同樣,依賴網絡蜘蛛區得到大規模的網頁進行索引和分析。這樣的網絡爬蟲會與數以百萬計的主機在必定時期或者一週內進行交互。所以隨之產生的健壯性、靈活性和可管理性等問題。另外,I/O性能、網絡資源和操做系統的限制也會在設計高性能爬蟲的時候進行合理的考慮。數據
相關文章
相關標籤/搜索