分佈式網絡爬蟲的基本實現簡述

 一、前言     前一段時間,小小的寫了一個爬蟲,是關於電商網站的。今天,把它分享出來,供大家參考,如有不足之處,請見諒!(抱拳)   二、準備工作     我們實現的這個爬蟲是Java編寫的。所用到的框架或者技術如下:     Redis:分佈式的Key-Value數據庫,用來作存儲臨時的頁面URL的倉庫。     HttpClient:Apache旗下的一款軟件,用來下載頁面。     Ht
相關文章
相關標籤/搜索