大數據技術_ 基礎理論 之 互聯網大數據處理方法

1 互聯網信息抓取 1.1概述 互聯網信息自動抓取,最常見且有效的方式是使用網絡爬蟲。 爬蟲可以被分爲兩類: 一類叫作「通用爬蟲」; 另一類叫作「聚焦爬蟲」。 目前成熟的網絡爬蟲有很多,其中不乏Googlebot、百度蜘蛛這樣的廣分佈式多服務器多線程的商業爬蟲和GNU Wget、Apache Nutch這樣的靈活方便的開源爬蟲搜索引擎。 1.2Nutch爬蟲 1.3案例:招聘網站信息抓取 1.4案
相關文章
相關標籤/搜索