網絡爬蟲本質就是模擬人模擬瀏覽器訪問網站,保存網站內容。瀏覽器
網絡爬蟲最開始是爲了整理網絡信息,抓取初步處理成資料文檔,相似heritrix爬蟲。網絡
另外一個普遍的應用就是搜索引擎,搜索引擎須要全網採集內容構建倒排索引。框架
後來國內出現了一片作網絡輿情的公司,網絡爬蟲須要採集的東西主要是新聞資訊,和搜索引擎的爬蟲類似,oop
近期伴隨着大數據的熱潮,爬蟲也被歸於大數據範疇,大數據
緣由我猜是你們hadoop框架搭好以後,發現,沒數據。網站
寫爬蟲吧,這其中有表明性的是互聯網金融,須要採集用戶信息,構建用戶行爲。搜索引擎