爬蟲項目筆記

爬蟲數據從哪裏來? 傳統的數據庫、web日誌信息,轉移到HDFS/Hive/HBase等等中進行存儲。 百度,google等等這些搜索引擎公司中爲用戶提供搜索服務的數據從哪裏來? 獲取互聯網中海量數據的過程或者行爲就是爬蟲。 爬蟲分爲垂直爬蟲;全網爬蟲兩種; 垂直爬蟲:爬取一個網站各個分類的數據。 全網爬蟲:爬取多個網站的數據。 ①爬蟲的基礎架構: 數據下載:運用到httpclient下載技術,通
相關文章
相關標籤/搜索