爬蟲實戰5—分佈式數據庫及應用

文章說明:本文是在學習一個網絡爬蟲課程時所做筆記,文章如有不對的地方,歡迎指出,積極討論。 一、分佈式爬蟲 (一)分佈式爬蟲系統 Map Reduce:是一種編程模型,用於大規模數據集(大於1TB)的並行運算。 NLP(Natural Language Processing):自然語言處理。 批處理(Batch):也稱爲批處理腳本。就是對某對象進行批量的處理,通常被認爲是一種簡化的腳本語言,它應用
相關文章
相關標籤/搜索