大數據和雲計算技術總結

<一>數據收集   外部數據收集web     數據源:PC端數據,App移動端數據算法   Apache Nutch 主要組件有Crawler,Indexer以及Searcher.爬蟲,索引以及查詢.利用Lucene技術進行索引,   Heritrix 更專一於網絡信息的下載   Solr:Solr 是一個基於Lucene的Java搜索引擎服務器  內部收集收集  數據庫     數據源:Web
相關文章
相關標籤/搜索