Nutch 關於讀取資源數據的命令

資料來源:http://adt.haotui.com/thread-278-1-1.html

關於讀取資源數據的命令

最近在研究nutch,整理了一下關於讀取資源數據的命令。html


1.查看crawldb數據庫:bin/nutch readdb url/crawldb/ -stats     這個命令能夠查看url地址總數和它的狀態及評分。
查看每一個url地址的詳細內容,導出數據:bin/nutch readdb url/crawldb/  -dump crawldb(導出的地址)

查看具體的url,以163爲例:
bin/nutch  readdb url/crawldb/ -url http://www.163.com/

2.
查看linkdb數據庫的連接狀況:bin/nutch readlinkdb url/linkdb/ -url http://www.163.com/

導出linkdb數據庫文件:bin/nutch readlinkdb url/linkdb/ -dump linkdb(導出的地址)

3.
查看segmentsbin/nutch readseg -list -dir url/segments/   能夠看到每個segments的名稱,產生的頁面數,抓取的開始時間和結束時間,抓取數和解析數。


導出segmentsbin/nutch readseg -dump url/segments/20090309103156 segdb數據庫

相關文章
相關標籤/搜索