最近在研究nutch,整理了一下關於讀取資源數據的命令。html
1.查看crawldb數據庫:bin/nutch readdb url/crawldb/ -stats 這個命令能夠查看url地址總數和它的狀態及評分。
查看每一個url地址的詳細內容,導出數據:bin/nutch readdb url/crawldb/ -dump crawldb(導出的地址)
查看具體的url,以163爲例:bin/nutch readdb url/crawldb/ -url http://www.163.com/
2.查看linkdb數據庫的連接狀況:bin/nutch readlinkdb url/linkdb/ -url http://www.163.com/
導出linkdb數據庫文件:bin/nutch readlinkdb url/linkdb/ -dump linkdb(導出的地址)
3.查看segments:bin/nutch readseg -list -dir url/segments/ 能夠看到每個segments的名稱,產生的頁面數,抓取的開始時間和結束時間,抓取數和解析數。
導出segments:bin/nutch readseg -dump url/segments/20090309103156 segdb數據庫