[wordpress搬家]nutch的二三事 — 數據清洗

[2013.12.27] css 好吧……這篇文章與nutch有關係也沒有關係。html 在nutch把數據放入數據庫之後,由於是非結構化的,因此咱們還須要從中提取咱們須要的數據,這時就須要清洗數據了。java 本身寫一個小程序是頗有用的,Ade這裏用的方法是遠程jdbc連接數據庫,獲取webpage中的content字段,而後使用jsoup提取數據。node 選用jsoup的緣由是content
相關文章
相關標籤/搜索