Java之提取html中的文本內容

使用lucene創建索引時,碰到文本是html類型的,但須要的是對其中文本內容進行分析並索引,html標籤等應該排除在外,所以應該從html中提取文本內容html 思想以下: 使用jsoup對html文檔進行解析,每一個html標籤(Element)、文本(TextNode)都抽象成一個Node,每個Node都含有childNodes()方法來枚舉其包含的Node,這裏經過遞歸來提取文本內容,對於
相關文章
相關標籤/搜索