Java正則表達式過濾、替換,將一段文本中的英語單詞分別提取出,並統計詞頻,按詞頻排序。

最近在學習自然語言處理,在建立基礎標籤庫時,遇到一個需要提取語料中的英文單詞的工作,做好了現在來和大家分享下。 實現效果:讀取文件內容,把其中的英文單詞提取出,並統計詞頻。提取時,原本不是連在一起的單詞可以分開獨立提取,例如:我的PPT和WORD,可以提取出PPT,WORD兩個單詞。 基本思想:如果直接用正則表達式把其他非字母字符都過濾掉,那麼剩下的英文單詞就會連在一起了,所以,在處理時,應該保留
相關文章
相關標籤/搜索