Java正則表達式過濾、替換，將一段文本中的英語單詞分別提取出，並統計詞頻，按詞頻排序。

時間 2021-01-13

原文原文鏈接

最近在學習自然語言處理，在建立基礎標籤庫時，遇到一個需要提取語料中的英文單詞的工作，做好了現在來和大家分享下。實現效果：讀取文件內容，把其中的英文單詞提取出，並統計詞頻。提取時，原本不是連在一起的單詞可以分開獨立提取，例如：我的PPT和WORD,可以提取出PPT，WORD兩個單詞。基本思想：如果直接用正則表達式把其他非字母字符都過濾掉，那麼剩下的英文單詞就會連在一起了，所以，在處理時，應該保留

>>阅读原文<<