R 文字挖掘基本流程

文字挖掘的基本流程: 需要的工具套件: 內容來源:guternbergr 古騰堡計劃,提供很多書籍電子版資料,可以用guternbergr套件以編號直接下載書籍 自己爬取內容:現成的爬蟲工具,自己寫爬蟲 基本文字處理:dplyr、tidytext 包 斷詞模組: 1. 中文:jiebar包 基本斷詞 自定義使用者斷詞詞典 自定義停用詞 2. 英文:Stanford Cote NLP 詞性標註模組:
相關文章
相關標籤/搜索