文本挖掘的基本過程

什麼是文本挖掘 從文本數據中獲取新發現的過程 文本挖掘也是一個非結構到結構化的過程。它是多方技術的一個綜合。 文本挖掘的框架 文本數據源的獲取,好比電子文檔 數據預處理,將數據進行整合 文本清理 經常使用方法有:停詞去除、詞幹提取 詞切分(Tokenization ) 詞性標註(POS tagging) 句法解析(Syntactial Parsing) 句法主要分爲組成語法和相關語法兩類 信息提取
相關文章
相關標籤/搜索