[筆記] Introduction to Shallow Language Processing

Bag of Words 解釋: 搜素引擎用詞袋模型這種shallow form理解語言。詞袋模型的特徵有: 1)忽略word order; 2)忽略stopwords(像the,a這種頻率高又沒什麼實際意義的詞); 3)把words變成terms,將root相同的words變成一個term,比如cats->cat 優缺點: pros:簡單;有效 cons:有損的,無法從詞袋還原到原文檔;忽略了詞
相關文章
相關標籤/搜索