Bag-of-words 詞袋模型基本原理

Bag-of-words詞袋模型最初被用在信息檢索領域,對於一篇文檔來說,假定不考慮文檔內的詞的順序關係和語法,只考慮該文檔是否出現過這個單詞。假設有5類主題,我們的任務是來了一篇文檔,判斷它屬於哪個主題。在訓練集中,我們有若干篇文檔,它們的主題類型是已知的。我們從中選出一些文檔,每篇文檔內有一些詞,我們利用這些詞來構建詞袋。我們的詞袋可以是這種形式:{‘watch’,'sports','phon
相關文章
相關標籤/搜索