《Text Mining and Analytics》學習筆記——第三週

上週我們留了一個問題:在使用最大似然法時如何去掉那些並不重要但實際上出現次數又很多的單詞呢? 這周就以這個問題開始進一步的學習概率主題模型吧。 一元語言混合模型 怎麼能避免那些並不重要但實際上出現次數又很多的單詞對結果的影響呢?我們很自然的就會想到將a,the這類單詞和其他的單詞分開,也就是需要兩個或多個分佈來表示一個模型。 正如下圖所展示的一樣,我們用了兩個分佈來生成一個文本挖掘的文檔,選擇將
相關文章
相關標籤/搜索