《Text Mining and Analytics》學習筆記——第三週

時間 2020-12-23

標籤文本挖掘 TextMining Coursera 筆記欄目 HTML 简体版

原文原文鏈接

上週我們留了一個問題：在使用最大似然法時如何去掉那些並不重要但實際上出現次數又很多的單詞呢？這周就以這個問題開始進一步的學習概率主題模型吧。一元語言混合模型怎麼能避免那些並不重要但實際上出現次數又很多的單詞對結果的影響呢？我們很自然的就會想到將a，the這類單詞和其他的單詞分開，也就是需要兩個或多個分佈來表示一個模型。正如下圖所展示的一樣，我們用了兩個分佈來生成一個文本挖掘的文檔，選擇將

>>阅读原文<<