LDA相關改進

時間 2021-01-21

原文原文鏈接

在原始基礎上，做了如下改進： tf-idf本來是自己根據公式編的算法，現在改成sklearn自帶的tf-idf，但這個出來的效果是每篇文章根據得分從高到低排列，LDA準備tokens時，應該是所有文章的關鍵詞排序；textrank用的是textrank4zh 在使用LDA之前，每篇文章的關鍵詞利用tf-idf及textrank打分的方式，由高到低排列，剔除停用詞及不顯示主題意義的詞性，由此產生的t

>>阅读原文<<