LDA相關改進

在原始基礎上,做了如下改進: tf-idf本來是自己根據公式編的算法,現在改成sklearn自帶的tf-idf,但這個出來的效果是每篇文章根據得分從高到低排列,LDA準備tokens時,應該是所有文章的關鍵詞排序;textrank用的是textrank4zh 在使用LDA之前,每篇文章的關鍵詞利用tf-idf及textrank打分的方式,由高到低排列,剔除停用詞及不顯示主題意義的詞性,由此產生的t
相關文章
相關標籤/搜索