BiTerm Topic Model

時間 2021-01-12

原文原文鏈接

需求背景短文本，短視頻的tag標籤，如果使用圖文的方法，顯得力不從心，bad case太多。例如直接使用LDA算法對圖文語料進行訓練，取得不錯的聚類效果，但是使用短視頻的標籤信息語料進行相同的操作，效果不佳。直接使用word2vec進行關鍵詞匹配的方式，很大程度上依賴視頻標籤的質量。而視頻標籤的標註信息不能依賴於信息上傳者的標註信息與用戶標註意圖，這個不定因素不是我們能夠控制的。主題模型發展

>>阅读原文<<