如何用PostgreSQL解決一個人工智能語義去重的小問題

在雲棲社區的問答區,有一位網友提到有一個問題: 表裏相似數據太多,想刪除相似度高的數據,有什麼辦法能實現嗎? 例如: 銀屑病怎麼治? 銀屑病怎麼治療? 銀屑病怎麼治療好? 銀屑病怎麼能治療好? 等等 解這個問題的思路 .1. 首先如何判斷內容的相似度,PostgreSQL中提供了中文分詞,pg_trgm(將字符串切成多個不重複的token,計算兩個字符串的相似度) . 對於本題,我建議採取中文分詞
相關文章
相關標籤/搜索