如何用PostgreSQL解決一個人工智能語義去重的小問題

時間 2021-07-12

原文原文鏈接

在雲棲社區的問答區，有一位網友提到有一個問題：表裏相似數據太多，想刪除相似度高的數據，有什麼辦法能實現嗎？例如：銀屑病怎麼治？銀屑病怎麼治療？銀屑病怎麼治療好？銀屑病怎麼能治療好？等等解這個問題的思路 .1. 首先如何判斷內容的相似度，PostgreSQL中提供了中文分詞，pg_trgm(將字符串切成多個不重複的token,計算兩個字符串的相似度) . 對於本題，我建議採取中文分詞

>>阅读原文<<