基於CNN和詞向量的文本相似度分析

時間 2020-12-23

原文原文鏈接

1. 前言衆所周知，現在的時代就是海量數據暴增的時代，每天的各種聊天工具和數以億計的網頁產生了海量的人工無法高效處理的各種文字信息。由此而生，我們自然想到通過分類來減少信息檢索，分類的依據就是文本之間的相似度，同時人們希望電腦能幫助人們來實現這一難題，從而各種基於語句格式和語義統計的語言表示方法誕生了。在這樣一個大環境下，人們接觸文本數據也越來越多，而在中文的語義環境下，每一個