詞句相似度計算——餘弦相似度

餘弦相似度,是一種通過判斷兩個向量的夾角來判斷其相似性的數學方法。 舉個栗子: A:中國工商銀行北京分部北京支行 B:中國招商銀行廣西分部桂林支行 我們用「餘弦相似度」的辦法來判斷這兩個句子的相似性 1、分詞! 第一步要做的肯定是分詞,把一個句子分成一組一組的散詞,分詞一般我們會用現成的語料庫,比如結巴分詞是吧,傳說中的最好用的中文分詞模塊包。如果不是專業性特別強的方向,足矣,如果是專項的,比如醫
相關文章
相關標籤/搜索