statement:這裏的文本類似度不是指語義類似度,僅僅指字符重疊度html
import Levenshtein as lst >>> lst.distance('as','asd') 1 >>> lst.ratio('as','asd') 0.8 >>> lst.ratio('ase','asd') 0.6666666666666666 >>> lst.distance('ase','asd') 1 >>> lst.distance('as','as') 0 >>> lst.distance('好的','好像') 3 >>> lst.ratio('好的','好像') 0.5 >>> lst.ratio('好的還能夠','好像') 0.47619047619047616 >>> lst.ratio('好像是','好像') 0.8 >>>
頁能夠根據餘弦定理:python
http://www.ruanyifeng.com/blog/2013/03/cosine_similarity.htmlspa