python比較文本類似度(not semantical)

statement:這裏的文本類似度不是指語義類似度,僅僅指字符重疊度html

sudo apt-get install python-Levenshtein

import Levenshtein as lst
>>> lst.distance('as','asd')
1
>>> lst.ratio('as','asd')
0.8
>>> lst.ratio('ase','asd')
0.6666666666666666
>>> lst.distance('ase','asd')
1
>>> lst.distance('as','as')
0
>>> lst.distance('好的','好像')
3
>>> lst.ratio('好的','好像')
0.5
>>> lst.ratio('好的還能夠','好像')
0.47619047619047616
>>> lst.ratio('好像是','好像')
0.8
>>> 

​

頁能夠根據餘弦定理:python

TF-IDF與餘弦類似性的應用(二):找出類似文章

http://www.ruanyifeng.com/blog/2013/03/cosine_similarity.htmlspa

相關文章
相關標籤/搜索