人與計算機的交互過程當中,若是能提供人類的天然語言形式來進行交流,那人與計算機就能更加親密友好。而要實現這一機制就須要天然語言處理來處理,通常來講天然語言處理會涉及幾個學科:計算機科學、語言學、統計學和數學等。算法
不一樣語言的天然語言處理也存在差異,對於中文來講,不少時候都沒法直接套用英語天然語言處理中相對成熟的理論。有不少基礎工做也是須要咱們本身去作,這就包括了中文類似度。併發
中文類似度按照長度能夠有字與字的類似度、單詞與單詞的類似度、句子與句子的類似度、段落與段落的類似度和文章與文章的類似度。機器學習
傳統類似度的衡量計算通常可使用編輯距離算法、餘弦值法、SimHash法、n-gram法、漢明距離法、最長公共子串法、最長公共子序列法等等。分佈式
類似度計算方法總的能夠歸爲兩類,一類是基於統計的方法,通常用於句子段落這些較大粒度文本。另外一類是基於語義的方法,通常用於詞語或句子等較小粒度文本。學習
中文類似度應用普遍,.net
從某種程度上來講,若是能定義一個較好的類似度計算方式,而且能有一個較好的準確性,那麼基本就能解決不少NLP領域文本相關的問題。翻譯
=============廣告時間===============設計
公衆號的菜單已分爲「分佈式」、「機器學習」、「深度學習」、「NLP」、「Java深度」、「Java併發核心」、「JDK源碼」、「Tomcat內核」等,可能有一款適合你的胃口。cdn
鄙人的新書《Tomcat內核設計剖析》已經在京東銷售了,有須要的朋友能夠購買。感謝各位朋友。blog
=========================
相關閱讀:
歡迎關注: