以前在天然語言處理技術系列的第一篇NER實戰的結語中介紹過:序列標註(分詞,NER),文本分類(情感分析),句子關係判斷(語意類似判斷),句子生成(機器翻譯)是NLP領域的四大任務,以後我又陸續簡單介紹了情感分析實戰,和Seq2Seq生成對聯。今天咱們來到這個系列的終章篇——語義類似判斷。語義類似判斷就是判斷兩個句子是否具備相同的語義,其應用場景多用於問答系統:算法
- 判斷兩個問句是否具備相同的語義。
- 判斷問題和檢索出的答案是否匹配。
固然也能夠用於其餘場景好比判斷兩幅圖片是不是同樣——人臉識別,因此從廣義上來講,就是語義相識判斷就是判斷兩個東西是否具備某種類似度的任務。spa
語義類似判斷任務簡介
語義類似能夠轉化爲一個分類問題。給模型輸入兩個句子,而後但願模型判斷出兩個句子語義是否類似。具體輸入輸出細節以下:
輸入:
翻譯
- 1.爲什麼我沒法申請開通花唄信用卡收款
- 2.支付寶開通訊用卡花唄收款不符合條件怎麼回事
輸出:1
若是輸出0表示不類似,輸出1表示類似。
圖片
語義類似判斷算法簡介
語義類似仍是NLP中的老問題,如何將句子映射到到向量空間中同時保持語義,而後咱們就能夠經過各類距離去衡量句子的類似程度。支付寶
- 上古時期的方式是經過bag of words,tf-idf這種詞袋模型去映射句子。
- 以後出現了word2vector技術,咱們就能夠將一句話中每一個詞的的詞向量求平均來