文檔類似度比對之窮舉法

需求:算法

兩個建築行業的招標網站發佈的招標文檔,標題可能不一樣,正文大部分相同,如何經過程序判斷文檔是否一致,從而達到去重的目的學習

 

現狀:測試

一、沒有深度學習的基礎,只能迴歸到常規軟件算法優化

二、範圍限定在建築行業,招標內容,那有限場景下用窮舉法是沒問題網站

三、容許必定重複率,後期能夠手動或者算法優化去重blog

 

分析思路:文檔

一、每個標書都有N個要素:時間,地點,人物,金額等等,逐個分析,哪一個是必須的,它出現的方式有多少種get

二、將全部已下載標書遍歷,看看要素字段獲取成功率,低於90%,說明還有經常使用的字段詞彙,沒有窮舉出來,找出來補充到腳本里面去便可深度學習

三、比對文檔類似度問題,轉變爲比較N個要素一致性的問題,能夠用SQL進行查重,也能夠用ES引擎來作查重。test

 

獲取文檔中的要素的測試代碼(test.rar,在文件下載區):

一、能夠獲取招標金額,有小缺陷

二、能夠獲取項目地址 

相關文章
相關標籤/搜索