需求:算法
兩個建築行業的招標網站發佈的招標文檔,標題可能不一樣,正文大部分相同,如何經過程序判斷文檔是否一致,從而達到去重的目的學習
現狀:測試
一、沒有深度學習的基礎,只能迴歸到常規軟件算法優化
二、範圍限定在建築行業,招標內容,那有限場景下用窮舉法是沒問題網站
三、容許必定重複率,後期能夠手動或者算法優化去重blog
分析思路:文檔
一、每個標書都有N個要素:時間,地點,人物,金額等等,逐個分析,哪一個是必須的,它出現的方式有多少種get
二、將全部已下載標書遍歷,看看要素字段獲取成功率,低於90%,說明還有經常使用的字段詞彙,沒有窮舉出來,找出來補充到腳本里面去便可深度學習
三、比對文檔類似度問題,轉變爲比較N個要素一致性的問題,能夠用SQL進行查重,也能夠用ES引擎來作查重。test
獲取文檔中的要素的測試代碼(test.rar,在文件下載區):
一、能夠獲取招標金額,有小缺陷
二、能夠獲取項目地址