QA問答系統,QA匹配論文學習筆記

論文題目:算法

WIKIQA: A Challenge Dataset for Open-Domain Question Answering 測試

 

論文代碼運行:spa

首先按照readme中的提示安裝須要的部分日誌

遇到的問題:blog

theano的一些問題,主要是API改動it

下面是解決方法io

首先安裝class

https://stackoverflow.com/questions/39501152/importerror-no-module-named-downsampleimport

代碼改動以下所示:module

 

論文內容:

摘要:

介紹本文主要是提供了一種開放領域的QA匹配的問答系統,而且描述了建立的WIKI數據集的方式。

這種QA匹配的算法與以前的算法的不一樣之處在於,以往重點在於Q和A中相同詞的個數,主要重點在於文本結構的類似,

本文的算法偏向於語義的類似。本文對比了幾種算法在相同數據集上的表現。

引言:

Answer sentence selection (答案選擇??)是開放領域QA的一個自問題。介紹了

TREC-QA data 的來歷。說這個數據集雖然已是該類問題的基準測試機,可是並很差,有巴拉巴拉一些缺點,

主要就是question和answer之間的文本類似度比較大,偏心文本類似的答案,比實際狀況效果有些膨脹了。

另外一方面就是實際狀況question不必定有對應的答案。

因此建立了wikiQA數據集。

本文的做者實現了幾種模型來

wikiQA數據集的介紹:

這個數據集是從Bing的搜索日誌中選出來的。這個數據集有3047條數據。

這是基於用戶點擊WIKI頁面獲得的。就是用戶有個搜索的問題,返回結果有wiki,用戶點開看了。

那答案怎麼來呢?答案是wiki頁面的摘要。

做者認爲wiki的摘要質量很高,能夠很好的歸納頁面的內容。

爲了排除對於keyword(關鍵字)的偏好,數據集將摘要中的每一句話都做爲問題的一個候選答案。

而後再由人工標註哪些句子是正確答案。

 

實驗:

對比了使用TF-IDF和不使用TF-IDF的區別,實現了

LCLR  和CNN兩種QA比較的算法

CNN-Cnt是最好的了,CNN加詞的權重

在WIKI QA數據集上 CNN表現好與單純的詞匹配,好於LCLR

總結:

相關文章
相關標籤/搜索