智能問答即給定天然語言問題,經過對問題進行語義理解和解析,進而利用知識庫進行查詢、推理得出答案。與對話系統、對話機器人的交互式對話不一樣,智能問答具備如下特色:
答案:回答的答案是知識庫中的實體或實體關係,或者no-answer(即該問題在KB中找不到答案),固然這裏答案不必定惟一,好比 中國的城市有哪些 。而對話系統則回覆的是天然語言句子,有時甚至須要考慮上下文語境。評價標準:召回率 (Recall),精確率 (Precision) ,F1-Score。而對話系統的評價標準以人工評價爲主,以及BLEU和Perplexity。
知識庫問答的主流方法
語義解析(Semantic Parsing):該方法是一種偏linguistic的方法,主體思想是將天然語言轉化爲一系列形式化的邏輯形式(logic form),經過對邏輯形式進行自底向上的解析,獲得一種能夠表達整個問題語義的邏輯形式,經過相應的查詢語句(相似lambda-Caculus)在知識庫中進行查詢,從而得出答案。
信息抽取(Information Extraction):該類方法經過提取問題中的實體,經過在知識庫中查詢該實體能夠獲得以該實體節點爲中心的知識庫子圖,子圖中的每個節點或邊均可以做爲候選答案,經過觀察問題依據某些規則或模板進行信息抽取,獲得問題特徵向量,創建分類器經過輸入問題特徵向量對候選答案進行篩選,從而得出最終答案。
向量建模(Vector Modeling): 該方法思想和信息抽取的思想比較接近,根據問題得出候選答案,把問題和候選答案都映射爲分佈式表達(Distributed Embedding),經過訓練數據對該分佈式表達進行訓練,使得問題和正確答案的向量表達的得分(一般以點乘爲形式)儘可能高模型訓練完成後則可根據候選答案的向量表達和問題表達的得分進行篩選,得出最終答案。
KGB知識圖譜現已實現如下功能:1.文檔解析:KGB知識圖譜引擎,可輕鬆解析多種格式與版本文檔:TXT、DOC、EXCEL、PPT、PDF、XML等。尤爲是PDF文件,可直接解析輸出爲word格式文件,保留文件中表格與文字格式等重要信息。對於圖片信息,OCR可自動識別並抽取圖片中的文字信息。2. 知識抽取:KGB知識圖譜引擎,可從結構化表格與非結構化文本中自適應識別並抽取關鍵知識(主體、客體、時間、地點、金額、條款等),準確率高達90%,實現知識的快速生成。三、知識關聯:KGB知識圖譜引擎深刻挖掘知識關聯,將一個個知識實體連接爲具備完整意義的知識事實。並具備強大的知識推理能力,推理出暗含的知識與結論,豐富知識圖譜。四、知識較驗:KGB知識圖譜加工廠可以對知識質量智能校驗,包括對多種知識錯誤與衝突進行自動智能覈查與修正,更有知識工程師進行知識精準校驗,保證知識圖譜的準確性。
在行業應用方面,KGB知識圖譜具備如下特點:一、跨領域可擴展:知識圖譜加工廠具備通用的圖譜構建引擎。知識抽取、知識關聯與質量覈查過程不依賴特定業務知識,結合用戶知識圖譜構建的需求,能夠快速構建用戶領域知識圖譜。二、知識質量智能覈查:知識圖譜加工廠實現對多種知識錯誤與衝突的智能覈查與校驗,並對知識庫進行實時自動更新,保證知識圖譜準確性。三、人機結合的服務:知識圖譜加工場人機構成:90%機器+10%的人工,只須要提供語料,就能夠快速獲得對應的知識圖譜構建成果。分佈式