引言
不管是蘋果公司iPhone上火熱的應用Siri,仍是去年2月在美國電視競答節目Jeopardy中戰勝人類冠軍的Watson,都與「自動問答」直接相關。什麼是自動問答,自動問答產品能帶來什麼好處,百度有什麼樣的自動問答產品,本文將用通俗的語言爲您一一道來。html
圖 1 Siri(左)和Watson(右)web
自動問答是天然語言處理領域的一個重要方向,旨在讓用戶直接用天然語言提問並得到答案。例如,用戶詢問「百度大廈在哪兒?」,問答系統回答「北京市海淀區上地十街10號」。app
從用戶的角度看,自動問答是一種簡單且簡潔的信息獲取方法。用戶直接用天然語言與問答系統交互,而無需考慮使用什麼樣的關鍵詞組合表示本身的意圖,因此簡單;問答系統直接返回問題的答案,用戶無需從冗長的相關文檔中本身尋找答案內容,因此簡潔。框架
傳統的自動問答技術
傳統的自動問答系統包括三個主要部分:問題分析、信息檢索和答案抽取。結構關係以下:iphone
圖 2 傳統的自動問答系統的組成部分ide
問題分析的目的是分析問題的語義類型,肯定用戶提問的意圖,即用戶是詢問時間、地點仍是詢問實體、實體屬性或者其餘,並提取問題中的關鍵詞。例如,用戶詢問「劉德華的生日」,通過問題分析後,肯定用戶是詢問人物的某個屬性,並提取該問題的兩個關鍵詞「劉德華」和「生日」。另外,由於文檔中的潛在答案與問題的關鍵詞不必定徹底一致,想找「西紅柿炒雞蛋」,文本中只出現「番茄炒雞蛋」,爲了得到更高的召回率,還須要對關鍵詞進行擴展。學習
信息檢索是根據問題分析獲得的關鍵詞及其擴展形式從在線或者離線的文檔庫中檢索相關文檔。例如,將問題的關鍵詞提交在線的搜索引擎,獲取返回結果中排序最前的若干相關文檔。搜索引擎
答案抽取是從檢索獲得的相關文檔中抽取答案。根據問題類型的不一樣,答案形式也不盡相同,多是一個詞語、一個句子,也多是一個段落或者更長的文本串。以抽取句子做爲答案爲例,按照必定的策略(如計算問句與候選答案的類似度)計算句子的權重,根據權重大小對句子進行排序獲得候選答案列表,並根據問題類型或者其餘選取策略篩選得到最終答案。htm
百度的自動問答產品
百度的自動問答產品由百度天然語言處理部、知識搜索部等部門的工程師聯合開發。目前系統已應用於百度知道。用戶在檢索框輸入問題後點擊下方的「我要提問」,就獲得自動問答的結果啦。排序
圖 3 百度自動問答產品入口
且看自動問答系統如何回答「姚明的身高是多少」和「水煮牛肉的作法」,回答靠譜吧?
圖 4 自動問答系統的回答實例
圖 5 自動問答系統的回答實例
百度自動問答的組成部分
百度的自動問答系統是如何答出上面的問題呢?下面就看一下從用戶輸入問題,到自動問答給出答案,這中間都發生了什麼。
百度的自動問答系統包括問題分析、答案抽取這兩個主要模塊。用戶的問題依次通過這兩個模塊的處理。俗話說,巧婦難爲無無米之炊,這兩個模塊不是自動問答系統的所有,背後還有一個巨大的知識庫做爲支撐,能夠更準確更迅速的獲取答案。技術框架以下:
圖 6百度自動問答系統的組成部分
問題分析模塊對用戶的提問進行分析,肯定問題的語義類型,預測答案的類型,例如答案是回答人物、時間、地點或者仍是回答人物的年齡、商品的價格等;判斷用戶的提問是否爲肯定性問題,對於有明確具體答案的肯定性問題,分析問題的結構並直接定位用戶的所求。
答案抽取模塊從知識庫中檢索問題的答案並返回給用戶。對於肯定性問題,根據問題的要點直接檢索Ontology並返回答案;對於非肯定性問題或者未找到答案的肯定性問題,經過檢索優質問答資源獲取答案,即計算用戶的提問與優質問答資源中的問題的類似度,獲取相同問題或同義問題,直接返回知足提問的答案。
能夠看出,影響自動問答的準確率主要有兩個方面,一是知識庫的容量是否足夠大,存儲的資源是否準確可靠;二是非肯定性問題或者未找到答案的肯定性問題,檢索結果是否與原問題一致。
經過多重策略能夠保證知識庫資源的準確。首先,選擇可靠的知識站點和其餘web站點進行知識挖掘;第二,利用冗餘信息對挖掘獲得的資源進行驗證;第三,利用多種策略對挖掘結果進行過濾。另外,按期和不按期地對知識庫的內容進行更新,增長新的資源並濾除其中雜質。正所謂,「問渠那得清如許,爲有源頭活水來」。
保證檢索結果與用戶的提問相一致依賴於一個祕密武器,「語義類似度計算」,這裏再也不贅述,有興趣的且聽下回分解。
百度自動問答的特色
與傳統的自動問答技術相比,百度的自動問答系統具備以下特色:
1) 快速響應
由於百度自動問答系統有巨大的知識庫做爲支持,對於知足條件的問題能夠直接從知識庫中獲取答案,節省了信息檢索和答案抽取的時間。
2) 較高準確率
傳統的自動問答從文檔庫中動態抽取答案,準確率方面難以知足用戶需求。百度自動問答系統的知識庫的內容通過多重驗證而且持續更新,所以自動問答的結果可以準確地回答用戶的提問,提升了用戶的體驗。
3) 開放的回答領域
依賴於知識庫中開放領域的問答資源,百度的自動問答系統能夠回答的問題領域也是開放的,面向用戶的各類需求。能夠是學習型的「三個火字念什麼」,也能夠是生活型的「宮爆雞丁的作法」,甚至能夠是無聊型的「講個笑話吧」。
4) 質量不斷提高
知識庫中的資源的數量在持續增長,質量也在不斷提高。知識庫的更新方式包括按期手動添加資源以及實時自動挖掘資源,用更合適的問答資源替換現有的部分。所以,問答的準確率和召回率會逐步遞增。
結語
自動問答做爲一種快速方便地獲取信息的技術,在信息爆炸的今天,將會發揮愈來愈大的做用,爲人們提供更多的便捷。有什麼想知道的,「百度自動問答」一下吧。
by Zou Hongjian, Hu Dawei, Fang Gaolin