Facebook 開源天然語言處理模型,可檢索文檔回答問題

Facebook 開源天然語言處理模型,可檢索文檔回答問題

Facebook 和 AI 初創公司 Hugging Face 今天開源了一種 AI 模型檢索加強生成(RAG),這是一種天然語言處理模型,能夠查找和解釋上下文信息來完成一系列任務。數據庫

RAG 能夠經過經過動態地改變或補充其內部知識,使研究人員可以控制模型掌握的內容,研究人員沒必要對其計算能力進行再培訓就能夠得到最早進的結果。segmentfault

從今天開始,RAG 能夠做爲 Hugging Face 轉換器庫的組件提供,與新的數據庫集成,提供 RAG 所依賴的索引知識源。安全

RAG 整合知識的「後期融合」方式

天然語言理解領域的前沿工做已經產生了通用模型,這些模型雖然經常存在缺陷,可是是能夠推廣的。到目前爲止,大多數模型已經應用於無需知識背景就能夠生成解決方案的任務中,好比情緒分析這類任務。網絡

相比之下 RAG 使用輸入數據從像 Wikipedia 這樣的數據庫中檢索相關的文檔。例如,給出一個「地球上第一個哺乳動物是何時出現的?」的問題,RAG 可能會提供「哺乳動物」、「地球歷史」、「哺乳動物進化」等文獻做爲上下文與輸入鏈接,而後輸入模型以生成輸出文本。性能

根據 Facebook 的說法,RAG 利用了一種「後期融合」的形式來整合檢索到的文檔中的知識,這意味着它在聚合最終的預測分數以前對文檔問題對進行答案預測。當它能夠訪問包含答案線索的文檔時,若是答案不是逐字陳述的,RAG 的性能會進一步提升。在某些狀況下,RAG 甚至會生成答案,而這些答案並不包含在檢索到的任何文檔中。測試

RAG 擅長知識密集型天然語言問題

Facebook 稱,當對諸如包含來自 Google 搜索用戶的問題的 NaturalQuestions 之類的開放域數據集進行基準測試時,RAG 顯示了在找不到答案的狀況下生成正確答案的訣竅。spa

RAG 還擅長於知識密集型的天然語言問題,Facebook 經過建立受 Jeopardy 啓發的問題進行了探索。與其餘同類模型相比,RAG 產生的問題更加具體、多樣且更加真實。這也許是由於 RAG 可以利用從多個來源得到的不一樣信息綜合出不一樣的答案的能力。blog

RAG 的研究經理 Sebastian Riedel 表示,雖然 RAG 在 Facebook 的生產中沒有使用,但其背後的團隊正在積極迭代以減小潛在的偏見。他們將培訓數據集中的文檔限制在 Wikipedia 上,他們認爲 Wikipedia 比當今許多語言模型的網絡爬蟲更安全。索引

RAG 的最大優點:靈活性

研究人員正在探索 RAG 的一個版本,這個版本能夠最大程度地下降剩餘風險,以便達到一向的輸出安全的程度。他們正在研究如何擴展 RAG,使其多通道化,並使其同時使用多個知識源進行操做。ip

Sebastian Riedel 說:「RAG 的真正優點在於它的靈活性,要改變一個預先訓練過的語言模型所知道的東西,須要用新的文檔對整個模型進行再訓練。經過 RAG,咱們能夠經過交換用於知識檢索的文檔來控制它所知道的內容。咱們在帶有 RAG 的 NaturalQuestions,CuratedTrec 和 WebQuestions 上得到了很是出色的結果,代表能夠用生成的而不是提取的讀取器來實現最新的機器讀取性能。」

Facebook 認爲 RAG 具備廣闊的潛力,它斷言這將使研究人員可以僅用幾行代碼就能夠爲知識密集型任務部署解決方案。

Facebook 方面稱,「RAG 容許 NLP 模型繞過再培訓步驟,訪問和提取最新的信息,而後使用生成器輸出結果。咱們預見將來對知識密集型任務的研究潛力,這些任務就像今天的情緒分析這樣的輕量級知識任務同樣簡單易懂。」

segmentfault 公衆號

相關文章
相關標籤/搜索