百度大腦UNIT3.0智能對話技術全面解析

智能客服、智能家居、智能助手、智能車機、智能政務……賦予產品智能對話能力是提高產品智能化體驗、高效服務的重要手段,已經開始被愈來愈多的企業關注並佈局。然而,智能對話系統搭建涉及NLP、知識圖譜、語音等一系列技術以及業務知識數據,具備較高的門檻。html

百度與IDC聯合調研報告顯示,「企業知識庫累積不夠」「項目投入成本太高」」專業人才缺乏」等,位列企業在推動對話系統中的首要障礙。百度大腦智能對話系統定製平臺UNIT3.0,發佈從搭建技能、構建知識、整合語音與知識的全鏈路對話系統搭建技術能力,大幅下降了對話系統的定製成本。算法

對話式文檔問答,上傳文檔一鍵獲取對話能力數據庫

針對處理常見業務問題諮詢的問答技能,UNIT3.0推出了文檔問答能力,開發者無需梳理意圖、詞槽,無需進行問題和答案的整理,只需準備文本格式的業務文檔,經過平臺上傳,便可一鍵獲取基於文檔的對話技能。編程

【對話式文檔問答技術】網絡

對話式文檔問答技能,能夠對傳統須要人工抽取FAQ或意圖的業務文檔進行自動學習,經過搜索與語義理解技術,構建了用戶輸入的問題與業務文檔之間的橋樑,使得用戶的問題能夠由技能自動找到文檔中的對應答案片斷,使用端到端的多文檔閱讀理解模型V-NET和天然語言生成技術,技能得以返回更爲精準的答案。整個問答技能的構建對開發者來講沒有任何技術門檻,且對話式文檔問答技能具備自主學習能力,可持續優化,大大提升問答系統的開發人效。架構

 

image.png

 

 

【如何體驗對話式文檔問答】框架

開發者登陸UNIT平臺,進入「創新技術」區,點擊「對話式文檔問答「便可申請體驗。工具

 

image.png

 

 

語音語義一體化方案,更強理解與容錯、低集成成本、短響應時延佈局

在電話客服場景裏,時常會出現用戶沉默、打斷和噪聲混入等狀況,機器人在應對這些異常狀況的時候,須要語音和語義理解技術進行處理,才能實現用戶和機器人的流暢交談。爲此,UNIT帶來了全新的語音語義一體化解決方案,幫助企業解決語音交互過程當中的難題。整個方案包含如下內容:post

(1)下降集成開發成本

提供語音識別、語義理解、對話流程控制、知識庫、語音合成的打通方案,全雙工對話能力,一體化的部署方案,省去開發者對各環節自行調用、拼裝的學習成本以及二次開發成本。

(2)標準協議快速接入

提供基於unimrcp框架開發的mrcpserver服務接入包,經過標準協議適配不一樣呼叫中心設備(主流的freeswitch、avaya、及基於mrcp標準協議自主研發的呼叫中心設備)。

(3)場景定製服務提高效果

方案中自帶基於百度大腦呼叫中心下的通用ASR、語義糾錯,打斷策略,TTS模型,也能夠基於開發者的業務場景,提供模型定製訓練服務,定向提高業務準確率。

(4)極少許開發,輕鬆實現對話流程

提供Taskflow配置管理能力,開發者可在梳理業務流程後,經過少許代碼快速配置對應的對話流程,後續可直接零代碼在UNIT平臺上進行拖拽式配置。

 

image.png

 

 

【如何獲取語音語義一體化能力】

開發者能夠進入UNIT官網——解決方案——語音語義一體化方案頁面,瞭解技術詳情並體驗真實對話樣例。https://ai.baidu.com/unit/v2/static/voice

 

image.png

 

 

體驗真實對話樣例

 

image.png

 

 

數據生產工具DataKit,大幅提高樣本生產和標註效率

在智能對話項目搭建的過程當中,高效篩選、處理對話日誌並將其轉化爲新的訓練數據,是對話系統效果持續提高的重要環節,也是當前開發者面臨的難題之一。爲此UNIT推出學習反饋閉環機制,提供數據獲取、輔助標註工具DataKit,幫助企業提高數據處理效率。

DataKit是面向開發者提供的數據生產工具集,利用交互式學習、規則樣本生成和多模型一致性檢驗等技術方法自動獲取大量數據,並從中篩選出帶標註、半標註和無標註3類樣本,這些樣本通過高效的預處理後造成新的訓練數據,可進一步提高語義解析效果,有效提高對話系統的優化人效。

DataKit背後的技術】

1. 交互式學習技術

交互學習是以用戶交互行爲數據爲基礎,積累交互樣本,解決系統效果瓶頸的迭代優化輔助方案。交互學習主要包含話術干預技術和異常樣本發現技術。

2. 規則樣本生成技術

在UNIT平臺上開發者能夠方便地配置模板獲得語義解析結果,實現語義解析的快速冷啓動。在模板配置達到比較好的語義解析效果時,利用規則樣本生成技術,產生帶標註的樣本集合進行深度訓練,更進一步提高語義解析效果,有效下降人力投入。

3. 多模型一致性檢驗技術

多模型一致性檢驗是日誌挖掘的一種有效方法,檢驗UNIT上多個解析模型的結果,假設多個模型的解析結果越一致,其解析正確率越高。其中,具備高正確率的樣本能夠直接做爲訓練正例,解析爲負例的樣本能夠直接做爲負例,當前沒有解析結果的樣本能夠進一步進行人工校驗,不斷優化解析效果。

【如何使用DataKit】

週期性的在UNIT平臺下載生產環境的日誌,利用Python腳本挖掘日誌,對挖掘出來對話樣本文件進行處理。對於正例樣本,能夠直接導入對話技能的樣本集裏做爲訓練數據;負例樣本,可簡單審閱後在對話技能的訓練數據中建立一個單獨的負例樣本集,導入該文件,做爲負例訓練數據,在下次訓練時選擇使用;而對於無結果樣本,應該識別卻沒有識別的,篩選出來導入樣本集進行人工標註。那些不該該識別的樣本,則導入負例樣本集。

知識圖譜與對話,助力梳理複雜圖譜知識

愈來愈多的企業想要在電商客服、法律顧問等領域作一套包含行業知識的智能對話系統,而行業或領域知識的積累、構建、抽取等工做對於企業來講是個不小的難題,百度大腦UNIT3.0推出「個人知識」版塊專門爲開發者提供知識建設幫助。在行業智能化的實現進程中,經過知識圖譜對數據進行提煉、萃取、關聯、整合,造成行業知識或領域知識,讓機器造成對於行業工做的認知能力,並把這些認知能力與技能理解模型進行整合,從而實現這個行業的知識型對話系統。

人機對話流程中涉及的語言理解、對話決策、信息查詢、語言組織等重要環節,都須要語言知識、世界知識以及必要的領域知識的指導。其中,知識圖譜(Knowledge Graph,KG)是應用最爲普遍的知識表示形式之一。知識圖譜以圖譜的形式描述真實世界的實體及其內在關係,用模式定義可能的類和實體關係,容許任意實體彼此潛在相互關聯,並涵蓋各類主題領域。

在UNIT平臺中,知識圖譜的具體應用可劃分爲三種模式:

1) 第一種模式對應問答型對話系統,該類對話系統將知識圖譜視爲答案信息來源,經過對話理解將用戶問題轉化爲對知識圖譜的查詢,直接獲得用戶問題的答案。

2) 第二種模式將知識圖譜視爲用於對話理解的知識源,藉助知識圖譜中元素的屬性及關係,爲用戶話語和對話上下文的語義理解提供輔助。

3) 第三種模式對應主動對話場景,藉助知識圖譜中概念、屬性 和關係之間的關聯,經過話題推薦等策略實現對話過程的主動引導。

【知識圖譜技術】

UNIT-個人知識總體組成以下:

平臺:UNIT爲託管知識圖譜提供了的整套平臺化支持。

算法:提供了圖譜生產和應用環節的一套豐富的高質量算法。

架構:包含圖譜生產架構,圖譜存儲架構,圖譜算法架構,圖譜應用架構。

 

image.png

 

 

知識圖譜的核心技術包括知識表示、知識抽取、知識消岐與融合、知識存儲。UNIT平臺上「個人知識-圖譜/問答知識庫」部分爲開發者提供了知識挖掘與管理工具。這些積累的知識可用於提升模型理解能力、完善對話管理能力、實現對話系統的知識建設閉環。

 

image.png

 

 

對話流管理工具Taskflow,靈活定製複雜任務的對話流程

Taskflow是UNIT推出的新一代對話管理技術,開發者可經過簡潔直觀的圖形化配置(後續版本升級提供,目前是經過配置文件完成配置),高效定製屬於本身的對話管理能力。開發者可使用Taskflow實現一個對話場景下複雜的流程性對話的任務設計,好比咖啡店的訂咖啡、航空公司的訂票退票、保險公司的車險報案等,在這些對話流程中能夠實現不一樣對話意圖中關鍵信息的靈活收集,也能夠實現多個意圖之間的跳轉,以及對話過程當中一個意圖被打斷後的對話恢復等。

Taskflow技術】

在Taskflow中,UNIT提供執行條件判斷、對話狀態跟蹤、應答動做及話術生成等一系列基礎能力單元,開發者只需根據自身需求進行靈活組裝,便可實現對話管理能力。對於複雜對話邏輯需求也能夠藉助Taskflow的雲端編程能力在較低成本下實現。同時Taskflow中還提供資源調用能力,一鍵接入領域資源,讓對話鏈路更加完整。UNIT平臺當前開放配置接口,開發者直接使用流程圖來描述對話邏輯,並將流程圖配置輸入Taskflow執行,大大提升對話邏輯的實現效率。

 

image.png

 

嵌入式對話理解技術,提供定製化離在線融合框架

在AIoT領域中,大多場景都要求終端具有本地自主決斷及響應能力,每一個設備端都須要具有不依賴雲端的獨立計算能力,完成智能對話的本地解析,實現端計算,讓設備不管在什麼網絡環境下都可以響應用戶對話。針對這種場景的痛點,UNIT 3.0推出嵌入式對話理解技術,結合語音的本地識別能力,能夠實現本地化不聯網的語義識別,再結合雲端的AI,讓本地和雲端有效配合,以知足用戶隨時隨地的對話需求。

在線服務具有更好的對話理解與知足,離線能力保證設備在各類環境下的核心智能交互穩定性;UNIT3.0提供了離在線融合的對話理解框架,開發者能夠根據自身的業務狀況,靈活選擇離線與在線能力。

 

image.png

 

 

除此以外,UNIT3.0也從技能管理、對話管理、知識接入三個緯度進一步升級了技能與知識管理能力,幫助開發者整合對話、問答技能,接入知識,經過單一接口一站式知足複雜的對話系統研發。技能管理實現多技能順序可調,並共享全局記憶;對話管理方面具備在線與離線可編程對話管理框架,可適應多樣化的業務場景;知識接入方面具有圖譜知識庫、關係數據庫,基於HTTP服務知識信息的全面支持接入。

百度大腦智能對話引擎一直致力於爲企業和我的開發者提供專業、靈活、低成本的對話定製能力,打造能力最全、規模最大的對話系統定製平臺,與用戶的累計交互次數超過1380億次。將來,百度也將持續發力智能對話,擁抱開放,讓開發者平等、便捷地獲取更低成本、更好效果的智能對話技術。

相關文章閱讀:

百度大腦UNIT3.0解讀之對話式文檔問答——上傳文檔獲取對話能力

百度大腦UNIT3.0詳解之語音語義一體化方案

百度大腦UNIT3.0詳解之數據生產工具DataKit

百度大腦UNIT3.0詳解之知識圖譜與對話

百度大腦UNIT3.0詳解之嵌入式對話理解技術

相關文章
相關標籤/搜索