將來已來！阿里小蜜AI技術揭祕

時間 2019-12-10

原文原文鏈接

1.雙11的挑戰與服務模式的轉型

在全球人工智能領域不斷髮展的今天，包括Google、Facebook、Microsoft、Amazon、Apple等互聯公司相繼推出了本身的智能私人助理和機器人平臺，智能人機交互成爲各大公司在人工智能戰場上激烈競爭的入口級領域。智能人機交互經過擬人化的交互體驗逐步在智能客服、任務助理、智能家居、智能硬件、互動聊天等領域發揮巨大的做用和價值。

在2015年7月，咱們阿里也推出了本身的智能私人助理-阿里小蜜，一個圍繞着電子商務領域中的服務、導購以及任務助理爲核心的智能人機交互產品。經過電子商務領域與智能人機交互領域的結合，提高傳統電商領域的能效，帶來傳統服務行業模式的變化與體驗的提高。

1.1智能人機交互帶來服務行業模式的變化

傳統的服務行業是一我的力密集型的行業，就拿咱們阿里巴巴雙11狂歡節來講，不管是對於阿里直接對外的服務(消費者服務和商家服務)仍是淘寶商家的服務都面臨着當天服務量的巨大井噴，人力擴容成爲每一年阿里以及商家巨大的挑戰。傳統人力密集型服務模式(以自營客服、外包客服和雲客服爲主的服務模式)亟待被顛覆和改變，圍繞着以阿里小蜜產品爲核心，經過智能人機交互與人工服務相結合的模式纔是將來真正的服務模式。機器經過智能化技術處理掉絕大部分的簡單、重複等可識別處理的問題，對於解決不了的問題流向人工，讓人提供更有溫度也更加專業的服務。經過智能+人工相結合的模式探索，在今年的雙11期間，阿里小蜜總體智能服務量達到643萬，其中智能解決率達到95%，智能服務在整個服務量(總服務量=智能服務量+在線人工服務量+電話服務量)佔比也達到95%，成爲了雙11期間服務的絕對主力。

框架

1.2 智能人機交互帶來服務體驗的提高

在體驗維度，因爲機器的運算速度遠超於人，所以智能人機交互能夠帶來提高：智能交互相比人工能夠達到急速的秒級體驗，而人的服務一般須要必定時間的回覆等待。而且在互動領域，智能人機交互也帶來了一種新的模式和新的玩法，帶來更多價值。

dom

2. 阿里小蜜及阿里小蜜平臺介紹

阿里小蜜是電子商務領域的智能私人助理，基於阿里海量消費和商家數據，結合線上、線下的生活場景需求，以智能+人工的模式提供智能導購、服務、助理的擬人交互業務體驗。

1.在跨終端、多場景領域支持多輪交互、多模交互(文本、語音和圖像)和問題推薦預測；

2.支持多模型(文本模型、客戶模型、語音識別和圖像識別)識別客戶意圖；

3.支持多領域識別和路由分流；

阿里小蜜總體體系圖以下：

機器學習

經過1年多阿里小蜜在阿里業務體系內的不斷嘗試和摸索，今年在電子商務生態圈範圍內，在基於千牛的買賣家生態圈、基於釘釘的企業生態圈上，咱們將阿里小蜜進行平臺化開放，同時賦能給咱們商家和企業用戶。將來咱們指望經過不斷的領域數據和技術模型的積累，可以在阿里其餘生態圈(例如：阿里雲)逐步進行開放，賦能更多電子商務生態圈領域。

阿里小蜜平臺結構圖以下：

分佈式

阿里小蜜在各個領域系統示例截圖：

性能

3. 阿里小蜜技術實踐

3.1 智能人機交互系統

智能人機交互系統，俗稱：chatbot系統或者bot系統，咱們核心須要作的事情是理解人類的語言意思，進而給予合理的答案或者Action。

人機交互基本流程以下：

學習

其核心部分就是NLU(天然語言理解)，經過對話系統處理後最後經過天然語言生成的方式給出答案。一段語言如何理解對於計算機來講是很是有難度的，例如：「蘋果」這個詞就具有至少兩個含義，一個是水果屬性的「蘋果」，還有一個是知名互聯網公司屬性的「蘋果」。所以在阿里小蜜這樣在電子商務領域的場景中，咱們先採用分領域分層分場景的方式進行架構抽象，而後再根據不一樣的分層和分場景採用不一樣的機器學習方法進行技術設計。首先咱們將對話系統從分紅兩層：

1.意圖識別層：識別語言的真實意圖，將意圖進行分類並進行意圖屬性抽取。意圖決定了後續的領域識別流程，所以意圖層是一個結合上下文數據模型與領域數據模型不斷對意圖進行明確和推理的過程；

2.問答匹配層：對問題進行匹配識別及生成答案的過程。在阿里小蜜的對話體系中咱們按照業務場景進行了3種典型問題類型的劃分，而且依據3種類型會採用不一樣的匹配流程和方法：

1.問答型：例如「密碼忘記怎麼辦？」→ 採用基於知識圖譜構建+檢索模型匹配方式

2.任務型：例如「我想訂一張明天從杭州到北京的機票」→ 意圖決策+slots filling的匹配方式

3.語聊型：例如「我心情很差」→ 檢索模型與Deep Learning相結合的方式

3.2 阿里小蜜意圖識別的技術方案

一般在乎圖識別領域咱們將其抽象成爲機器學習中的分類問題來解決，在阿里小蜜的技術方案中除了傳統的文本特徵以外，考慮到自己在對話領域中存在語義意圖不完整的狀況，咱們也加入了用實時、離線用戶自己的行爲及用戶自己相關的特徵，經過深度學習方案構建模型，對用戶意圖進行預測。以下圖：

阿里雲

在基於深度學習的分類預測模型上，咱們有兩種具體的選型方案：一種是多分類模型，一種是二分類模型。多分類模型的優勢是性能快，可是對於須要擴展分類領域是整個模型須要從新訓練；而二分類模型的優勢就是擴展領域場景時原來的模型均可以複用，能夠平臺進行擴展，缺點也很明顯須要不斷的進行二分，總體的性能上不如多分類好，所以在具體的場景和數據量上能夠作不一樣的選型。總體的基本技術思路就是將行爲因子與文本特徵分別進行Embedding處理，經過向量疊加以後再進行多分類或者二分類處理。這裏的文本特徵維度能夠選擇經過傳統的bag of words的方法，也可以使用Deep Learning的方法進行向量化。具體以下圖：

人工智能

目前主流的智能匹配技術分爲以下4種方法：

1 基於模板匹配(Rule-Based)

2.基於檢索模型(Retrieval Model)

3.基於統計機器翻譯模型(SMT)

4.基於深度學習模型(Deep Learning)

在阿里小蜜的技術場景下，咱們採用了基於模板匹配，檢索模型以及深度學習模型爲基礎的方法原型來進行分場景(問答型、任務型、語聊型)的會話系統構建。

問答型：基於知識圖譜構建+檢索模型匹配方式特色：有領域知識的概念，且知識之間的關聯性高，而且對精準度要求比較高基於問答型場景的特色，咱們在技術選型上採用了知識圖譜構建+檢索模型相結合的方式來進行核心匹配模型的設計。

知識圖譜的構建咱們會從兩個角度來進行抽象，一個是實體維度的挖掘，一個是短句維度進行挖掘，經過在淘寶平臺上積累的大量屬於以及互聯網數據，經過主題模型的方式進行挖掘、標註與清洗，再經過預設定好的關係進行實體之間關係的定義最終造成知識圖譜。基本的挖掘框架流程以下：

spa

挖掘構建的知識圖譜示例以下：

基於知識圖譜的匹配模式具有如下幾個優勢：

1 在對話結構和流程的設計中支持實體間的上下文會話識別與推理

2.一般在通常型問答的準確率相對比較高(固然具有推理型場景的須要特殊的設計，會有些複雜)

一樣也有明顯的缺點：

1.模型構建初期可能會存在數據的鬆散和覆蓋率問題，致使匹配的覆蓋率缺失；

2.對於知識圖譜增量維護相比傳統的QA Pair對知識的維護上的成本會更大一些；

所以咱們在阿里小蜜的問答型設計中，仍是融入了傳統的基於檢索模型的對話匹配。

其在線基本流程分爲：

1.提問預處理：分詞、指代消解、糾錯等基本文本處理流程；

2.檢索召回：經過檢索的方式在候選數據中召回可能的匹配候選數據；

3.計算：經過Query結合上下文模型與候選數據進行計算，經過咱們採用文本之間的距離計算方式(餘弦類似度、編輯距離)以及分類模型相結合的方式進行計算；

4.最終根據返回的候選集打分閾值進行最終的產品流程設計。

離線流程分爲：

1.知識數據的索引化；

2.離線文本模型的構建：例如Term-Weight計算等。

檢索模型總體流程以下圖：

任務型：意圖決策+slots filling的匹配方式

特色：有領域知識的概念，每一個任務負責獨立的業務流程，任務之間相對互斥性強，精準度要求高。基於任務型的特色，在技術選型上，咱們採用了意圖決策+slot filling的方式進行會話匹配設計。首先按照任務領域進行本體知識的構建，例如機票的領域本體知識場景以下：

在問答匹配過程當中結合上下文模型和領域數據模型不斷在Query中進行slot屬性的提取，並循環進行本體意圖樹的不斷填充和修改，直到必選意圖樹填充完整後進行輸出。以下圖：

語聊型：檢索模型與Deep Learning相結合的方式

特色：非面向目標，語義意圖不明確，一般期待的是語義相關性和漸進性，對準確率要求相對較低。

面向open domain的聊天機器人目前不管在學術界仍是在工業界都是一大難題，一般在目前這個階段咱們有兩種方式來作對話設計：一種是學術界很是火爆的Deep Learning生成模型方式，經過Encoder-Decoder模型經過LSTM的方式進行Sequence to Sequence生成，以下圖：

一種是Generation Model(生成模型)：

1.優勢：經過深層語義方式進行答案生成，答案不受語料庫規模限制；

2.缺點：模型的可解釋性不強，且難以保證一致性和合理性回答。

另一種方式就是經過傳統的檢索模型的方式來構建語聊的問答匹配。

Retrieval Model(檢索模型)：

1.優勢：答案在預設的語料庫中，可控，匹配模型相對簡單，可解釋性強；

2.缺點：在必定程度上缺少一些語義性，且有固定語料庫的侷限性。

所以在阿里小蜜的聊天引擎中，咱們結合了二者各自的優點，將兩個模型進行了融合造成了阿里小蜜聊天引擎的核心。先經過傳統的檢索模型檢索出候選集數據，而後經過Seq2Seq Model對候選集進行Rerank，重排序後超過制定的閾值就進行輸出，不到閾值就經過Seq2Seq Model進行答案生成，總體流程以下圖：

4 智能交互將來的展望

目前的人工智能領域任然處在弱人工智能階段，特別是從感知到認知領域須要提高的空間還很是大。智能人機交互在面向目標的領域已經能夠與實際工業場景緊密結合併產生巨大價值，隨着人工智能技術的不斷髮展，將來智能人機交互領域的發展還將會有不斷的提高，對於將來技術的發展咱們值得期待和展望：

1.數據的不斷積累，以及領域知識圖譜的不斷完善與構建將不斷助推智能人機交互的不斷提高；

2.面向任務的垂直細分領域機器人的構建將是以後機器人不斷爆發的增加點，open domain的互動機器人在將來一段時間還須要不斷提高與摸索；

3.隨着分佈式計算能力的不斷提高，深度學習在席捲了圖像、語音等領域後，在NLP(天然語言處理)領域將會繼續發展，在對話、QA領域的學術研究將會持續活躍；

在將來隨着學術界和工業界的不斷結合與積累，期待人工智能電影中的場景早日實現，人人都能擁有本身的智能「小蜜」。

[ 此帖被琴瑟琵琶在2017-06-22 13:47從新編輯 ]

原文連接