開放領域的聊天機器人

本文由 【FMI飛馬網】原創,原文連接:開放領域的聊天機器人php

鑑於人工智能如今火的一塌糊塗,飛馬網邀請了北京大學博士陳晨,在線爲你們研究關於「開放領域的聊天機器人」。網絡

1.png

陳晨框架

陳晨,博士,北京大學助理研究員。曾參與Google、百度、騰訊等互聯網公司研發項目並負責落地實踐,主要研究領域爲天然語言處理、機器學習、深度學習,已發表多篇論文。 機器學習

聊天機器人的發展學習

一開始,陳老師就爲咱們先介紹了聊天機器人的發展歷程。源於圖靈在1950年發表的文章,文章提出了圖靈測試,是指將測試者與被測試者分分開,測試者經過一些裝置對被測試者進行提問,若是最後有30%的測試者沒法分辨出對面的人仍是機器,那麼這臺機器就能夠經過測試,能夠被認爲具備人類智能。其中30%是圖靈對2000年的機器思考能力的預測,但到目前爲止,許多技術仍是落後的。同時,也有人認爲圖靈測試是人工智能的終極目標。測試

2.png

近年來,隨着深度學習技術的發展,圍繞着聊天機器人的商業應用也是層出不窮,好比蘋果的Siri、微軟的Cnrtana和小冰、Google Now、百度的度祕、亞馬遜的藍牙音箱等,不論是大企業仍是小公司,都將聊天機器人當作是下一代人機交互的服務渠道。搜索引擎

陳老師表示,聊天機器人不僅僅是提供了一種服務渠道,它還改變了服務自己,可以經過歷史數據訓練語言模型來取代人的做用。總得來講,聊天機器人技術是對信息的組織和處理能力在搜索引擎的基礎上又往前邁了一大步。編碼

對聊天機器人的系統進行總結能夠看出他們的系統框架中分爲語音識別和文字識別兩大模塊。人工智能

3.png

語音識別負責接收用戶的語音輸入,而後將語音轉換成文字形式,交給天然語言理解模塊。天然語言理解模塊在理解了用戶輸入的語義以後,將計算出來的語義表達式輸入到對話管理模塊中。對話管理模塊負責協調各個模塊的調用和維護,並選擇合適是回覆方式,而後交給自認語言生成模塊進行處理。天然語言生成模塊生成回覆的文本,並將語音輸出給語音合成模塊,最後將語音輸出給用戶。翻譯

陳老師爲咱們總結出了聊天機器人的發展有三代:

基於規則→基於檢索→基於生成模型

聊天機器人的分類

其中聊天機器人的分類也是多種的:

按領域分類

從話題層面進行區分,在開放領域下,用戶能夠和機器人聊任何話題,在專業領域下,只能聊機器人設定的主題。

按場景分類

俺場景分爲多輪對話和單輪對話。多輪對話是用戶帶着特定目的而來,但願獲得知足特定限制條件的信息或服務。而單輪對話當前大量研究都是面向短對話的,如微軟的小冰。

按技術路線分類

能夠分爲檢索式對話聊天系統、生成式對話聊天系統、檢索和生成相結合的方法。

檢索式對話聊天系統:在已有的對話語料庫中經過排序學習和匹配技術找到適合當前輸入的最佳回覆。

生成式對話聊天系統:經過一種相似機器翻譯中經常使用的編碼—解碼的過程去逐字逐句地生成一個回覆。

按形式分類

能夠分爲主動和被動。主動的對話,在人機對話的時候,機器人能引入新內容以打破對話僵滯的狀態。被動的對話,通常認爲,人類應該主導人機對話,因此傳統方法中,機器人是被動的,只需迴應就夠了。

循環神經網絡典型技術原理

在傳統的神經網絡模型中,從輸入層到輸出層,層與層之間的節點是互相鏈接的,對於序列數來講,先後句子並不是是獨立的,但傳統神經模型是沒法處理他們之間的關係的。而在循環神經網絡模型是有記憶並將記憶內容輸出,而他們之間節點也是有鏈接的。

可是RNN模型雖然有記憶功能,可是記憶很是短,不能學到長期的依賴關係。這種RNN叫作長短時記憶網絡,在實踐中記憶很好,相比基本的RNN模型,它能夠學習長期的依賴信息,緩解梯度消失的問題。

生成式對話經典模型

開放領域聊天機器人的評價指標

評價指標:人工平均

BLEU(機器翻譯)

ROUGE(機器翻譯)

METEOR(文本摘要)

Perplexity(語言模型的評價指標)

在演講最後,陳老師用一句話結束了本次演講:

目前聊天機器人可以像人同樣對話依然有很長的路要走......

最後,在回答在線網友們的問題時,陳老師告訴咱們,要想了解關於人工智能方面的知識,能夠到開源社區,學習一些深度學習框架,好比用深度學習框架tensorflow一步步實現下。

分享一些關於人工智能的乾貨:小白| Python+Matlab+機器學習+深度神經網絡+理論+實踐+視頻+課件+源碼,附下載!

相關文章
相關標籤/搜索