人機對話系統與天然語言處理

時間 2019-11-05

標籤對話系統天然語言處理简体版

原文原文鏈接

前言

一兩年前因爲工做須要重點研究過天然語言處理與人機對話系統，本文將會列出的它們的知識點以及本身的思考。正則表達式

nlp與人機對話

對於普通企業，人機對話目前主要的應用是任務型人機對話系統。無論是nlp亦或是chatbot，學術上和工程上都有不一樣的實現手段。學術界上人機對話系統的研究成果以及最新的研究趨勢在工程上應用的較少，而工程上又有本身的方式來實現人機對話。人機對話在實現過程當中會使用不少nlp技術，因此能夠說nlp是chatbot的基礎。算法

涉及nlp

詞：語法、語義、語用。bash

短語（句子）：語法、語義、語用。網絡

篇章：語法、語義、語用。數據結構

詞和短語的研究已經比較成熟了，主要的研究集中在2000年後。篇章的研究不成熟，主要研究是在2010年之後。框架

語法樹：機器學習

DG分佈式

CFG學習

PCFG測試

LPCFG

經常使用算法：

搜索S

動態規劃D

分類算法C

序列標註S

優化算法O

人機對話主流框架

NLU：理解用戶輸入，將天然語言轉換成結構化表示。

DM：系統決策。

NLG：天然語言生成，將結構化表示轉換成天然語言。

因此根據主流框架分紅了三個主要模塊，分別爲NLU、DM和NLG。

天然語言理解

天然語言理解包括三塊：

領域識別，主要就是判斷任務種類，好比會議室預約、火車票購買、訂餐等等類別。

意圖識別，識別用於意圖，好比用戶肯定、拒絕。

槽填充，抽取任務相關的重要信息，好比會議預約，槽就能夠定義爲開會地點、開會時間。

用戶輸入「我明天在公司開會」，通過天然語言理解處理（句子分類、序列標註）後結果爲，

Domain:會議室預約Intent:提供信息Slots:{Time:明天;Location:公司}複製代碼

天然語言理解研究現狀：

基於規則的方法，正則表達，比較耗人力、靈活性差、可移植性差。

基於統計的方法，單獨建模和聯合建模。單獨建模將領域識別、意圖識別、槽填充分開研究，分別使用支持向量機、卷積神經網絡、決策樹、條件隨機場、循環神經網絡實現，存在偏差累積。

研發步驟：

根據任務需求定義標籤。

準備數據，若是用基於規則的方法則要觀察數據規律，提取模板。若是使用基於統計方法則要標註數據，分爲訓練集、驗證集、測試集。通常數據量要幾十萬。

寫正則表達式或創建模型訓練模型。

完成NLU研發。

迭代優化。

對話管理

對話管理模塊主要框架以下圖，

用戶輸入「五道口附近餐館」，通過 NLU 處理後獲得intent = ask,slots={位置:五道口}。

對話狀態跟蹤模塊輸出 slots={位置:五道口}。

Action候選爲餐館檢索和需求澄清。

Policy將候選Action排序。

Action執行根據Action排序執行action更新交互狀態

由NLG生產回覆，「還有其餘需求嗎？」

用戶繼續輸入。