天然語言處理(簡稱NLP),是研究計算機處理人類語言的一門技術,包括:網絡
1.句法語義分析:對於給定的句子,進行分詞、詞性標記、命名實體識別和連接、句法分析、語義角色識別和多義詞消歧。機器學習
2.信息抽取:從給定文本中抽取重要的信息,好比,時間、地點、人物、事件、緣由、結果、數字、日期、貨幣、專有名詞等等。通俗說來,就是要了解誰在何時、什麼緣由、對誰、作了什麼事、有什麼結果。涉及到實體識別、時間抽取、因果關係抽取等關鍵技術。學習
3.文本挖掘(或者文本數據挖掘):包括文本聚類、分類、信息抽取、摘要、情感分析以及對挖掘的信息和知識的可視化、交互式的表達界面。目前主流的技術都是基於統計機器學習的。編碼
4.機器翻譯:把輸入的源語言文本經過自動翻譯得到另一種語言的文本。根據輸入媒介不一樣,能夠細分爲文本翻譯、語音翻譯、手語翻譯、圖形翻譯等。機器翻譯從最先的基於規則的方法到二十年前的基於統計的方法,再到今天的基於神經網絡(編碼-解碼)的方法,逐漸造成了一套比較嚴謹的方法體系。翻譯
5.信息檢索:對大規模的文檔進行索引。可簡單對文檔中的詞彙,賦之以不一樣的權重來創建索引,也可利用1,2,3的技術來創建更加深層的索引。在查詢的時候,對輸入的查詢表達式好比一個檢索詞或者一個句子進行分析,而後在索引裏面查找匹配的候選文檔,再根據一個排序機制把候選文檔排序,最後輸出排序得分最高的文檔。排序
6.問答系統: 對一個天然語言表達的問題,由問答系統給出一個精準的答案。須要對天然語言查詢語句進行某種程度的語義分析,包括實體連接、關係識別,造成邏輯表達式,而後到知識庫中查找可能的候選答案並經過一個排序機制找出最佳的答案。索引
7.對話系統:系統經過一系列的對話,跟用戶進行聊天、回答、完成某一項任務。涉及到用戶意圖理解、通用聊天引擎、問答引擎、對話管理等技術。此外,爲了體現上下文相關,要具有多輪對話能力。同時,爲了體現個性化,要開發用戶畫像以及基於用戶畫像的個性化回覆。事件