天然語言處理(NLP)的通常處理流程!

1. 什麼是NLP

天然語言處理 (Natural Language Processing) 是人工智能(AI)的一個子領域。**天然語言處理是研究在人與人交互中以及在人與計算機交互中的語言問題的一門學科。**爲了建設和完善語言模型,天然語言處理創建計算框架,提出相應的方法來不斷的完善設計各類實用系統,並探討這些實用系統的評測方法。git

2. NLP主要研究方向

  1. 信息抽取:從給定文本中抽取重要的信息,好比時間、地點、人物、事件、緣由、結果、數字、日期、貨幣、專有名詞等等。通俗說來,就是要了解誰在何時、什麼緣由、對誰、作了什麼事、有什麼結果。
  2. 文本生成:機器像人同樣使用天然語言進行表達和寫做。依據輸入的不一樣,文本生成技術主要包括數據到文本生成和文本到文本生成。數據到文本生成是指將包含鍵值對的數據轉化爲天然語言文本;文本到文本生成對輸入文本進行轉化和處理從而產生新的文本。
  3. 問答系統:對一個天然語言表達的問題,由問答系統給出一個精準的答案。須要對天然語言查詢語句進行某種程度的語義分析,包括實體連接、關係識別,造成邏輯表達式,而後到知識庫中查找可能的候選答案並經過一個排序機制找出最佳的答案。
  4. 對話系統:系統經過一系列的對話,跟用戶進行聊天、回答、完成某一項任務。涉及到用戶意圖理解、通用聊天引擎、問答引擎、對話管理等技術。此外,爲了體現上下文相關,要具有多輪對話能力。
  5. 文本挖掘:包括文本聚類、分類、情感分析以及對挖掘的信息和知識的可視化、交互式的表達界面。目前主流的技術都是基於統計機器學習的。
  6. 語音識別和生成:語音識別是將輸入計算機的語音符號識別轉換成書面語表示。語音生成又稱文語轉換、語音合成,它是指將書面文本自動轉換成對應的語音表徵。
  7. 信息過濾:經過計算機系統自動識別和過濾符合特定條件的文檔信息。一般指網絡有害信息的自動識別和過濾,主要用於信息安全和防禦,網絡內容管理等。
  8. 輿情分析:是指收集和處理海量信息,自動化地對網絡輿情進行分析,以實現及時應對網絡輿情的目的。
  9. 信息檢索:對大規模的文檔進行索引。可簡單對文檔中的詞彙,賦之以不一樣的權重來創建索引,也可創建更加深層的索引。在查詢的時候,對輸入的查詢表達式好比一個檢索詞或者一個句子進行分析,而後在索引裏面查找匹配的候選文檔,再根據一個排序機制把候選文檔排序,最後輸出排序得分最高的文檔。
  10. 機器翻譯:把輸入的源語言文本經過自動翻譯得到另一種語言的文本。機器翻譯從最先的基於規則的方法到二十年前的基於統計的方法,再到今天的基於神經網絡(編碼-解碼)的方法,逐漸造成了一套比較嚴謹的方法體系。

3. NLP的發展

  1. 1950年前:圖靈測試 1950年前阿蘭·圖靈圖靈測試:人和機器進行交流,若是人沒法判斷本身交流的對象是人仍是機器,就說明這個機器具備智能。github

  2. 1950-1970:主流:基於規則形式語言理論面試

    喬姆斯基,根據數學中的公理化方法研究天然語言,採用代數和集合論把形式語言定義爲符號的序列。他試圖使用有限的規則描述無限的語言現象,發現人類廣泛的語言機制,創建所謂的廣泛語法。安全

  3. 1970-至今:主流:基於統計 谷歌、微軟、IBM,20世紀70年代,弗裏德里克·賈里尼克及其領導的IBM華生實驗室將語音識別率從70%提高到90%。 1988年,IBM的彼得·布朗提出了基於統計的機器翻譯方法。 2005年,Google機器翻譯戰勝基於規則的Sys Tran。網絡

  4. 2010年之後:逆襲:機器學習框架

    AlphaGo前後打敗李世石、柯潔等,掀起人工智能熱潮。深度學習、人工神經網絡成爲熱詞。領域:語音識別、圖像識別、機器翻譯、自動駕駛、智能家居。機器學習

4. NLP任務的通常步驟

下面圖片看不清楚的,能夠百度腦圖查看,點擊連接學習

5. 個人NLP啓蒙讀本

《數學之美》--吳軍測試

6. NLP、CV,選哪一個?

NLP:天然語言處理,數據是文本。編碼

CV:計算機視覺,數據是圖像。

二者屬於不一樣的領域,在遇到這個問題的時候,我也是猶豫了好久,想了不少,因而乎得出一個結論:都是利用深度學習去解決現實世界存在的問題,離開了CV,NLP存活不了;離開了NLP,CV存活不了。二者就像兄弟姐妹同樣,整個「家庭」不能分割但個體又存在差別!

NLP/CV屬於兩個不一樣的研究領域,都是很好的領域,能夠根據本身的愛好做出適合本身的選擇,人工智能是一個多學科交叉的領域,須要的不只僅是單方面的能力,而是多方面的能力。對於每一個人來講都有本身的側重點,畢竟人的精力是有限的。只要在本身擅長的領域裏持續深耕,我相信都會有所成就!

這裏提供一些參考資料給你們閱讀閱讀,作出適合本身的選擇:

機器學習通俗易懂系列文章

3.png


做者:@mantchs

GitHub:github.com/NLP-LOVE/ML…

歡迎你們加入討論!共同完善此項目!羣號:【541954936】NLP面試學習羣

相關文章
相關標籤/搜索