CS224n學習筆記1——深度天然語言處理

1、什麼是天然語言處理呢?python

天然語言處理是計算機科學家提出的名字,本質上與計算機語言學是同義的,它跨越了計算機學、語言學以及人工智能學科。算法

天然語言處理是人工智能的一個分支,在計算機研究領域中,也有其餘的分支,例如計算機視覺、機器人技術、知識表達和推理等。編程

 

目標:讓計算機可以理解人類語言來完成有意義的任務,例買東西或者是更高級的目標等。機器學習

 

下圖是人對語言層次的傳統描述:工具

從輸入開始,而輸入部分一般是語音輸入,接着大腦就會進行語音和音義分析。也有部分是文字輸入,而文字輸入基本上和語言學沒多大關係,OCR對文本進行文字識別操做。學習

 

天然語言處理應用的領域:優化

1.拼寫檢查或者是手機上的自動填寫功能屬於初級的語義理解任務人工智能

2.在線搜索時,聯想到的同義詞,例如搜索某家公司名字就會出現一大堆的推薦,也是屬於語言處理方面。翻譯

3.讓計算機可以閱讀文字,提取信息,從而充分理解文本,或者也能夠處理更高難度的任務,例如斷定文檔的閱讀難度或者是目標受衆羣體等。blog

4.機器翻譯

5.構建口語對話系統

 

2、什麼是深度學習?

深度學習是機器學習的一個分支,總的來講,就是讓計算機自動學習,而不是人工教授,手工代碼告訴它想要作什麼,相似於傳統的編程。

深度學習不一樣於以往年代的機器學習,例如80年代、90年代或者是00年代的機器學習。

核心區別:對於大多數的機器學習而言,都是圍繞着決策樹、邏輯迴歸、樸素貝葉斯、支持向量機等概念。

本質區別:由人類來審視一個特定的問題,找出解決該類問題的關鍵要素,而後涉及出與該問題相關的重要特徵要素。一般使用python代碼來識別這些特徵。

 

例以下圖,顯示了一些實體識別系統的特徵:、

 

 

機器學習和深度學習的區別?

 

上圖中能夠發現,機器學習在實際應用中,大約90%的工做是人類研究如何描述數據,總結出重要特徵,只有約10%的工做是大腦運行這一個數值優化算法。

 

深度學習是表徵學習的一個分支, 表徵學習的理念就是隻向電腦提供來自外界的原始信號,不管是視覺仍是語言信號,而後電腦自動得出好的中間表徵,來很好地去完成任務。從某種意義上來講,就是本身定義特徵,和以往人類定義特徵相似的方式。

深度學習的真正含義是:獲得了多層的習得表徵,能夠戰勝其餘的學習方法。

 

深度學習主要的兩個突破:天然語言處理和計算機視覺。

 

3、Deep NLP=Deep Learning + NLP

一方面深度學習應用到各類不一樣層次的語言學上,例如詞彙學、句法學、語義學。應用於各類不一樣類型的工具和算法的天然語言處理,例如爲單詞標註詞性、識別人物姓名和結構名字、找出句子的句法結構。此外還被應用在其餘的語言應用程序,結合各部分功能,例如機器翻譯、情感分析的聊天助手等。

 

深度學習模式運用一樣一套工具和技術,很是統一的方法來處理各個領域的問題。

 

 參考資源:斯坦福大學 天然語言處理課程

相關文章
相關標籤/搜索