形式化(標準化)的數學符號、模型, 模擬人的語言能力算法
數學模型機器學習
更寬泛的概念。工具
利用計算機, 對人類的書面和口頭形式的天然語言的信息進行處理和加工學習
一個符號系統, 意義(知識) + 規則(語法)測試
第二系統 --- 文字系統(書寫系統) Writing System優化
單個字符, 詞(word), 短語(Phrase), 句子(Sentence), 語段, 篇章(Utterence)ui
思惟的載體, 交流的工具this
人類歷史以語言文字形式記載和流傳的只是佔總量的 80% 以上, 圖表佔的比例很小搜索引擎
如何讓計算機具備語言處理的能力,如何讓計算機實現自動的或人機互助的語言處理功能人工智能
如何利用計算機處理海量的語言信息,自動處理,知識挖掘,有效利用
語言學:形式語言文法,詞典、語料庫(標註、分詞等)、知識庫
數學:機率論、統計學、信息論,自動機、Markov模型、HMM模型
計算機科學:自動機器學習,自動人工智能,狀態空間的圖搜索算法
心理語言學:研究人類理解天然語言的機制
Miss Smith put two books on this table
形態分析
詞形還原, Lemmatization, 變成原型
詞彙符號化, Tokenization, 至關於中文分詞
Miss Smith put
語法分析, Syntac, 主謂賓, 語音合成, 讀的時候的節奏變化
[Miss Smith] [put] [two books] [on the table]
詞彙轉換(單詞轉換)
短語轉換(語序轉換)
優化
關鍵詞(同近義詞,模糊,自動理解天然語言)搜索引擎
翻譯
自動文摘,消息抽取
問答系統
教學系統
經驗主義,功能主義:機器的表現與人相同
圖靈測試:若是經過天然語言問答,一我的沒法識別和他對話的是人仍是機器,那麼就應該認可機器具備智能
歧義 ambiguity
語義,結構,詞法,語音
《施氏食獅史》
石室詩士施氏,嗜獅,誓食十獅。施氏時時適市視獅。十時,適十獅適市。是時,適施氏適市。施氏視是十獅,恃矢勢,使是十獅逝世。氏拾是十獅屍,適石室。石室溼,氏使侍拭石室。石室拭,氏始試食是十獅屍。食時,始識是十獅屍,實十石獅屍。試釋是事。
新的詞彙,術語,含義,用法,結構