淺談天然語言在科技時代的運用

 

天然語言處理是現代技術最重要的組成之一,經常使用的天然語言通常指漢語、英語等。是隨着人類社會發展演變而來的語言。區別於人工語言,如程序設計的語言。算法

天然語言是指用計算機對天然語言的形、音、義等信息進入處理,即對字、詞、句、篇章的輸入、輸出、識別、分析、理解、生成等的操做和加工。實現人機間的信息交流。數據結構

隨着計算機記錄的文字資料越來多,尤爲是伴隨着互聯網發展,文字資料與日俱增。如何讓計算機自動處理這些文字資料甚至是理解這些文字呢?計算機專家們爲此開始了幾十年的研究。機器學習

我根據本身的認識來總結如下天然語言處理這些年都幹了些什麼,有哪些好的應用。學習

1、基礎研究spa

(1)詞、分詞設計

統一一下文本里面的詞頻,看看哪些詞是說起最多的等等。blog

英文,詞與詞之間是用空格分開的,統計詞很簡單。最多加上stemming算法,就是同一個詞的不一樣時態、單複數等處理。深度學習

中文,詞與詞之間沒有空隙,最多在句子之間有標點符號。要統計中文詞彙,首先要作個分詞的步驟,業內術語叫作「中文分詞」。作分詞研究是中文天然語言處理的第一步,方法有不少種,無非是詞典和機器學習。產品

(a)基於詞典的方法微博

搞一個漢語詞典,以必定的數據結構存儲方便查找。其中一種叫作「Trie Tree」的數據結構很合適。詞典的持續更新很重要,詞典裏面沒有的新詞就只能被分紅單字。基於詞典的有點就是一個字:快!

字典的持續更新是能夠作到的,爬蟲天天爬蟲新聞、微博的內容,用新詞發現算法從中發現新詞更新到詞典中。

新詞發現算法,是一直統計算法,在一堆語料中經過統計計算字與字之間的粘合度、左右鄰居的信息熵就能夠把其中的詞找出來,效果很好。

(b)機器學習

早些年的機器學習方法有HMM(隱馬爾可夫模型),CRF(條件隨機場),效果都不錯,在封閉訓練集上等達到百分之九十幾的準確率。這些機器學習的方法能在必定程度上識別新詞,但僅僅是必定程度上。

最近幾年深度學習發展很快,有些研究者把它用到分詞上也達到了很好的效果。不過,總感受這是殺雞用牛刀。

實際應用中,都是字典加機器學習的方法結合來用的。

(2)詞性標註(POS)

詞性是人類語言文字中的一個規則,而這個規則又比較鬆散,一個詞有多個詞性,位置不一樣詞性不一樣,人類本身識別起來都很費勁。詞性標註,就是讓計算機經過必定的算法把一句話裏面的每一個詞分紅不一樣的詞性。

詞性標註,通常都是用機器學習的方法來作。經過人工事先標註好的語料來進行機器學習獲得一個模型,計算機程序使用這個模型再來對其它文本進行標註。早期的機器學習方法有HMM,CRF等。這些年也能夠上深度學習來作。

(3)命名實體識別(NER)

命名實體,就是表明一個實體的詞彙,好比,人名、地名、機構名。這個通常的作法是規則+機器學習的方法。CRF一樣在這裏有用武之地。

(4)句法分析

讓計算機來把一句話的主謂賓、定狀補給分析出來。這也是一項挑戰。一樣,它也能夠經過CRF來實現。

以上過程,分詞、詞性標註、命名實體識別、依存句法分析均可以用CRF來實現。從原理上,他們有相同的特色,都是最字或詞的一種標註。

CRF分詞是由字組詞的過程,訓練語料把每一個字標記成詞的開頭、中間、結尾等標記。訓練過程是學習這些字、標記的上下文關係;分詞過程是根據學習的關係給字打上標記,再根據這些標記組成詞。

CRF詞性標註、命名實體識別、句法分析是一樣的道理,但他們標註的都是詞、詞性等關係。

(5)語音處理

以上談及的都是對文本內容的研究,語言的另外一種形式——語音也是多年來計算機研究的一個領域。

這裏的語音處理主要是跟天然語言處理相關的,最主要的是語音轉文本,其它還有文本轉語音,喚醒詞識別。

喚醒詞識別,值得特別介紹一下。如今智能設備不少,智能語音助手、智能音響等具備語音交互功能的軟硬件產品,基本上都有一個「語音喚醒功能」。好比你給你的智能音響或機器人起了個名字叫「小白」,你叫它「小白」之後,它就開始和你交互了;若是你叫它「小黑」,它就不搭理你。這個「小白」就是它的喚醒詞,每一個人對本身的產品均可以用不一樣的喚醒詞。喚醒詞識別作的就是如何訓練一個特定詞彙的識別模型,甚至還包括我的音色特徵(別人叫它小白也不行)。

以上就是天然語言處理作的基礎研究內容,這些基礎研究有什麼應用能讓咱們的生活更美好呢?

 
如無特殊說明,本文爲本站原創,出處:https://www.yuanrenxue.com/
相關文章
相關標籤/搜索