中文分詞技術

今天看 中文分詞技術:
簡單的概念
衆所周知,英文是以詞爲單位的,詞和詞之間是靠空格隔開,而中文是以字爲單位,句子中全部的字連起來才能描述一個意思。例如,英文句子I am a student,用中文則爲:「我是一個學生」。計算機能夠很簡單經過空格知道student是一個單詞,可是不能很容易明白「學」、「生」兩個字合起來才表示一個詞。把中文的漢字序列切分紅有意義的詞,就是中文分詞,有些人也稱爲切詞。我是一個學生,分詞的結果是:我 是 一個 學生。
對於搜索引擎來講,最重要的並非找到全部結果,由於在上百億的網頁中找到全部結果沒有太多的意義,沒有人能看得完,最重要的是把最相關的結果排在最前面,這也稱爲相關度排序。中文分詞的準確與否,經常直接影響到對搜索結果的相關度排序。
分詞算法
現有的分詞算法可分爲三大類:基於字符串匹配的分詞方法(機械分詞方法)、基於理解的分詞方法和基於統計的分詞方法。
基於理解的分詞方法:是經過讓計算機模擬人對句子的理解,達到識別詞的效果。其基本思想就是在分詞的同時進行句法、語義分析,利用句法信息和語義信息來處理歧義現象。
基於統計的分詞方法:從形式上看,詞是穩定的字的組合,所以在上下文中,相鄰的字同時出現的次數越多,就越有可能構成一個詞。所以字與字相鄰共現的頻率或機率可以較好的反映成詞的可信度。
分詞中的難題
一、歧義識別——「表面的」能夠分紅「表+面的」,也能夠是「表面+的」
二、新詞識別——新詞中除了人名之外,還有機構名、地名、產品名、商標名、簡稱、省略語等都是很難處理的問題,並且這些又正好是人們常常使用的詞,所以對於搜索引擎來講,分詞系統中的新詞識別十分重要。目前新詞識別準確率已經成爲評價一個分詞系統好壞的重要標誌之一。
中文分詞的應用
目前在天然語言處理技術中,中文處理技術比西文處理技術要落後很大一段距離,許多西文的處理方法中文不能直接採用,就是由於中文必需有分詞這道工序。中文分詞是其餘中文信息處理的基礎,搜索引擎只是中文分詞的一個應用。其餘的好比機器翻譯(MT)、語音合成、自動分類、自動摘要、自動校對等等,都須要用到分詞。由於中文須要分詞,可能會影響一些研究,但同時也爲一些企業帶來機會,由於國外的計算機處理技術要想進入中國市場,首先也是要解決中文分詞問題。在中文研究方面,相比外國人來講,中國人有十分明顯的優點。
分詞準確性對搜索引擎來講十分重要,但若是分詞速度太慢,即便準確性再高,對於搜索引擎來講也是不可用的,由於搜索引擎須要處理數以億計的網頁,若是分詞耗用的時間過長,會嚴重影響搜索引擎內容更新的速度。所以對於搜索引擎來講,分詞的準確性和速度,兩者都須要達到很高的要求。目前研究中文分詞的大可能是科研院校,清華、北大、中科院、北京語言學院、東北大學、IBM研究院、微軟中國研究院等都有本身的研究隊伍,而真正專業研究中文分詞的商業公司除了海量科技之外,幾乎沒有了。科研院校研究的技術,大部分不能很快產品化,而一個專業公司的力量畢竟有限,看來中文分詞技術要想更好的服務於更多的產品,還有很長一段路。
另外有關搜索引擎技術有一個知名的BLOG: 搜索引擎研究,有興趣能夠多關注一下。
相關文章
相關標籤/搜索