來自: IT十年 - CSDN博客php
連接:http://blog.csdn.net/matthewei6/article/details/50610882html
在逐漸步入DT(Data Technology)時代的今天,天然語義分析技術愈加不可或缺。對於咱們天天打交道的中文來講,並無相似英文空格的邊界標誌。而理解句子所包含的詞語,則是理解漢語語句的第一步。漢語自動分詞的任務,通俗地說,就是要由機器在文本中的詞與詞之間自動加上空格。python
一提到自動分詞,一般會遇到兩種比較典型的質疑。一種質疑是來自外行人的:這件事看上去平凡之極,好像一點兒也不「fancy」,會有什麼用呢?另外一種質疑則是來自業內:自動分詞研究已經進行了數年,而網上也存在各類不一樣的開放分詞系統,但對於實際商用彷佛也未見一個「即插即用」的系統。git
那麼,目前常見的開放分詞引擎,到底性能如何呢?爲了進行測試,咱們調研了11款網上常見的而且公開提供服務的分詞系統,包括:github
分詞的客觀量化測試離不開標註數據,即人工所準備的分詞「標準答案」。在數據源方面,咱們將測試分爲:web
一、新聞數據:140篇,共30517詞語;網絡
二、微博數據:200篇,共12962詞語;性能
三、汽車論壇數據(汽車之家)100篇:共27452詞語;學習
四、餐飲點評數據(大衆點評):100條,共8295詞語。測試
準確度計算規則:
一、將全部標點符號去除,不作比較
二、參與測試的部分系統進行了實體識別,可能形成詞語認定的不統一。咱們將對應位置替換成了人工標註的結果,獲得準確率估算的上界。
三、通過以上處理,用SIGHAN 分詞評分腳本比較獲得最終的準確率,召回率和F1值。
以上全部數據採用北大現代漢語基本加工規範對全部數據進行分詞做爲標準。具體數據下載地址請參見附錄。經過這四類數據綜合對比不一樣分詞系統的分詞準確度。
上圖爲參與比較的10款分詞引擎在不一樣數據的分詞準確度結果。能夠看出,在所測試的四個數據集上,BosonNLP和哈工大語言云都取得了較高的分詞準確率,尤爲在新聞數據上。由於庖丁解牛是將全部可能成詞的詞語所有掃描出來(例如:「最不滿意」分爲:「最不 不滿 滿意」),與其餘系統輸出規範不一樣,於是不參與準確率統計。
爲了更直接的比較不一樣數據源的差異,咱們從每一個數據源的測試數據中抽取比較典型的示例進行更直觀的對比。
【新聞數據】
新聞數據的特色是用詞規整,符合語法規則,也是廣泛作得比較不錯的一個領域。對比其餘數據源,有7家系統都在新聞領域達到最高。包括IKAnalyzer、盤古分詞、搜狗分詞、新浪雲、NLPIR、語言云、BosonNLP。而且有三家系統準確率超過90%。
樣例:香港 中文 大學 將 來 合肥 一中 進行 招生 宣傳 今年 在 皖 招 8 人 萬家 熱線 安徽 第一 門戶
【微博數據】
微博數據用詞多樣、話題普遍,並常包含錯別字及網絡流行詞。可以比較全面的體現每家分詞系統的準確度。
樣例:補 了 battle 賽 峯暴班 的 兩 個 弟弟 妹妹 @楊寶心 @修兒 一個 是 我 很 挺 的 好 弟弟 一個 是 我 推薦 進 好聲音 的 妹子 雖然 都 在 battle 階段 都 下來 了 可是 我 依然 像 以前 那樣 以爲 大家 很是 棒
【汽車論壇】
汽車數據是針對汽車領域的專業評價數據,會出現不少的專業術語。例如示例中的「胎噪」、「風燥」等,若是系統沒有足夠強大的訓練詞庫或領域優化,會使準確率有較大程度下降。比較有意思的是,對比其餘數據源,有3家系統都在汽車論壇領域達到最高:騰訊文智、SCWS中文分詞、結巴分詞。
樣例:溫馨性 胎噪 風噪 偏 大 避震 偏 硬 過 坎 彈跳 明顯
【餐飲點評】
餐飲點評數據爲顧客評論數據,更偏重口語化。會出現不少相似「閨蜜」、「萌萌噠」口語化詞語和不少不規範的表達,使分詞更加困難。
樣例:跟 閨蜜 在 西單 逛街 想 吃 壽司 了 在 西單 沒 搜 到 其餘 的 日料店 就 來 禾綠 了 咱們 倆 都 以爲 沒 之前 好 了
各家系統對於多數簡單規範的文本的分詞已經達到很高的水平。但在仔細對比每一家中文分詞後依舊發現切分歧義詞和未登錄詞(即未在訓練數據中出現的詞)仍然是影響分詞準確度的兩大「攔路虎」。
一、切分歧義:根據測試數據的切分結果,一類屬於機器形式的歧義,在真實語言環境下,只有惟一可能的正確切分結果,稱其爲僞歧義。另外一類有兩種以上可實現的切分結果,稱爲真歧義。因爲真歧義數據沒法比較正確或者錯誤。全部咱們着重舉例來比較各家系統對僞歧義的處理效果。
正確: 在 倫敦 奧運會 上 將 可能 有 一 位 沙特阿拉伯 的 女子
(BosonNLP、新浪雲、語言云、NLPIR、騰訊文智)
錯誤: 在 倫敦 奧運會 上將 可能 有 一 位 沙特阿拉伯 的 女子
(PHP結巴分詞、SCWS中文分詞、搜狗分詞、庖丁解牛)
示例中原意指倫敦奧運會可能有一位沙特阿拉伯的女子,錯誤分詞的意思是指上將(軍銜)中有一位是沙特阿拉伯的女子,句意大相徑庭。固然,分析的層次越深,機器對知識庫質量、規模等的依賴性就越強,所須要的時間、空間代價也就越大。
二、未登陸詞:未登陸詞大體包含三大類:
a)新涌現的通用詞:相似「神馬」、「納尼」、「甩賣」、「玫瑰金」等新思想、新事物所帶來的新詞彙,無論是文化的、政治的、仍是經濟的,在人們的生活中不斷涌現。同時不少詞語也具備必定的時效性。
b)專業術語:是相對平常用語而言的,通常指的某一行業各類名稱用語,大多數狀況爲該領域的專業人士所熟知。這種未登陸詞理論上是可預期的。可以人工預先添加到詞表中(但這也只是理想狀態,在真實環境下並不易作到)。
c)專有名詞:如中國人名、外國譯名、地名、公司名等。這種詞語不少基本上不可經過詞典覆蓋,考驗分詞系統的新詞識別能力。
【新涌現的通用詞或專業術語】
示例中的藍色字包括專業術語:「肚腩」、「腹肌」、「腹直肌」、「腹外斜肌」、「腹橫肌」;新涌現的通用詞:「人魚線」、「馬甲線」。大多數的系統對於示例文本的分詞結果都不夠理想,例如:「大肚 腩」(SCWS中文分詞) 「腹 直 肌 腹 外 斜 肌」(搜狗分詞、IKAnalyer、NLPIR、SCWS中文分詞)、「人 魚線」(PHP結巴分詞)。總的來講這兩種類型的數據每家系統都存在必定的缺陷,相對而言哈工大的語言云在這方面表現的較好。
本 季 最 強 家庭 瘦 腰 計劃 完全 告別 大 肚腩 沒有 腹肌 的 人生 是 不 完整 的 平面 模特 yanontheway 親身 示範 的 9 個 動做 完全 強化腹直肌 腹外斜肌 腹內斜肌 以及 腹橫肌 每一個 動做 認真 作 足 50 次 必定 要 堅持 作 完美 的人魚線 性感 的 馬甲線 都 要 咱們 本身 去 爭取
【專有名詞】
示例出現的專有名詞包括「蒂莫西伊斯頓」(姓名)、「英國」「意大利」「北歐」(地點)、「金斯敦」(機構名)、「伊麗莎白 格林希爾茲」(機構名)。而這種用詞典沒法窮盡的專有名詞也成爲各家分詞準確率下降的重要緣由。其中搜狗分詞、IKAnalyer、PHP結巴分詞、騰訊文智、SCWS中文分詞在新詞識別時較爲謹慎,常將這類專有名詞切分紅多個詞語。
油畫 英國 畫家 蒂莫西伊斯頓 惟美 風 油畫 timothy easton 畢業 於 英國 金斯敦 藝術 學院 曾 獲伊麗莎白 格林希爾茲 基金會 獎 得以 前往 意大利 和 北歐 學習 一 年 的 機會
固然在分詞準確度能夠接受的狀況下,不少細節問題,包括是否有出錯狀況、是否支持各類字符、是否標註詞性等均可能讓咱們望而卻步。在分詞顆粒度選擇當中,BosonNLP、SCWS、盤古分詞、結巴分詞、庖丁解牛都提供了多種選擇,能夠根據需求來採用不一樣的分詞粒度。與北大的分詞標準對比來講,新浪雲默認的分詞粒度較大,而搜狗分詞、騰訊文智分詞粒度相對較小。除此以外,BosonNLP、新浪雲、NLPIR、騰訊文智同時提供了實體識別、情感分析、新聞分類等其餘擴展服務。下表給出了各家系統在應用方面的詳細對比。
文分詞是其餘中文信息處理的基礎,而且在不少領域都有普遍的應用,包括搜索引擎、機器翻譯(MT)、語音合成、自動分類、自動摘要、自動校對等等。隨着非結構化文本的普遍應用,中文分詞等文本處理技術也變得愈來愈重要。經過評測能夠看出,部分開放分詞系統在不一樣領域已經達到較高準確率。對於數據分析處理的從業者,相信在此之上構建數據分析系統、人機交互平臺,更可以起到事半功倍的效果。
注意:分詞數據準備及評測由BosonNLP完成。
附錄
評測數據地址
http://bosonnlp.com/dev/resource
各家分詞系統連接地址
BosonNLP:http://bosonnlp.com/dev/center
IKAnalyzer:http://www.oschina.net/p/ikanalyzer
NLPIR:http://ictclas.nlpir.org/docs
SCWS中文分詞:http://www.xunsearch.com/scws/docs.php
結巴分詞:https://github.com/fxsjy/jieba
盤古分詞:http://pangusegment.codeplex.com/
庖丁解牛:https://code.google.com/p/paoding/
搜狗分詞:http://www.sogou.com/labs/webservice/
騰訊文智:
http://www.qcloud.com/wiki/API%E8%AF%B4%E6%98%8E%E6%96%87%E6%A1%A3
新浪雲:http://www.sinacloud.com/doc/sae/python/segment.html
語言云:http://www.ltp-cloud.com/document