蘇偉峯 李紹滋算法
廈門大學計算機科學系 廈門 361005數據庫
摘 要 本文提出一個電子文檔的自動分類的模型:基於《知網》之上,通過對文檔的關鍵詞的抽取和排岐, 進而獲得關鍵詞的概念,再對關鍵詞的概念進行綜合而獲得該文本的所屬的類別,實驗證實該模型有較好的效果。框架
關鍵詞 文本分類 概念 《知網》 全信息 學習
一、引 言ui
在過去幾年中隨着科學技術的迅猛發展,特別是隨着因特網的快速發展,各類信息情報激增,特別是網上信息浩如煙海,人們可能經過因特網能很快地獲得大量的資料,所以如何對所得到資料進行科學有效地管理是擺在人們面前一個不可迴避而又頗有意義的問題。對資料進行管理一個很常見的方法就是對它們系統地進行分類。this
顯然,用人工對文本材料進行分類的過程是通讀全部文章,而後再對它們進行歸類保存。spa
固然這須要許多具備豐富經驗和專門知識的分類人員作大量的工做,顯然這個過程具備週期長、費用高、效率低的特色,在信息爆炸的今天很難知足實際須要,如何運用計算機進行自動分類成了許多人的研究方向。.net
通常而言,文本分類方法可分爲兩個類型:設計
基於外延方法的分類方法:這種類型的分類方法不關心文本的語義,根據文本的外在特徵進行分類。最多見的方法是基於向量空間模型(Vector Space Module)的方法,該方法的思想是:把文本表徵成由特徵項構成的向量空間中的一個點,經過計算向量之間的距離,來斷定文本之間的類似程度。採用該模型的文本分類方法通常步驟是:先經過對訓練語料的學習對每一個類創建特徵向量做爲該類的表徵,而後依次計算該向量和各個類的特性向量的距離,選取距離大小符合域值的類別做爲該文本所屬的最終類別。這種方法有了不少的應用,可是其不足之處也是顯而易見的:orm
1.正確率通常只能達到80%,且很難進一步向上發展
2.對於不一樣體材的文本,則其歸類正確率更是大打折扣。
基於語義的分類方法:這種類型的分類方法採用所有或部份理解文本的語義而進行歸類。主要能夠分爲如下三類:
1.基於詞的歸類技術
文本的語義是基於概念之上的,而詞是概念的基本構成單位,從文本抽取出能反映出該文本的關鍵詞,經過對關鍵詞歸類而進行歸類,顯然這種方法產生的歸類其實並非真正經過語義來進行歸類,屬於較早採用的技術。
2.基於知識的歸類技術
基於知識庫的歸類技術有一個明確的知識庫,知識的表示方法主要有規則庫、語義模型或格框架等。基於知識的分類技術的顯著特色是須要手工建造知識庫,且建造的知識庫領域性極強,移植很是困難。最近的研究工做代表,在必定的領域內,基於知識庫的系統可以進行快速準確的分類。
3.基於概念的歸類技術
基於概念的歸類技術是一種介於詞的分類技術和基於知識的歸類技術之間的技術,它只抽取那些對文本分類有用的概念,它抽取短語周圍的文本和潛在的語義概念進行文本類別的肯定。基於概念的歸類技術並不須要理解全文的語義,這在當前對天然語言的理解水平尚處於初級階段的現狀來講無疑是一個較好的方法。
本文提出了一箇中文文本自動分類模型,它是基於概念的歸類技術,創建在《知網》基礎之上的,從文章中抽取出關鍵詞,利用詞產生的概念對全文進行分析,而後根據概念的類別綜合進行分類。
2、知網簡介
《知網》是一個以漢語和英語的詞語所表明的概念爲描述對象,以揭示概念之間以及概念所具備的屬性之間的基本內容的常識知識庫。
《知網》認爲世界上的一切事件都在特定的時間和空間內不停地運動和變化,它們一般是從一種狀態變化到另外一種狀態,並一般經過其屬性來體現。
《知網》歸納了八百多個事件義原,經過義原的組合來標註各類各樣的單純的或複雜的概念,以及各個概念與概念之間、概念的屬性與屬性之間的關係。相對來講,新詞雖然層出不窮,但義原的增長卻極少,顯然,從理論上說,處理好了這八百多個義原就能夠實現對文本的分類。
《知網》使用義原的組合來標註各類各樣的單純或複雜的概念,其標註時按其特徵的重要性從大到小順序來定義概念,但在文本分類的過程當中,咱們發現許多概念的主要特徵大部分沒法定義其類別,並且其特性倒不是咱們所關心的。因此咱們定義一個概念的第一個可以歸類的特性爲首分特性,每個可以歸類的特性稱爲可分特性。顯然,首分特性是最重要的可分特性。對在咱們的文本分類過程中主要是利用概念的首分特性和可分特性來進行分類。
《知網》做爲一個知識系統,實副其名是一個網而不是樹。它所要反映的是概念的共性和個性,知網還着力要反映概念之間和概念的屬性之間的各類關係。
3、系統的設計與實現
在本模型中,概念的生成是基於對詞的理解之上的,而知網做爲一個常識數據庫,對概念的理解已經造成
分詞與標註:對電子文檔進行詞條的切分,並對所切分的詞進行詞性標性。
關鍵詞抽取:從分詞後的詞條中抽取出最能反映文檔的內容的詞語。
概念排岐:對抽取出的關鍵詞所表示的概念進行排岐。
文本歸類:根據概念排岐後的全部詞的概念進行綜合從而獲得該文檔所屬的類別。
3.1 關鍵詞集的抽取方法
假設文本已經進行了詞組分解的操做,把文本變成一個詞的序列,關鍵詞的抽取操做步驟以下:
1) 首先將文本中虛詞如代詞等去掉,剩下名詞、動詞、形容詞和副詞
2) 把動詞分爲三類:
關係動詞:
狀態動詞:
行動動詞:
去掉關係動詞和狀態動詞。
3) 記錄下每一個詞在剩下的詞當中所處的位置Pi。
4)統計詞頻Fi
對於文本中出現的詞,若第一次出現時詞頻F設置爲1,之後每出現一次則加1,若該詞在標題中出現,則多加上H,
在KEYWORD(如有)中出現,則多加上I,
在摘要中出現,則多加上K,
在篇首中出現,則多加上L,
在篇尾中出現,則多加上M,
在段首中出現,則多加上N,
在段尾中出現,則多加上O,
通常而言, H>I>K>L,M>N,O,這是由它們所在位置對文章的重要性決定的。
5)計算詞權Hi
各種詞的權重分別設置以下:
名詞: W1
動詞: W2
形容詞: W3
副詞: W4
通常而言,w1>w2>w3,w4,這是由於相對而言名詞所攜帶的信息量較大,動詞次之,而形容詞和副詞再次之。
對於每個詞:Hi=Fi*Wj
根據文章長度設一閥值λ,文章越長,則λ值越大,濾去詞權小於λ的詞。
3.2 概念的排岐
根據全信息理論:理解信息不只要了解信息了形式,更重要的是要理解信息的含義(語義信息)和信息的效用(語用信息)。「全信息」是認識論層次的信息概念,即認識主體所感知的事物運動狀態以及狀態變化的方式,包括狀態/方式的形式、含義和效用,其中狀態/方式的形式稱爲語法信息,狀態/方式的含義稱爲語義信息,狀態/方式的效用稱爲語用信息。對自動文本分類而言,全信息包含了詞的語法、語義和語用信息。語法信息涉及詞的語法特徵。語義信息描述詞的語義內涵,它有多種特徵,如語法語義特徵、內在的語義特徵等,咱們能夠經過《知網》來得到詞的語義信息,對於一個詞可能有多個概念的情景,則咱們能夠用語用信息來肯定該詞在本文當中所表達的概念,這是由於語用信息反映的是做者對詞語的選擇性使用,每一個詞特別是實詞都是爲適應上下文的須要而被選擇的,同時每個詞都改變了上下文的結構。顯然對於有多個概念的關鍵詞,經過對上下文的分析咱們能夠大體肯定該詞在本文當中的概念,其方法以下:
對每個具備兩個以上的概念的詞W,設其在的實詞序列中的位置爲p,分別給該詞的每個概念賦一個權值k,創建一個以詞W爲中心、大小爲2n+1的窗口:Wp-nWp-n+1…Wp-1WWp+1…Wp+n ,對於W中的每個概念的每個可分特性,如若在Wp-nWp-n+1…Wp-1Wp+1…Wp+n中每找出一個與之相同的特性,則將該概念的權值加1,最後將該詞全部的概念進行歸一化處理:將該詞的全部概念的權值相加獲得和數S,而後每一個概念的權值除以S獲得Kj放入其概念權值中。
3.3 根據義原肯定類別
每一個概念按其首分特性定義其所屬類別,這就是說,給每一個概念根據其最重要的可分特性進行分類,即:
根據上面獲得的每一個詞的詞權, 按如下計算類別權值:
1.把每一個類別權值WeightofCi清零;
2.根據所餘下的關鍵詞按次序從每個開始,每個詞均按公式:
WeightofCi=WeightofCi + Kj*Wj
計算全部類別權值,其中Kj爲該詞的全部概念屬於類別Ci的概念權值之和,Wj爲該詞的詞類權重。
3.從全部的類別權值WeightofCi中找出那個數值最大所表示的類別做爲該電子文本的類別。
四、自動分類模型的試驗結果
咱們用兩個參數來評價文本自動分類的算法:查全率和精確率。
按如下公式計算類別Ci的查全率recallci和精確率precisionci:
|
|
|
|
咱們預約義十一種分類的類別:政治類、軍事類、經濟類、法律類、文化類、體育類、衛生類、宗教類、工業類、農業類、交通類,從1998年的《人民日報 》選出的500篇新聞語料庫,其中包括了各種預約義的類別的文本,利用所實現的文本分類模型進行自動文本分類,獲得如下的實驗數據。
|
政治 |
軍事 |
經濟 |
法律 |
農業 |
體育 |
衛生 |
工業 |
文化 |
交通 |
宗教 |
合計 |
人工分類 |
32 |
63 |
45 |
22 |
120 |
28 |
70 |
40 |
25 |
12 |
500 |
|
自動分類 |
32 |
39 |
52 |
50 |
23 |
118 |
24 |
65 |
36 |
20 |
10 |
470 |
正確分類 |
28 |
39 |
48 |
42 |
21 |
114 |
20 |
58 |
34 |
18 |
9 |
431 |
查全率% |
87.5 |
90.69 |
76.2 |
93.33 |
95.45 |
95 |
71.43 |
82.86 |
85 |
0.72 |
0.75 |
86 |
精確率% |
87.5 |
100 |
92.31 |
84 |
91.30 |
96.61 |
83.33 |
89.23 |
94.44 |
0.9 |
90 |
91.70 |
從上面能夠看出,這個模型獲得的結果是比較使人滿意的,特別是精確率已經達到較高的水平,可見文本自動分類的方法仍是可行的。自動分類中有些不能歸類是由於其在歸類判斷中關鍵詞的概念所屬的類別太過度散,宜用手工分類。
5、結束語
中文文本的自動分類是中文信息處理領域中的一項重要研究課題,本文對中文信息分類技術及其應用做了初步的探討 ,取到了較好的效果,爲了進一步提升分類的準確率,能夠在義原歸類、詞權肯定、概念排岐等方面做進一步的工做。
本文在寫做過程中,承蒙《知網》的製做人董振東老師的認真指導,其所提供的《知網》也使本模型在實現過程中節約了大量的時間和精力,在此表示誠摯的謝意。
參 考 文 獻
1.James allen Natural Language Understanding
2.吳贛 程學旗 餘智華 WWW頁面的文檔分類技術 計算語言學文集 1999.10
3.董振東 董強 知網 計算語言學文集 1999.10
4.曹素麗 曾伏虎 曹煥光 基於漢字字頻的中文文本自動分類系統 山西大學學報 1999.2
5. 李蕾 鍾義信 郭祥昊 全信息理論在自動文摘系統中的應用 計算機工程與應用 2000.1
A Module Of Automatic Chinese Documents Classification Base On Concept
Su Weifeng Li Shaozi
Department of Computer Science Xiamen University Xiamen 361005
Email: waveletsu@263.net
Abstract This paper present a module of automatic Chinese documents classification. After get keywords from the documents, we get rid of ambiguity of the keywords.Base on how_net,we get the concept of the keywords.We classify the document after we integrate all the keywords’ concept. It has been tested the this module had good effect.
Keyword document classification , concept , how-net , comprehensive information
做者簡介:蘇偉峯, 男 ,26歲,廈門大學計算機系碩士生。
李紹茲 男 ,廈門大學計算機系副教授