通過一個月的技術調查和編碼實踐,最終經過純詞法分析寫出了情感分析的技術原型,統計結果比較滿意,也算對本身一個月來研究成果的初步確定。算法
首先該技術原型主要面向輿情,輿情的特色是語料來源普遍,主題相關性不明顯,從網上抓取的輿情能夠是任何形式任何主題的。正統的新聞,微博,論壇評論等等,所以判斷難度較大。國內情感分析成果主要應用於對特定領域的評論傾向分析來改善產品和作用戶調研。針對有主題相關性的語料,能夠用目前很是優秀的SVM支撐向量機分類算法經過前期訓練,將訓練出的數學模型去預測未知語料,正確率最佳可達90%以上。ide
可是在輿情領域SVM這種算法就不盡如人意了,因此通過技術調查,我採用純詞法分析且基於情感詞典這樣一種與SVM偏偏相反的非學習監督方法完成了該技術原型,針對網上抓取的測試語料的判斷準確率爲:積極文本準確率在80%左右,消極文本由於難度較大(後面會說道)準確率在70%左右。同時保證了錯誤率在%10左右。正誤率之比在10:1之上。先看圖說話。學習
環境:C+WindowsApi,VS2010,Windows7 x64測試
技術原型界面:編碼
參數解釋:spa
testText.txt:要測試的文本,由於輿情文本通常較短,因此技術原型這裏將每句做爲一個語料單位。blog
emDic.txt:使用的情感詞基準詞典。get
bDetail:是否展現判斷過程,即情感傾向分析的細節,0/1。原型
sepValue:分類權值。用於正負面及未知的分類權值,測試最佳:0.8數學
分詞細節:
分類結果:
消極語料判錯緣由分析(手動跟蹤了100多條文本分析過程得出):
1)口語化嚴重(這本書與名著的距離好遠,不怎麼樣),
2)表達隱晦,高級語法(暗喻,反諷),
3)錯別字,
4)文本太短(情感信息較少)。
5)情感傾向不不明顯:如 還好。
6)某些詞領域評價詞使用率較高,影響判斷:沒到貨等
7)積極傾向,大於消極傾向(先抑後揚,人工分錯)
8)情感詞修飾主體不一致(書內容描述)
錯誤文本舉例:
這本書叫《于丹心得》更好一些。(貶義)
看完這本書,我感受于丹更像一位幼兒園老師。(貶義)
書看了一遍就送人了。(貶義)
說的真好。(貶義)
改進方向:
交叉對比:研究第二種方法能夠兩種方法交叉對比來提升分類精度。
全自動學習機制:自動豐富詞庫,或者加入監督學習機制更新詞庫。
Just a display,還得繼續研究。。。。