論文:中文情感詞典的自動構建及應用 的筆記算法
一.詞語級情感分析數據庫
1.情感詞典的構建方法: 手工標註,基於詞典的方法 和 基於語料庫的方法。數據結構
手工標註:準確率高,耗費時間和精力。機器學習
基於詞典 和 基於語料的方法較多。學習
詞語情感分析的難點:1.詞語在不一樣的環境中產生的情感不一樣視頻
2. 詞語的情感類別分類沒有統一的規範。對象
2.句子級情感分析圖片
對象:有上下文環境的句子。資源
首要任務:區分 主觀句 和 客觀句 文檔
對於句子的分析方法:1.基於情感詞的方法 2.基於機器學習的方法
3.篇章級情感分析
篇章的分析 是綜合篇章的詞語 和 句子 的情感分析結果的基礎上,結合上下文以及該領域相關知識得出結論。
篇章級情感分析方法:基於情感詞典的方法 和 基於統計的方法。
基於情感詞典的方法:經過分析文檔中帶有情感色彩來判斷文檔的極性。
基於統計的方法:將情感分析 做爲一個分類問題來考慮
如文獻 1:基於監督學習的中文情感分類計數比較研究
文獻二:sentiment classification using machine learing techniques
結構化數據: 即行數據,存儲在數據庫裏,能夠用二維表結構來邏輯表達實現的數據
非結構化數據:包括全部格式的辦公文檔,圖片,音樂,視頻
半結構化數據:如HTML,將自描述的、數據結構和內容混在一塊兒,就是介於徹底結構化數據(如關係型數據庫、面向對象數據庫中的數據)和徹底無結構的數據(如聲音、圖像文件等)之間的數據。
特徵提取的方法:基於互信息、信息增益、X2統計、文檔頻率,詞條強度
結果代表 信息增益 和 X2統計是最有效的特徵選擇算法
經常使用的語料庫:
1.Cornell大學發佈的影評數據集
2.UIC的hu和liu 發佈的產品領域的評論語料。
3.MPQA 語料,該庫取材自535篇通過深度標註的新聞評論語料庫。(標註流程在文獻34)
4.MIT的 多角度餐館評論語料
5.中科院發佈的大規模的中文酒店評論語料
中文情感詞典:
1.知網
2.臺灣大學的 NTUSD,有中文簡體和繁體兩個版本。
3.學生褒貶義詞典
4.褒義詞詞典
5.貶義詞詞典
情感詞典的構建方法: 基於語義詞典的方法 和 基於語料的方法
基於語義詞典: 給定少許情感詞,經過語義詞典來判斷詞語類似度達到擴展詞典的目的。 有 WordNet,知網,同義詞詞林
方法:先收集小規模的帶有情感標記的詞語集 和 未標註的詞表, 經過已有的詞典資源,查找詞表中詞語的同義詞和反義詞來擴展次詞語集。發現的新詞語被加入詞表中。這個過程會一直迭代到沒有新的詞語出現。
基於語料的情感詞典: 1.經過計算詞語間的共現信息計算不一樣詞語之間的類似度
2.利用詞語類似度計算詞語語義傾向。
利用詞語共現計算詞語類似度的技術主要有 : 互信息 和 潛在語義分析。
--------------------------------------------------------------------------------------------------------------------------------------------------------------------------------
文本特徵的表示方法:
1.向量模型。 文檔中 某個詞的權重。
2.布爾模型。 文檔中是否包含某詞,包含爲1,不包含爲2.
3.tf-idf
常見的文本分類算法:
1.統計學習的方法 2.基於規則的方法
文章提出擴充情感詞典的方法:文章提出了基於少數情感詞自動構建多分類別的中文情感詞典。
步驟一:經過句法分析提取文本中特定依存關係中的詞語做爲情感候選詞
步驟二:計算候選詞與少許特徵詞的類似度
步驟三:運用機器學習的方法對詞語進行分類獲得詞語的情感類別,並對結果進行處理。