情感分析入門筆記[1]-傳統方法-A survey of opinion mining and sentiment analysis

原文:Mining Text Data Chapter 13: A survey of opinion mining and sentiment analysis Bing Liu, Lei Zhang [2012]node

本篇文章徹底來自上述章節,只是我的學習總結筆記。[zm...]:內爲我的評論數組


 

摘要: 情感分析/意見挖掘能夠自動從大量數據中獲得人們的見解,同時消解個體的偏向(bias),因此很必要。ide

[zm 這篇主要在講對review評論的挖掘,着重是說人們對某件事情的見解,意見。我在接觸以前,一直覺得情感分析是分析情感,想得比較多的是情緒這個方面。多是由於一直思考對話系統中的情感分析限制了本身的想法,總想分析對方的情緒。若是放在社交媒體上,其實也是同樣的,我試圖去分析人們的情緒消極或積極,也須要有一個對象,那也就變成了對某件事的見解。不過有一個因果問題,當人們在社交媒體上表達情緒的時候,是由於這個事件而有的情緒,仍是對這個事件表達見解,好像很不同。]學習

 

一: 定義問題

第一,什麼是opinionui

一個entity (e), 例如手機,或者某個牌子的手機,有許多component(攝像頭,屏幕),和一些sub-component(感光元件等)。咱們把這個entity看做一個樹,每一個node就是一個細節。對每個(sub)component,可能會有幾個attribute,好比攝像頭清晰度,攝像頭大小等等。這樣一棵枝枝椏椏的樹🌲,就是opinion target,供人評價的對象。lua

通常來講,咱們不須要搞這麼多層次,直接降維打擊,用aspect (a) 來表示那些component+attribut,例如攝像頭的像素,這就是一個aspect,一個entity,有許多aspect供人評價(包括entity自己)。除此以外呢,咱們還考慮,誰是發出這個review的人(opinion holder(h)/source)[zm 從這個holder能夠延伸出sex,age等等],也能夠考慮時間[zm應該主要用於分析某社會事件].spa

這樣咱們把這個題定義爲數組[e, a, o, h, t]的問題,[zm 哎呀!沒想到!], 其中,對於對整個entity評價的評論,咱們將aspect定爲GENERAL因此咱們作這種情感分析,作的就是: entity的抽取與分組(同義詞放在一塊兒), aspect的抽取與分組,抽取意見持有者和事件,把sentiment分類,生成一個上面所說的數組。這樣把文本變成告終構化的文本,方便進一步的分析研究。excel

[zm 666,想問題就是要全面,我認爲這個defination是整篇最重要的部分了,研究一個sentiment,要考慮到發起人和評價對象,纔算一個完整的研究。由於平時作起來粗糙,場景單一,忽視了這個全面的定義。]component

兩個其餘的問題:主觀性(subjectivity)與情感(emotion)。orm

一個橘子很大,是個客觀評價。

一個橘子很漂亮,是主觀感覺。

subjectivity classification就是用來區分一個句子是主觀仍是客觀的。主觀句子中通常有評價,可是客觀句好比:這手機不耐摔,也暗含了評價。評價句不必定是主觀句,可是有很大交集。

emotion:joy,anger,fear等等。這些emotion也有時表達了人們對事情的評價:買了這個手機真開心。這種句子被叫作rational evaluation sentences.就是感性評價句。

 

第二, aspect-based opinion summary

從每一個方面來評價一個entity,最後給個總結。這部分不感興趣。大概就是綜合你們的評價生成一個評價,文本的評價可能會失去一些數量信息,不利於分析,扇形圖之類的能夠給讀者一個比較便於analyse的結果。

 

二:文本情感分類

把整個文本看做一個總體,以得到對整個entity的評價。

監督學習:能夠看做一個三分類(pos,neg,neutral)問題,通常review通常都會有用戶本身的評分,一到五星,能夠用這個作label來訓練。目前的許多方法均可以直接用在這裏:unigram的樸素貝葉斯和SVM都能表現不錯。

除了用詞的occurence,也可用其餘特徵,例如詞頻/詞性[形容詞更重要]/意見詞或短語/否認詞/句法依賴。基於這些特徵,能夠改進監督學習模型。

 

無監督學習:無監督學習通常就用意見詞來判斷

1.抽取形容詞短語

2.計算在全部文檔內這樣的短語與excellent/poor的PMI,也就是共同出現的頻率

3.統計這個文檔內全部短語的平均SO(情感傾向)

 

三:句子主觀性判斷和情感分析

兩個任務:

1. 判斷句子主觀性,從而過濾掉不表達觀點的句子

2. 抽取句子中的aspect並分析so

通常認爲一個句子來自同一個opinion holder

[zm 這部分主要在講一些細節的問題,好比有多個從句的句子處理起來如何如何難,須要作短語級的分析]

 

四:觀點詞擴充

 

根據上面的一些研究,咱們發現關鍵詞是情感分類中最重要的任務,擴展關鍵詞是一項很重要的任務,有如下幾種方法。

1.根據詞典擴充。種子+用wordnet/hownet之類的詞典尋找同義詞和反義詞

缺點:太general,可能不適應具體文本。

2.根據文本庫擴充。在文本庫中經過AND/OR/BUT等一些鏈接詞來擴充辭典。(CRF能夠用在這裏)

缺點:效率低

 

五: Aspect-Based 情感分析

兩個分解任務:

1. 抽取Aspect

2. 情感分類

5.1 首先,情感分類:

用lexicon-based方法來解決這個問題

1. 用pos/neg標記opinion詞

2. 解決shifter(not/no)

3. 解決but從句

4. 計算一個句子中每一個aspect的oo(opinion orientation)

 

 

5.2 Opinion Rule(?)

opinion rule 就是表示一個opinion是正仍是負

1. opinion word能夠直接肯定是正仍是負

2. 這個結果是否是用戶預期的結果一樣能夠表示正負的評價

 

3. 數量的高低多少一樣能夠表達見解的正負,例:電視過小了

 

4. 數量的增長減小也能夠,例:吃了這個我頭疼減輕了

5. 與正常/期待的不太同樣,例:這個藥讓我血壓變低了

6.產生/消耗資源,例:這個太費水了 

 

5.3 Aspect抽取

這個章節介紹了一些無監督的特徵抽取方式。第一種方法:

1.找到常出現的名詞/名詞短語:常出如今人們的評論中,經過計算這個aspect與entity/product class的PMI來肯定是否是個component.

2.經過分析aspect和opinion的關係找到不常見的aspect:經過人們的評價,來找到aspect

 CRF, HMM 也能夠被用在這裏。LDA等TOPIC modeling的方法也能夠用在這裏[zm在中文短文本上作了實驗,效果不怎麼樣]

 

5.4 同時作意見詞擴充與aspect抽取

經過探索句法特徵來同時處理以上兩項任務,主要分爲如下四個分任務

1. 用opinion word抽取aspect

2. 用已得aspect抽取更多aspect

3.用額外得到的aspect抽取opinion word

4. 用已有的全部opinion word從新擴展opinion word

好玩,主要是用dependency grammar來解決問題

 

[zm 如下不太感興趣,今天不看了]

6. 挖掘比較觀點

7. 其餘問題(entity/holder/extraction 抽取/grouping)

8. 垃圾觀點檢測

 

這篇文章對問題的闡述,定義,比較清晰。方法講的很少,可是問題分析很細緻。

 

Good Representation for  Academic Writing:

 

The task is technically challenging and practically very useful.

Proliferation[增殖] of diverse sites.

Decipher the opinionated text

Research has been done in academia[學術界]

A unified framework

Two terms are used interchangeably.

Quintuple[五部分的]

Opinion, Alligation[陳述], Desire, Belief, Suspicious, Speculation[推斷]

Opinion quintuples defined above provide an excellent source of information for generating both qualitative and quantitative summaries.

Some side is crucial

Concise[精確,簡練]

Opinion orientation

engineer an effective set of features.

Be instrumental to [積極的,有幫助的]

Two Consecutive[連續的] words

相關文章
相關標籤/搜索