本篇綜述主要參考了Liu Bing的《Sentiment analysis and opinion mining》,增長了一些本身的觀點。web
Liu B. Sentiment analysis and opinion mining[J]. Synthesis Lectures on Human Language Technologies, 2012, 5(1): 1-167.算法
摘要
近年來微博等用戶自媒體的爆炸式增加,使得利用計算機挖掘網民意見不但變得可行,並且變得必須。這其中很重要的一項任務就是挖掘網民意見所討論的對象,即評價對象。本文概覽了目前主流的提取技術,包括名詞短語的頻繁項挖掘、評價詞的映射、監督學習方法以及主題模型方法。目前抽取的問題在於中文自己的特性、大數據等。express
引言
隨着互聯網信息的不斷增加,以往的信息缺少消失了。但海量的數據形成的後果是,人們愈來愈渴望能在快速地在數據汪洋中尋找屬於本身的一滴水,新的信息缺少誕生。對於電子商務來講,消費者但願能從衆多的商品評論得到對商品的認識,進而決定是否購買,商家則但願從評論中得到市場對商品的見解,從而更好地適應用戶的需求。相似的狀況相繼出如今博客、微博、論壇等網絡信息聚合地。爲了解決信息過載與缺少的矛盾,人們初期手動地對網上海量而豐富的資源進行收集和處理,但瞬息萬變的網民意見,突發的話題爆發很快讓人手捉襟見肘。工程師們慢慢將開始利用計算機自動地對網絡信息進行處理,意見挖掘由此應運而生。目前意見挖掘主要的研究對象是互聯網上的海量文本信息,主要的任務包括網絡文本的情感極性判別、評價對象抽取、意見摘要等。近年來,機器學習的發展讓人們看到了意見挖掘的新但願。意見挖掘的智能化程度正在逐步提升。網絡
評價對象(Opinion Targets)是指某段評論中所討論的主題,具體表現爲評論文本中評價詞語所修飾的對象。如新聞評論中的某我的物、事件、話題,產品評論中某種產品的組件、功能、服務,電影評論中的劇本、特技、演員等。因爲蘊含着極大的商業價值,因此現有的研究大部分集中於產品領域的評價對象的抽取,他們大多將評價對象限定在名詞或名詞短語的範疇內,進而對它們做進一步的識別。評價對象抽取是細粒度的情感分析任務,評價對象是情感分析中情感信息的一個重要組成部分。並且,這項研究的開展有助於爲上層情感分析任務提供服務。於是評價對象抽取也就成爲某些應用系統的必備組件,例如:app
- 觀點問答系統,例如就某個實體X,須要回答諸如「人們喜不喜歡X的哪些方面?」這樣的問題。
- 推薦系統,例如系統須要推薦那些在某個屬性上得到較好評價的產品。
- 觀點總結系統,例如用戶須要分別查看對某個實體X就某個方面Y的正面和負面評價。如圖1所示爲淘寶上某秋季女裝的評價頁面的標籤。
圖1:淘寶新款秋季女裝的評價簡述。其中「款式」、「材質」和「顏色」就是評價對象,紅色表示對女裝的正面評價,靛色表示負面評價。dom
這些任務的一個公共之處是,系統必須可以識別評論文本討論的主題,即評價對象。評價對象做爲意見挖掘的一個基本單元,一直是天然語言處理的熱點。文章接下來將討論評價對象抽取的研究現狀。首先從名詞的頻率統計出發,闡述抽取評價對象的早期方法,而後在考慮評價對象與評價詞的關係的基礎上,討論如何利用評價詞發現已經出現和隱藏的評價對象、接着敘述經典的監督學習方法(隱馬爾可夫方法和條件隨機場)的優劣,最後詳述了主題模型在評價對象抽取上的應用和展示。機器學習
研究現狀
評價對象抽取屬於信息抽取的範疇,是將非結構文本轉換爲結構化數據的一種技術。目前評價對象的抽取主要用於網絡文本的意見挖掘。長如博客,短如微博均可以做爲評價對象的抽取對象。在特定的情感分析環境下,所抽取的文本所處的領域每每能簡化抽取的難度。一個最重要的特徵就是文本中的名詞。提取文本所描述的評價對象,並進一步地提取與評價對象相關的評價詞,對於文本的自動摘要、概括和呈現都有很是重要的意義。但須要注意的是評價詞與評價對象的提取並無什麼前後關係,因爲評價詞與評價對象的種種聯繫。實踐中每每會利用評價對象與評價詞之間的特定映射來抽取信息。例如「這輛車很貴」中的「貴」是一個評價詞(情感詞),其評價的對象是車的價格。「貴」和「便宜」每每是用來描述商品的價格的。即便文本中沒有出現「價格」,但依然能夠判斷其修飾的評價對象。第2小節將着重討論這類隱式評價對象。前四節則探討如何挖掘在文本中已經出現的評價對象。主流的方法有四種,分別是名詞挖掘、評價詞與對象的關聯、監督學習方法和主題模型。ide
從頻繁的名詞開始
經過對大量商品評論的觀察,能夠粗略地發現評價對象大都是名詞或者名詞短語。Hu和Liu(2004)從某一領域的大量語料出發,先進行詞性標記獲得語料中的名詞,再使用Apriori算法來發現評價對象。其具體步驟以下:工具
- 對句子進行詞性標註,保留名詞,去掉其它詞性的詞語。每一個句子組成一個事務,用於第二步進行關聯發現;
- 使用Apriori算法找出長度不超過3的頻繁詞集;
- 進行詞集剪枝,去除稀疏和冗餘的詞集:
- 稀疏剪枝:在某一包含頻繁詞集f的句子s中,設順序出現的詞分別爲,若任意兩個相鄰的詞的距離不超過3,那麼就稱f在這一句子s中是緊湊的。若f至少在兩條句子中是緊湊的,那麼f就是緊湊的頻繁詞集。稀疏剪枝便是去除全部非緊湊的頻繁詞集;
- 冗餘剪枝:設只包含頻繁詞集f,不包含f的超集的句子數目是頻繁詞集的p支持度。冗餘剪枝會將p支持度小於最小p支持度的頻繁詞集去除。
這一方法儘管簡單,但卻很是有效。其緣由在於人們對某一實體進行評價時,其所用詞彙是有限的,或者收斂的,那麼那些常常被談論的名詞一般就是較好的評價對象。Popescu和Etzioni(2005)經過進一步過濾名詞短語使算法的準確率獲得了提升。他們是經過計算名詞短語與所要抽取評價對象的分類的點間互信息(Point Mutual Information,PMI)來評價名詞短語。例如要在手機評價中抽取對象,找到了「屏幕」短語。屏幕是手機的一部分,屬於手機分類,與手機的關係是部分與總體的關係。網絡評論中經常會出現諸如「手機的屏幕...」、「手機有一個5寸的屏幕」等文本結構。Popescu和Etzioni經過在網絡中搜索這類結構來肯定名詞短語與某一分類的PMI,繼而過濾PMI較低的名詞短語。PMI公式以下:學習
$$ PMI(a,d) = \frac{hit(a \wedge d)}{ hit(a) hit(d)} $$
,其中a是經過Apriori算法發現的頻繁名詞短語,而d是a所在的分類。這樣若是頻繁名詞短語的PMI值太小,那麼就可能不是這一領域的評價對象。例如「線頭」和「手機」就可能不頻繁同時出現。Popescu和Etzioni還使用WordNet中的is-a層次結構和名詞後綴(例如iness、ity)來分辨名詞短語與分類的關係。
Blair-Goldensohn等人(2008)着重考慮了那些頻繁出如今主觀句的名詞短語(包括名詞)。例如,在還原詞根的基礎上,統計全部已發現的名詞短語出如今主觀句頻率,並對不一樣的主觀句標以不一樣的權重,主觀性越強,權重越大,再使用自定義的公式對名詞短語進行權重排序,僅抽取權重較高的名詞短語。
能夠發現衆多策略的本質在於統計頻率。Ku等人(2006)在段落和文檔層面上分別計算詞彙的TF-IDF,進而提取評價對象。Scaffidi等人(2007)經過比較名詞短語在某一評論語料中出現的頻率與在普通英文語料中的不一樣辨別真正有價值的評價對象。Zhu等人(2009)先經過Cvalue度量找出由多個詞組成的評價對象,創建候選評價對象集,再從評價對象種子集出發,計算每一個候選評價對象中的詞的共現頻率,接着不斷應用Bootstrapping方法挑選候選評價對象。Cvalue度量考慮了多詞短語t的頻率f(t)、長度|t|以及包含t的其它短語集合$T_t$。計算公式以下:
$$ C-value(t) = \log_2 |t| \left( f(t) - \frac{1}{T_t} \sum_{b \in T_t} f(b) \right)$$
評價詞與對象的關係
評價對象與評價意見每每是相互聯繫的。它們之間的聯繫能夠被用於抽取評價對象。例如情感詞能夠被用於描述或修飾不一樣的評價對象。若是一條句子沒有頻繁出現的評價對象,但卻有一些情感詞,那麼與情感詞相近的名詞或名詞短語就有多是評價對象。Hu和Liu(2004)就使用這一方法來提取非頻繁的評價對象,Blair-Goldenshohn等人(2008)基於情感模式也使用類似的方法。
圖2:利用評價詞發現評價對象,甚至是隱藏的評價對象
舉例來講,「這個軟件真有趣!」因爲「有趣」是一個情感詞,因此「軟件」即被抽取做爲評價對象。這一方法經常被用於發現評論中重要或關鍵的評價對象,由於若是一個評價對象不被人評價或者闡述觀點,那麼它也就不大多是重要的評價對象了。在Hu和Liu(2004)中定義了兩種評價對象:顯式評價對象和隱式評價對象。Hu和Liu將名詞和名詞短語做爲顯式評價對象,例如「這臺相機的圖像質量很是不錯!」中的「圖像質量」,而將全部其它的代表評價對象的短語稱爲隱式評價對象,這類對象須要藉由評價詞進行反向推導。形容詞和動詞就是最多見的兩種推導對象。大多數形容詞和動詞都在描述實體屬性的某一方面,例如「這臺相機是有點貴,但拍得很清晰。」「貴」描述的是「價格」,「拍」和「清晰」描述的是「圖像質量」。但這類評價對象在評論中並無出現,它隱含在上下文中。
圖3:依存句法示例
若是評價詞所對應的評價對象出如今評論中,評價詞與評價對象之間每每存在着依存關係。Zhuang等人(2006)、Koaryashi等人(2006)、Somasundaran和Wiebe(2009)、Kessler和Nicolov(2009)經過解析句子的依存關係以肯定評價詞修飾的對象。Qiu等人(2011)進一步將這種方法泛化雙傳播方法(double-propagation),同時提取評價對象和評價詞。注意到評價對象多是名詞或動詞短語,而不僅是單個詞,Wu等人(2009)經過句子中短語的依存關係來尋找候選評價對象,再而後經過語言模型過濾評價對象。
儘管顯式評價對象已經被普遍地研究了,但如何將隱式評價對象映射到顯式評價對象仍缺少探討。Su等人(2008)提出一種聚類方法來映射由情感詞或其短語表達的隱式評價對象。這一方法是經過顯式評價對象與情感詞在某一句子中的共現關係來發現二者的映射。Hai等人(2011)分兩步對共同出現的情感詞和顯式評價對象的關聯規則進行挖掘。第一步以情感詞和顯式評價對象的共現頻率爲基礎,生成以情感詞爲條件,以顯式評價對象爲結果的關聯規則。第二步對關聯規則進行聚類產生更加魯棒的關聯規則。
監督學習方法
評價對象的抽取能夠看做是信息抽取問題中的一個特例。信息抽取的研究提出了不少監督學習算法。其中主流的方法根植於序列學習(Sequential Learning,或者Sequential Labeling)。因爲這些方法是監督學習技術,因此事先須要有標記數據進行訓練。目前最好的序列學習算法是隱馬爾可夫模型(Hidden Markov Model,HMM)和條件隨機場(Conditional Random Field,CRF)。Jin和Ho等人使用詞彙化的HMM模型來學習抽取評價對象和評價詞的模式。Jakob和Gurevych則在不一樣領域上進行CRF訓練,以得到更加領域獨立的模式,其使用的特徵有詞性、依存句法、句距和意見句。Li等人(2010)整合了Skip-CRF和Tree-CRF來提取評價對象,這兩種CRF的特色在於其既能學習詞序列,也能發現結構特徵。除了這兩種主流的序列標註技術外。Kobayashi等人(2007)先使用依賴樹發現候選評價對象和評價詞對,接着使用樹狀分類方法去學習這些候選對,並對其分類。分類的結果就在於判斷候選對中的評價對象與評價詞是否存在評價關係。分類所依據的特徵包括上下文線索、共現頻率等。Yu等人(2011)使用單類SVM(one-class SVM,Manevitz和Yousef,2002)這一部分監督學習方法來提取評價對象。單類SVM的特色在於其訓練所需的樣本只用標註某一類便可。他們還對類似的評價對象進行了聚類,並根據出現的頻率和對評論評分的貢獻進行排序,取得較優質的評價對象。Kovelamudi等人(2011)在監督學習的過程當中加入了維基百科的信息。
圖4:評價對象標註示例,進而可用於序列學習
雖然監督學習在訓練數據充足的狀況下能夠取得較好的結果,但其未獲得普遍應用的緣由也在於此。在當前互聯網信息與日俱增的狀況下,新出現的信息可能還將來得及進行人工標記成爲訓練語料,就已通過時了。而以前標記過的語料又將以愈來愈快的速度被淘汰。儘管不斷涌現出各類半監督學習方法試圖彌補這一缺憾,但從種子集開始的遞增迭代學習會在大量訓練後出現誤差,然後期的人工糾偏和調整又是須要大量的工做,且維護不易。有鑑於此,雖然學術界對在評價對象抽取任務上使用監督學習方法褒貶不一,但在工業界的實現成果卻不大。
主題模型(Topic Model)
近年來,統計主題模型逐漸成爲海量文檔主題發現的主流方法。主題建模是一種非監督學習方法,它假設每一個文檔都由若干個主題構成,每一個主題都是在詞上的機率分佈,最後輸出詞簇的集合,每一個詞簇表明一個主題,是文檔集合中詞的機率分佈。一個主題模型一般是一個文檔生成機率模型。目前主流的主題模型有兩種:機率潛在語義模型(Probabilistic Latent Semantic Analysis,PLSA)和潛在狄利克雷分配(Latent Dirichlet Allocation,LDA)。Mei等人(2007)提出了一種基於pLSA的聯合模型以進行情感分析,這一模型的特色在因而衆多模型的混合,包括主題模型,正面情感模型和負面情感模型。如此多的模型天然是須要較多數據進行學習。這以後的其它模型大可能是利用LDA挖掘評價對象。
圖5:LDA示例
從技術上講,主題模型是基於貝葉斯網絡的圖模型。但卻能夠被擴展用於建模多種信息。在情感分析中,因爲每種意見都包含一個評價對象,那麼就可使用主題模型進行建模。但主題與評價對象仍是有些不一樣的,主題同時包含了評價對象和情感詞。就情感分析來講須要被分割這二者。這能夠經過同時對評價對象和情感詞建模來完成。還需注意的是主題模型不只能發現評價對象,還能對評價對象進行聚類。
Titov和McDonald(2008)開始發現將LDA直接應用全局數據可能並不適用於識別評價對象。其緣由在於LDA依靠文檔中詞共現程度和主題分佈的不一樣來發現主題及其詞機率分佈。然而,某一商品下的評論每每都是同質的,也就是都是在討論同一個商品,這使得主題模型在挖掘評價對象上表現很差,僅能在發現實體上發揮些餘熱(不一樣品牌和產品名稱)。Titov和McDonald所以提出了多粒度主題模型。在全局數據上利用主題模型發現討論實體,與此同時也將主題模型應於文檔中的連續的數條句子。發現獲得的某一類評價對象其實是一個一元語言模型,即詞的多項分佈。描述相同評價對象的不一樣詞被自動聚類。然而這一方法並無將其中的評價詞(情感詞)加以分離。
經過擴展LDA,Lin和He(2009)提出了一個主題和情感詞的聯合模型,但仍未顯式地分開評價對象和評價詞。Brody和Elhadad(2010)認爲能夠先使用主題模型識別出評價對象,再考慮與評價對象相關的形容詞做爲評價詞。Li等人(2010)爲了發現評價對象及其褒貶評價詞,提出了Sentiment-LDA和Dpeendency-sentiment-LDA兩種聯合模型,但既沒有獨立發現評價對象,也沒有將評價對象與評價詞分開。Zhao等人(2010)提出MaxEnt-LDA(Maximum Entrpy LDA)來爲評價對象和評價詞聯合建模,並使用句法特徵輔助分離二者。他們使用多項分佈的指示變量來分辨評價對象、評價詞和背景詞(即評價對象和評價詞之外的詞),指示變量使用最大熵模型來訓練其參數。Sauper等人(2011)則試圖經過加入HMM模型達到區分評價對象、評價詞和背景詞的目的。但他們只應用在文本的短片斷裏。這些短片斷是從評價論中抽取出的,例如「這電池正是我想要的」。這與Griffiths等(2005)於2005年提出的HMM-LDA很有殊途同歸之妙。Mukherjee和Liu(2012)從用戶提供的評價對象種子集開始,應用半監督聯合模型不斷迭代,產生貼近用戶須要的評價對象。聯合模型的其它改進見於Liu等人(2007),Lu和Zhai(2008)和Jo和Oh(2011)。
在數據量巨大的狀況下,抽取獲得的評價對象每每也比較多。爲了發現較爲重要的評價對象,Titov和McDonald(2008)在從評論中找出評價對象的同時,還預測用戶對評價對象的評價等級,而且抽取部分片斷做爲等級參考。Lu等人(2009)利用結構pLSA對短文本中各短語的依賴結構進行建模,並結合短評論的評價等級預測評論對象的評價等級。Lakkaraju等人在HMM-LDA(Griffiths等人,2005)的基礎上提出了一系列同時兼顧在詞序列和詞袋的聯合模型,其特色在於能發現潛在的評價對象。他們與Sauper等人(2011)同樣都考慮了句法結構和語義依賴。一樣利用聯合模型發現和整理評價對象,並預測評價等級的還有Moghaddam和Ester(2011)。
在實際應用中,主題模型的某些缺點限制了它在實際情感分析中的應用。其中最主要的緣由在於它須要海量的數據和屢次的參數微調,才能獲得合理的結果。另外,大多數主題模型使用Gibbs採樣方法,因爲使用了馬爾可夫鏈蒙特卡羅方法,其每次運行結果都是不同的。主題模型能輕易地找到在海量文檔下頻繁出現的主題或評價對象,但卻很難發現那些在局部文檔中頻繁出現的評價對象。而這些局部頻繁的評價對象卻每每可能與某一實體相關。對於普通的全局頻繁的評價對象,使用統計頻率的方法更容易得到,並且還能夠在不須要海量數據的狀況下發現不頻繁的評價對象。也就是說,當前的主題建模技術對於實際的情感分析應用還不夠成熟。主題模型更適用於獲取文檔集合中更高層次的信息。儘管如此,研究者們對主題建模這一強大且擴展性強的建模工具仍抱有很大指望,不斷探索着。其中一個努力的方向是將天然語言知識和領域知識整合進主題模型(Andrzejewski和Zhu,2009;Andrejewski等人,2009;Mukherjee和Liu,2012;Zhai等人,2011)。這一方向的研究目前還過於依賴於統計而且有各自的侷限性。將來還須要在各種各領域知識間作出權衡。
其餘方法
除了以上所談的主流方法外,某些研究人員還在其它方法作了嘗試。Yi等人(2003)使用混合語言模型和機率比率來抽取產品的評價對象。Ma和Wan(2010)使用中心化理論和非監督學習。Meng和Wang(2009)從結構化的產品說明中提取評價對象。Kim和Hovy(2006)使用語義角色標註。Stoyanov和Cardie(2008)利用了指代消解。
總結
大數據時代的到來不只給機器學習帶來了史無前例的機遇,也帶來了實現和評估上的各類挑戰。評價對象抽取的任務在研究初期經過名詞的頻率統計就能大體獲得不錯的效果,即便是隱含的對象也能經過評價詞的映射大體摸索出來,但隨着比重愈來愈大的用戶產生的文本愈來愈口語化,傳統的中文分詞與句法分析等技術所起到的做用將逐漸變小,時代呼喚着更深層次的語義理解。諸如隱馬爾可夫和條件隨機場這樣監督學習方法開始被研究者們應用到評價對象的抽取上,在訓練數據集充足的狀況下,也的確取得了較好的效果。然而僅靠人工標註數據是沒法跟上當前互聯網上海量的文本數據,像LDA這樣擴展性好的無監督方法愈來愈受到人們的關注。但LDA目前還存在着參數多,結果不穩定等短板,並且徹底的無監督方法也沒法適應各類千差萬別的應用背景下。展望將來,人們但願能誕生對文本——這一人造抽象數據——深度理解的基礎技術,或許時下火熱的深度學習(Deep Learning)就是其中一個突破點。
參考文獻
- Hu M, Liu B. Mining and summarizing customer reviews[C]//Proceedings of the tenth ACM SIGKDD international conference on Knowledge discovery and data mining. ACM, 2004: 168-177.
- Popescu A M, Etzioni O. Extracting product features and opinions from reviews[M]//Natural language processing and text mining. Springer London, 2007: 9-28.
- Blair-Goldensohn S, Hannan K, McDonald R, et al. Building a sentiment summarizer for local service reviews[C]//WWW Workshop on NLP in the Information Explosion Era. 2008.
- Ku L W, Liang Y T, Chen H H. Opinion Extraction, Summarization and Tracking in News and Blog Corpora[C]//AAAI Spring Symposium: Computational Approaches to Analyzing Weblogs. 2006: 100-107.
- Scaffidi C, Bierhoff K, Chang E, et al. Red Opal: product-feature scoring from reviews[C]//Proceedings of the 8th ACM conference on Electronic commerce. ACM, 2007: 182-191.
- Zhu J, Wang H, Tsou B K, et al. Multi-aspect opinion polling from textual reviews[C]//Proceedings of the 18th ACM conference on Information and knowledge management. ACM, 2009: 1799-1802.
- Zhuang L, Jing F, Zhu X Y. Movie review mining and summarization[C]//Proceedings of the 15th ACM international conference on Information and knowledge management. ACM, 2006: 43-50.
- Kobayashi N, Iida R, Inui K, et al. Opinion Mining on the Web by Extracting Subject-Aspect-Evaluation Relations[C]//Proceedings of AAAI Spring Sympoia on Computational Approaches to Analyzing Weblogs. AAAI-CAAW, 2006.
- Somasundaran S, Wiebe J. Recognizing stances in online debates[C]//Proceedings of the Joint Conference of the 47th Annual Meeting of the ACL and the 4th International Joint Conference on Natural Language Processing of the AFNLP: Volume 1-Volume 1. Association for Computational Linguistics, 2009: 226-234.
- Kessler J S, Nicolov N. Targeting Sentiment Expressions through Supervised Ranking of Linguistic Configurations[C]//ICWSM. 2009.
- Qiu G, Liu B, Bu J, et al. Opinion word expansion and target extraction through double propagation[J]. Computational linguistics, 2011, 37(1): 9-27.
- Wu Y, Zhang Q, Huang X, et al. Phrase dependency parsing for opinion mining[C]//Proceedings of the 2009 Conference on Empirical Methods in Natural Language Processing: Volume 3-Volume 3. Association for Computational Linguistics, 2009: 1533-1541.
- Su F, Markert K. From words to senses: a case study of subjectivity recognition[C]//Proceedings of the 22nd International Conference on Computational Linguistics-Volume 1. Association for Computational Linguistics, 2008: 825-832.
- Hai Z, Chang K, Kim J. Implicit feature identification via co-occurrence association rule mining[M]//Computational Linguistics and Intelligent Text Processing. Springer Berlin Heidelberg, 2011: 393-404.
- Jin W, Ho H H, Srihari R K. A novel lexicalized HMM-based learning framework for web opinion mining[C]//Proceedings of the 26th Annual International Conference on Machine Learning. 2009: 465-472.
- Jakob N, Gurevych I. Extracting opinion targets in a single-and cross-domain setting with conditional random fields[C]//Proceedings of the 2010 Conference on Empirical Methods in Natural Language Processing. Association for Computational Linguistics, 2010: 1035-1045.
- Li F, Han C, Huang M, et al. Structure-aware review mining and summarization[C]//Proceedings of the 23rd International Conference on Computational Linguistics. Association for Computational Linguistics, 2010: 653-661.
- Kobayashi N, Inui K, Matsumoto Y. Extracting Aspect-Evaluation and Aspect-Of Relations in Opinion Mining[C]//EMNLP-CoNLL. 2007: 1065-1074.
- Yu J, Zha Z J, Wang M, et al. Domain-assisted product aspect hierarchy generation: towards hierarchical organization of unstructured consumer reviews[C]//Proceedings of the Conference on Empirical Methods in Natural Language Processing. Association for Computational Linguistics, 2011: 140-150.
- Manevitz L M, Yousef M. One-class SVMs for document classification[J]. The Journal of Machine Learning Research, 2002, 2: 139-154.
- Kovelamudi S, Ramalingam S, Sood A, et al. Domain Independent Model for Product Attribute Extraction from User Reviews using Wikipedia[C]//IJCNLP. 2011: 1408-1412.
- Hofmann T. Probabilistic latent semantic indexing[C]//Proceedings of the 22nd annual international ACM SIGIR conference on Research and development in information retrieval. ACM, 1999: 50-57.
- Blei D M, Ng A Y, Jordan M I. Latent dirichlet allocation[J]. the Journal of machine Learning research, 2003, 3: 993-1022.
- Mei Q, Ling X, Wondra M, et al. Topic sentiment mixture: modeling facets and opinions in weblogs[C]//Proceedings of the 16th international conference on World Wide Web. ACM, 2007: 171-180.
- Titov I, McDonald R. Modeling online reviews with multi-grain topic models[C]//Proceedings of the 17th international conference on World Wide Web. ACM, 2008: 111-120.
- Lin C, He Y. Joint sentiment/topic model for sentiment analysis[C]//Proceedings of the 18th ACM conference on Information and knowledge management. ACM, 2009: 375-384.
- Brody S, Elhadad N. An unsupervised aspect-sentiment model for online reviews[C]//Human Language Technologies: The 2010 Annual Conference of the North American Chapter of the Association for Computational Linguistics. Association for Computational Linguistics, 2010: 804-812.
- Li F, Huang M, Zhu X. Sentiment Analysis with Global Topics and Local Dependency[C]//AAAI. 2010.
- Zhao W X, Jiang J, Yan H, et al. Jointly modeling aspects and opinions with a MaxEnt-LDA hybrid[C]//Proceedings of the 2010 Conference on Empirical Methods in Natural Language Processing. Association for Computational Linguistics, 2010: 56-65.
- Sauper C, Haghighi A, Barzilay R. Content models with attitude[C]. Association for Computational Linguistics, 2011.
- Griffiths T L, Steyvers M, Blei D M, et al. Integrating topics and syntax[C]//Advances in neural information processing systems. 2004: 537-544.
- Mukherjee A, Liu B. Aspect extraction through semi-supervised modeling[C]//Proceedings of the 50th Annual Meeting of the Association for Computational Linguistics: Long Papers-Volume 1. Association for Computational Linguistics, 2012: 339-348.
- Liu Y, Huang X, An A, et al. ARSA: a sentiment-aware model for predicting sales performance using blogs[C]//Proceedings of the 30th annual international ACM SIGIR conference on Research and development in information retrieval. ACM, 2007: 607-614.
- Lu Y, Zhai C. Opinion integration through semi-supervised topic modeling[C]//Proceedings of the 17th international conference on World Wide Web. ACM, 2008: 121-130.
- Jo Y, Oh A H. Aspect and sentiment unification model for online review analysis[C]//Proceedings of the fourth ACM international conference on Web search and data mining. ACM, 2011: 815-824.
- Lu Y, Zhai C X, Sundaresan N. Rated aspect summarization of short comments[C]//Proceedings of the 18th international conference on World wide web. ACM, 2009: 131-140.
- Lakkaraju H, Bhattacharyya C, Bhattacharya I, et al. Exploiting coherence for the simultaneous discovery of latent facets and associated sentiments[J]. 2011.
- Moghaddam S, Ester M. Opinion digger: an unsupervised opinion miner from unstructured product reviews[C]//Proceedings of the 19th ACM international conference on Information and knowledge management. ACM, 2010: 1825-1828.
- Andrzejewski D, Zhu X. Latent Dirichlet Allocation with topic-in-set knowledge[C]//Proceedings of the NAACL HLT 2009 Workshop on Semi-Supervised Learning for Natural Language Processing. Association for Computational Linguistics, 2009: 43-48.
- Andrzejewski D, Zhu X, Craven M. Incorporating domain knowledge into topic modeling via Dirichlet forest priors[C]//Proceedings of the 26th Annual International Conference on Machine Learning. ACM, 2009: 25-32.
- Zhai Z, Liu B, Xu H, et al. Constrained LDA for grouping product features in opinion mining[M]//Advances in knowledge discovery and data mining. Springer Berlin Heidelberg, 2011: 448-459.
- Yi J, Nasukawa T, Bunescu R, et al. Sentiment analyzer: Extracting sentiments about a given topic using natural language processing techniques[C]//Data Mining, 2003. ICDM 2003. Third IEEE International Conference on. IEEE, 2003: 427-434.
- Ma T, Wan X. Opinion target extraction in Chinese news comments[C]//Proceedings of the 23rd International Conference on Computational Linguistics: Posters. Association for Computational Linguistics, 2010: 782-790.
- Meng X, Wang H. Mining user reviews: from specification to summarization[C]//Proceedings of the ACL-IJCNLP 2009 Conference Short Papers. Association for Computational Linguistics, 2009: 177-180.
- Kim S M, Hovy E. Extracting opinions, opinion holders, and topics expressed in online news media text[C]//Proceedings of the Workshop on Sentiment and Subjectivity in Text. Association for Computational Linguistics, 2006: 1-8.
- Stoyanov V, Cardie C. Topic identification for fine-grained opinion analysis[C]//Proceedings of the 22nd International Conference on Computational Linguistics-Volume 1. Association for Computational Linguistics, 2008: 817-824.