微博情感分析(三)

接着上一篇的撒~算法

上一篇提到了微博的幾個特色,下面繼續說一下微博的第三個特色:
(3)表達情感強烈而理性評價淡化
因爲傳播空間的相對自由和匿名評論的相對隱祕,於是網友在表達觀點時會採用一些比較極端和激烈的形式,又因微博字數的限制,沒法以邏輯鮮明的論述方式進行理性表達,因此在話題型微博中,觀點句的表達每每感情色彩強烈,而理性評價淡化,髒話、粗話等表現力強的不雅語彙大量出現,這也成爲話題型微博觀點句在表達情感和態度時一種較普遍的表達方式。
匿名評論是網絡最大的市場之一。爲何社交網絡這麼流行?我認爲很大一部分程度是由於咱們能夠沒有太大顧忌的在網絡上隨便說點什麼。如今的社會生活壓力太大,不少人沒法也不肯將本身的內心話隨便說出來。因此匿名網絡的出現直接知足了咱們的需求。可是由於能夠隨意的說點什麼,因此網絡上就多了好多不應說並且又極端的內容。固然這是站在社會一員的角度來講的。反過來看,若是咱們做爲分析者來看的話,這種極端而又激烈的表達方式偏偏反映出了用戶的真實情感。所謂情感的程度,就是情感的極端性,越富有情感色彩的話語,越會極端。好比:我愛你。很深入的一句話,爲何?由於這句話徹底表達了戀人之間的情感——我喜歡你到了極致。這就是一種極端。因此,雖然微博存在了字數限制,可是在網友強大的造詞能力下,這個問題就不是問題了。
(4)口語色彩濃重,情感因子顆粒度加大
微博雖然用的是書面形式,但交際的實時性、互動性,使得它具備濃重的口語色彩,人們每每會使用一些口語化詞語把本身心裏的真實感覺直接表達出來,體現句子觀點的情感因子顆粒度加大,每每再也不是詞,而是短語。
這是在構建情感詞典時全部考慮的問題了。情感詞典只是針對於詞彙,但對於口語等平常用語來說,詞並不徹底是詞,字並不徹底是字,甚至句子都不徹底是句子。好比:你幾點吃飯?——再說吧。什麼叫再說吧?什麼再說吧?再怎麼說吧?爲何要說吧?因此根本無法進行分詞後進行斷定。這個時候,創建一個包含最新詞彙的情感短語字典就顯得很重要了。
(5)隱晦表達觀點
在話題型微博中,除了用一些很「給力」的詞語明確表達觀點外,人們還會採用一種隱晦的、非直接的方式,以言外之意表達觀點。如:
<1>#食用油漲價#我能夠說髒話嗎?
這是一個疑問句,字面上看沒有表達任何觀點,然而在「食用油漲價」這一語境下,能夠理解爲說話者表達的是一種想用說髒話來發泄的衝動,於是也就間接地表達了對話題不滿的情緒和貶斥的態度。
<2>#三亞春節宰客#當地的政府部門這麼作的用意是什麼? 掩耳盜鈴? 越抹越黑? 仍是讓遊客永遠不去三亞? 應該去測測智商了!「
應該去測測智商」表達了說話者對「當地政府部門」的不滿。
對這種問題分析,標籤的做用就很大了。首先要分析出標籤內容是不是消極的,而後去找評論中的消極詞彙,若是評論根據算法得出是消極的,那麼纔是消極的。好比第一個,實用油漲價,對全部評論分析後得出這是個對大衆消極的事件。然後評論者說他想說髒話,對誰說呢?對標籤內容說。因此」對食用油漲價說髒話「這句話是一個消極的了。
(6)評價對象省略
因爲話題型微博的話題標籤與文本存在着密切的關聯,網友在發佈微博時,每每能夠直接對整個話題或話題的某一部分進行評價和表達態度,於是標籤或者標籤的一部分甚至標籤外事物也就成爲了評價對象。因此,話題型微博的評價對象常在文本中省略,觀點句更加短小精悍,甚至短小到一個短語、一個詞,也能夠被人理解,不會形成傳播上的歧義。如:
<1>#菲軍艦惡意撞擊#抗議!
<2>#菲軍艦惡意撞擊#真可惡
上面這些觀點句都缺省了評價對象,在表達評價時只用了極簡短的話語,但讀者仍然可以理解它們評價的對象:<1>的評價對象是整個標籤「菲軍艦惡意撞擊」這件事,<2>是標籤中的「菲軍艦」。爲何咱們理解這句話的意思?是由於標籤。標籤的做用在這裏無所替代,第一句中,標籤內容是賓語,第二句是主語。也就是:抗議菲軍艦惡意撞擊、菲軍艦惡意撞擊真可惡。
(7)語言不夠規範
微博中含有大量非規範性的語言文字,也是話題型微博語言的一個特色。這種非規範性可能有幾個方面的緣由:一方面,是非人爲的緣由形成的輸入失誤或常識上的漢字書寫錯誤;另外一方面,微博表達自由,加之敏感話題在法律上的限制,會人爲地加入一些噪聲、非規範詞、非規範符號和非規範語言格式。例如:
<1>#瘋狂的大蔥#找點空閒,找點時間! 帶着錢包常去 http://***********淘寶小店去看看!
<2>#假和尚摟女子#真TM不要 Face。
例<1>加入網站連接等噪聲;例<2>中英文混用,TM 是「他媽」的拼音縮寫,不要 Face 是「不要臉」;
這也是咱們大多數網友的習慣了,我認爲這是一件好事,說話真的未必非要侷限於一種語言。每一種語言都有本身的特色,頗有可能一種語言能表達出其餘語言所表達不出的含義,甚至兩種語言結合也可能會表達出徹底不一樣的含義。好比第二句雖然與「真他媽不要臉」的語義徹底相同,但表達的程度是不同的。第二句中加入了英文,反映了做者並不想出口髒話,可是「假和尚摟女子」這件事情引發了評論者的強烈不滿,既能表達情感,又不想說髒話,這就是兩種語言相結合的結果。
相關文章
相關標籤/搜索