twitter-LDA研究

開始扯淡

須要有LDA研究基礎的人看git

前面一部分有的是我寫論文的思路,能夠掠過。github

第一部分。
看了幾篇論文,原本想研究一下陳恩紅團隊所寫的和深度學習模型DSSM有關的那篇論文(Reading the Videos: Temporal Labeling for Crowdsourced
Time-Sync Videos Based on Semantic Embedding),可是後來宣一鳴指出文中一個很大的漏洞,詢問了做者,做者沒理解個人問題,仍在討論,暫時再也不研究。(詢問後已經證明想法,論文寫的有問題,可是總的思路沒錯)ide

後來是明白了,T-DSSM(也就是陳恩紅團隊的那篇論文)的思路沒有問題,並且還有點道理,下週準備實現一下。
大體的思路是經過T-DSSM將每一個tweet轉化成vector,而後經過DBSCAN聚類成26類(文章中作實驗得出26類比i較好),而後SVM分類(總的10類)。學習

第二部分我先來闡述一下爲何我不去在港科大的那篇文章上修改模型,其實我仔細想一想是能夠改的。ui

首先,港科大的關鍵公式是根據別人的公式修改來的。
圖片描述spa

原公式,(原來的模型叫作DMR,是Andrew McCallum發明的)設計

圖片描述

能夠發現這個公式其實和西塔矩陣是無關的,因此若是我須要加入JST的情感的l矩陣進來,最後的生成公式應該是能夠修改的。只是我仍然不太清楚是否是須要這樣去修改,是否是用戶評論都有情感極性,以及每條評論是否是有個情感極性?反正這個問題我想先放着,我再多看看別人的論文找找思路。3d

我認爲港科大的論文沒有去考慮稀疏性的問題,很難有什麼好的效果。code

我根據Twitter-LDA出發,找了好幾篇論文來拓展思路。其實Twitter和咱們的彈幕還不同,雖然都是短文本,可是他們更長並且在同一個時間段裏他們能夠是不少不少話題,由於量很大。orm

一開始直接找到了 Twitter-LDA在github上的項目:

項目中推薦了T-LDA的原創文章和使用其模型的幾篇文章:

[1] Aspect-Based Helpfulness Prediction for Online Product Reviews. Y Yang, C Chen, FS Bao, 2016 IEEE 28th International Conference on Tools with Artificial Intelligence (ICTAI), 2016. (http://ieeexplore.ieee.org/abstract/document/7814690/)

[2] It's Not What We Say But How We Say Them: LDA-based Behavior-Topic Model. Minghui Qiu, Feida Zhu and Jing Jiang. SDM'13.

[3] Finding bursty topics from microblogs. Qiming Diao, Jing Jiang, Feida Zhu and Ee-Peng Lim In Proceedings of the 50th Annual Meeting of the Association for Computational Linguistics, ACL'12.

[4] Topical keyphrase extraction from Twitter. [bib] Wayne Xin Zhao, Jing Jiang, Jing He, Yang Song, Palakorn Achanauparp, Ee-Peng Lim and Xiaoming Li In Proceedings of the 49th Annual Meeting of the Association for Computational Linguistics, ACL'11.
  • Twitter-LDA的原始論文是:

Comparing Twitter and Traditional Media Using
Topic Models

北京大學和新加坡管理大學聯合寫的,發表於ECIR,C類會議(歐洲的新成果的主要會議)

twitters緊湊,更新很快。twitter經常使用與傳播分享爆炸新聞,我的更新以及自發的想法。就咱們彈幕而言,通常來說咱們的片斷集中討論一個話題,而且這個話題大機率與當前視頻段的發生的事或是人物有關。

文中分析twitter的一些問題(我想這個分析可能對咱們的彈幕分析也是有點借鑑):

  1. Twitter 是否覆蓋和傳統的新聞媒體同樣的話題分類和種類。

  2. Twitter 中是否會有特殊存在的話題而新聞媒體中沒有,反之亦然。

  3. twitter 中是否是有某些特定的話題會吸引更多的看法(相較於傳統新聞)

  4. 在 twitter 中是否有特定的話題會出發更多的信息傳播。

    發現:
        (1)Twitter中的話題種類的個數和傳統新聞媒體差很少(不知道怎麼統計的),可是這些話題的分佈不一樣。
        (2)twitter用戶更加關注我的生活以及流行文化(相較於傳統新聞)
        (3)儘管twitter用戶不多發世界新聞,可是他們轉發。

這篇文章有個特別的地方,它定義 topic categories 和 topic types 是不一樣的東西。

文中定義了一個 topic categories 的集,說是在Fig3,可是我沒找到Fig3(無語),而後 topic types 定義了三種:event-oriented topics,entity-oriented
topics,long-standing topics

文中一個topic屬於一個 topic category 而且有個 topic type。

Twitter-LDA的大體思想其實很簡單,他從每一個用戶的角度上考慮,每一個用戶有個topic分佈矩陣,而後每個tweet的生成是根據這個矩陣選出來的topic再去選單詞,可是這裏有兩個矩陣,一個是背景單詞矩陣,一個是普通的,因此,造成了如下的生成模型。

圖片描述

文章實驗:

設置topic個數110個,而後分別在 standard-LDA,Author-topic,Twitter-LDA上實驗,最後結果讓人工(只叫了兩我的評分。。。)進行評判,有三個評分段位:1 (meaningful and coherent), 0.5 (con-taining multiple topics or noisy words), 0 (making no sense).

結果可想而知,TwitterLDA天然比較好,可是我以爲不必去糾結這個結果,覺得我認爲模型中心思想能夠借鑑。

圖片描述

如下花了大量的篇幅在對比傳統新聞媒體和Twitter在各類方面的區別,固然不是簡單的統計分析而是較爲高級的基於LDA的比較,這裏要提到文中收集了兩種數據集

圖片描述

給了個假設:若是一個topic在許多的文章中都是在一個category裏,那麼這個topic大機率就是在這個category裏,因而設計了一個公式

圖片描述

這就是爲了找出這個topic屬於哪個category的機率大。
而後,根據這個繼續想,一個有意義的topic最好是屬於一個category,若是出現一個topic屬於好幾個category的狀況,就應該是一個噪聲。因而設計了下面這個公式。

圖片描述

這樣下來,最後在NTY數據集上使用110個topic的LDA最終剩下83個。

和NTY不同,Twitter沒有category的label。因此,文章中這樣處理,找出這個topic和NTY獲得的topic中相近的,就認爲這個topic的category是NTY中相近的那個topic的category。不然,建立一個新的category或是認爲是噪音去除掉。怎麼比較相近,文章設計了一個公式。
圖片描述

最終收集到81個topic。

接下來還要給每一個topic分配一個屬於它的type。最終結果以下。

圖片描述

由於上面都整理完了,因此下面進行了一些數據上的分析,經過分析回答以前提出的問題,雖然和咱們不同,可是我以爲仍是挺有意思並且搞很差能有借鑑意義,仍是稍微講一下。

首先是category分佈上比較差很少,可是每一個category的比例很不同,這個其實很容易理解,twitter這種地方更喜歡一些爆炸性新聞以及我的有關的事情。而在NTY這種傳統正經的新聞集就不同了。

圖片描述

另外的別的分析略過。

  • 後看了 [3] Finding bursty topics from microblogs

新加坡管理大學的文章,和上一篇文章都是Ee-Peng Lim這個教授帶的學生寫的,這個教授是新加坡管理大學的信息系統學院教授。

這篇在模型上較之上一篇稍有改動,分析的是微博數據,而後12年發表在ACL上,A類會議。

題目說是找bursty topic,在沒關係,前面仍是用的LDA改進模型先計算,而後根據算出來後的結果再去找bursty topic,因此仍是有借鑑意義,並非僅僅是突發話題檢測。

修改模型的想法很奇特,也加入了時間和用戶的影響,他認爲生成模型是這樣的。

每一個時間段都有一個xita矩陣,而後每一個用戶都有屬於本身的一個長期不變的topic分佈矩陣,這個時候在這個片斷裏這個用戶想要說topic的內容是可能從xita矩陣中選也多是本身的矩陣中選,文章用伯努力二項分佈選擇。而後topic對應單詞的phi矩陣也有兩個,一個是和原來的lda同樣的phi,另外一個是背景詞(文章中說common words,我也不太懂)分佈。也是同樣,有一個二項分佈,看使用哪個矩陣
圖片描述

圖片描述

後面接下來有個設計了一個公式來突發話題檢測這裏就不聊了。其實這篇看來我就有個疑問就是這個二項分佈來選擇是否合適?

下面是個實驗結果,效果不錯,好幾個時間段的突出話題都檢測出來了。

圖片描述

其實微博和twitter仍是比較接近了,因此這篇論文在原始的Twitter-LDA上基本沒什麼改變,竟然發的會議還比較好。

  • It Is Not Just What We Say, But How We Say Them: LDA-based Behavior-Topic Model

這篇文章只發布在 Research Collection School of Information Systems ,也就是他們新加坡管理大學的學報上,引用量1,就不看了。

總結

上面設計了不少公式,其實這是一種科研的手段在我看來,根據不一樣的情景設計不一樣的公式(固然這些公式也是參考別人的論文得出的),我認爲這是一種合理的研究方式。

其實twitter-lda也沒有去考慮稀疏性的問題,可是從用戶的角度去解決問題,就好象author-topic model同樣,在此之上又有別的改進。可是彈幕有個特色就是時間影響,前面的彈幕對後面的彈幕影響很大,這個問題在港科大中是用指數衰減來體現。不知道能不能結合一下,可是這樣結合在公式上的修改很大。

相關文章
相關標籤/搜索