論文筆記-Mining latent relations in peer-production environments

背景

  • 用戶合做產生內容的網站愈來愈多,有許多隱藏的信息能夠去挖掘
  • wiki上保存了貢獻者的編輯記錄,提供了很是多的有用的信息
  • 研究發現,大部分的貢獻者僅僅會參與編輯很小數量的文章,修改的版本也有限制,一般也只在某幾個特定的領域/話題中
  • 含有某個主題的文章一般指吸引特定一部分的讀者和編輯者

論文關注點

  • 提出一個新的類似度計算方法 expert-based similarity 應用於維基上有爭論性的文章集,從而達到更好的聚類效果
  • 維基上爭論性的文章的原因是和自身的特定主題相關的,而不是相關編輯參與者

論文實驗方法

  • 比較已有的三種類似度方法:cosine similarity;SimRank;P-Rank
  • expert-based similarity的理論假設:若是兩篇文章被同一我的編輯過,咱們則認爲該兩篇文章是類似的
  • 使用了下面三種方法來檢測維基上文章的相關性
Relevance aspect Similarity Relation type
Content Cosine similarity Explicit
Hyperlink P-Rank and SimRank similarities Implicit
Co-editorship Expert-based similarity Implicit
  • 文章一共進行了三次實驗來評價以上類似度方法,並驗證了方法在大量數據上的通常性
    1. 第一次實驗使用了compactness指標來評價聚類效果,聚類算法使用了K-Medoids,類似度算法使用了SimRank和P-Rank,同時爲了不選擇K時帶來的干擾,使用了DBScan方法避免預先指定聚類的個數K
      expert-based方法結果最穩定,有較高的性能和魯棒性 SimRank方法的結果最壞 經過人工方法的評測發現,expert-based方法對於發現維基中語義相關的文章很是有用
    2. 第二次實驗利用了分類標籤,用purity和entropy來評價聚類效果,聚類使用了K-Medoids和AHC,類似度使用了上述4種方法
      總的來講,expert-based方法在量化wiki文章的相關性上是一種有效的措施
    3. 第三次實驗是在大規模的文檔集上評價了expert-based similarity
  • 數據的準備:選用了宗教主題相關的文章,考慮到裏面爭論性的比例比較大;選取的文章保證有5個以上的編輯者;對於基於內容的類似度方法,一般選取最近的5個版本;對於基於超連接的選擇最近的3到5個含有連接的版本
  • expert-based方法的優點在於對於破壞性的大量的編輯有較好的防範性,緣由在於它採用了相似IDF的計算方法
  • 第五章驗證了致使爭論的主要緣由
  • 若是兩個用戶之間有互相刪除內容的行爲,咱們認爲這兩個用戶是在爭論
  • 經過對貢獻者、concept等方面入手,比較爭論性造成的緣由,獲得結論:特定的爭論性的主題是維基爭論性文章的主要原因

文章結論

  • expert-based similarity方法是一種高效有用的度量文章相關度的方法
如若感興趣,可自行google下載,提供 參考連接
相關文章
相關標籤/搜索