編者按:ACM網絡搜索與數據挖掘國際會議(6th
做者: 武威 微軟亞洲研究院副研究員算法
會議概況網絡
2013年2月4日,第六屆 ACM網絡搜索與數據挖掘國際會議 (The Sixth ACM International Conference on Web Search and Data Mining, WSDM2013) 在乎大利首都羅馬舉行。WSDM是一個新興的網絡搜索與數據挖掘方向的國際會議,主要由工業界的一些大型IT公司贊助。此次會議是繼2009年在巴塞羅那舉辦以後,第二次在歐洲舉辦。session
WSDM,讀音爲wisdom。該會議於2008年首次舉辦,由微軟、谷歌和雅虎等公司贊助。相對於傳統的WWW、SIGIR和ACMSIGKDD等會議,WSDM更加劇視應用,是典型的應用會議。本次大會歷時5天,共收到來自36個國家和地區的387篇投稿。其中,有73篇文章被大會錄用,錄用率爲18.9%。錄用文章的做者遍及20個國家,4大洲,使WSDM真正地成爲了一個國際性的網絡搜索與數據挖掘方向的頂級會議。其中,投稿最多和被錄用文章最多的是美國。中國(包括大陸以及港澳臺地區)共有10篇文章被錄用,做者來自清華大學、中國科學院、中國人民大學、哈爾濱工業大學、香港中文大學以及微軟亞洲研究院和惠普中國研究院。每一篇錄用文章都被安排了口頭報告和海報展現。爲了合理安排大會時間,口頭報告分爲20分鐘的長報告(plenary presentation)和6分鐘的短報告(spot light presentation)。在73篇錄用文章中,有40篇文章的做者得到了長報告的機會。長報告有問答時間,短報告則沒有。框架
此次大會包括8個輔導報告(tutorials)、6個研討會(workshops)、3個主題演講(keynotes)、9個專題(sessions)以及一個數據競賽(data challenge)。其中,數據競賽包括圖數據壓縮和圖數據去匿名化兩個子任務,是WSDM歷史上舉辦的首次競賽。從主題演講和專題的內容分佈來看,社交網絡(social network)成爲了本次大會的絕對主角。三個主題演講都與社交網絡有關。而9個專題中,有4個與社交網絡、社會媒體(social media)有關。相關工做覆蓋了社交網絡數據的存儲、話題動態、社區發現和情感分析等各個方面。除了社交網絡,還有當下十分熱門的「大數據」專題。大數據專題中的工做主要研究大數據下的算法效率和數據存儲問題。一個十分有意思的事情是,在會議最後一天的工做午飯(business lunch)中,WSDM的一位主席報告了他們對於錄用論文題目的統計分析。經過對錄用論文和未錄用論文題目創建分類模型,他們發現了接收論文的一些特色,使人印象深入的是「social network」和「wikipedia」這兩個關鍵詞。這兩個關鍵詞在分類模型中頗有區分度,是論文被接收的關鍵性詞彙。這也從另一個角度說明了本次大會,乃至整個網絡搜索與數據挖掘學術領域的研究趨勢。dom
主題演講機器學習
本次大會包括三個主題演講,分別是鄧肯·沃茲(Duncan Watts)的「The Virtual Lab」,凱瑟琳·塔克(Catherine Tucker)的「Three Findings Concerning Protecting Consumer Privacy Online」,以及楊強的「Big Data, Lifelong Machine Learning and Transfer Learning」。鄧肯是微軟研究院的首席研究員,也是微軟紐約實驗室的建立人之一。他的研究興趣是社會科學。他的演講主題是虛擬網絡對社會科學研究的影響。隨着諸如Amazon’s Mechanical Turk等衆包 (crowdsourcing)網站的出現,社會科學家們能夠利用互聯網構建一些「虛擬的實驗室」,來進行以前的「物理實驗室」在規模和速度上沒法實現的人類行爲實驗。他把社會科學的研究分爲了Turk前和Turk後兩個部分,並經過一些實驗結果說明了互聯網爲社會科學研究帶來的機遇和挑戰。凱瑟琳是美國麻省理工史隆管理學院(MIT Sloan) 的副教授。她的研究興趣是信息技術對於人類商業行爲的影響。她的演講主題是數字化時代的我的隱私保護。互聯網的產生和發展使得商業公司可以更容易地得到客戶的我的信息。在這個前提下,她報告了一些關於我的隱私保護的經驗性結果。基於大量的實驗,驗證了三個發現:第一,我的隱私保護不利於在線廣告的有效推廣;第二,我的隱私保護可以促進經濟產出(economic outcomes);第三,限制私人數據的存儲時間沒有太多的經濟影響(economic impact)。有趣的是此次WSDM剛好設立了一個與圖數據隱私保護相關的數據競賽。來自微軟亞洲研究院的參賽隊伍參加了圖數據去匿名化的子任務,並得到第一名。楊強是中國香港科技大學的教授,現任華爲諾亞方舟實驗室的主任。他在報告中展現了諾亞方舟實驗室在大數據挖掘方面取得的成果,並介紹了遷移學習(transfer learning)及其在大數據挖掘上的應用。該報告提出了持續性的機器學習和數據挖掘。工具
圖2鄧肯·沃茲做題爲"The Virtual Lab"的主題演講性能
具體來講,大數據洪流帶來兩個挑戰:一方面,如何可以有效地消除噪音,從大數據中挖掘到咱們想要的知識;另外一方面,當數據發生變化時,已有方法可否自動調整。基於這兩個理念,他展現了近期諾亞實驗室取得的一些成果,包括微博自動推送機器人小諾以及手機終端上的生活助手等。縱觀此次大會的主題演講,全部內容都或多或少地與當下在學術界和工業界都很熱的社交網絡以及大數據有關。能夠說,社交大數據的時代大幕已經拉開。不管是學術界仍是工業界,都在努力爭取在新技術時代留下本身的名字。然而,羣雄逐鹿,勝負未分。誰能首先抓住問題的本質,以最快的速度應對變化併產生影響,誰就能佔得先機,取得新時代技術上的主導地位。學習
最佳論文
WSDM2013從73篇接收的論文中選出了兩篇最佳論文。其中,最佳論文「Optimized Interleaving for Online Retrieval Evaluation」的做者是微軟研究院的兩位研究員。在這篇工做中,做者系統研究了信息檢索系統的在線評估辦法,提出了一套新的交叉評估(interleaved evaluation)框架。交叉評估是在線評估的主要方法之一。交叉評估算法是指將同一查詢下的兩個排序結果以某種方式組合在一塊兒,經過跟蹤用戶在交叉排序列表上的點擊表現來評估排序方法的好壞。交叉算法包括排序組合算法和點擊評分機制兩部分。已有的工做都存在一些問題,在一些特定排序上會出現與直覺不一致的評估結果。本文的做者創造性地將交叉算法的設計轉化成了一個帶約束的優化問題,並經過理論證實說明了所提方法不只包含已有的方法,並且可以克服已有方法的一些弱點。此外,本文做者還提出了利用搜索的歷史日誌數據來評估交叉算法性能的方法。經過定性分析和定量評估,做者說明他們所提的交叉算法可以克服已有交叉算法存在的一些問題,在評估排序結果好壞上與傳統的基於NDCG的辦法有更好的一致性,同時所需的樣本量又和已有的交叉算法至關。
最佳學生論文「Balanced Label Propagation for Partitioning Massive Graphs」是美國康奈爾大學和Facebook的合做成果,解決的是大規模圖分割的問題。隨着社交網絡數據的迅猛增加,如何合理地分割網絡關係圖,從而實現分塊存儲成爲了一個重要問題。論文將圖分割問題形式化成一個帶約束的優化問題,而這個優化問題又能夠轉化爲一個線性優化問題,從而能夠利用已有的線性優化工具進行高效求解。在兩篇最佳論文中,分別關注了傳統網絡搜索和當下比較火的社交網路問題。兩篇文章都有比較好的數學基礎和豐富、紮實的實驗結果,這也是他們可以最終獲選最佳論文的重要因素之一。值得注意的是,兩篇最佳論文的主題一舊一新,這體現了本屆WSDM承前啓後,既重視傳統領域中紮實嚴謹的工做,又鼓勵對新領域新問題探索的主導思想。
對WSDM將來的展望
做爲一個舉辦了六屆的大會,WSDM在投稿的數量、評審的尺度、接收論文的質量以及參與人的數量和水平上都在逐漸走向成熟。本屆大會以社交網絡爲主題,同時兼顧大數據等新概念,很好地體現了WSDM鏈接學術界與工業界的宗旨。尤爲是大規模關係圖分割及存儲技術,筆者認爲不只對學術界來講頗有研究價值,對於工業界,特別是像Facebook這樣的社交網絡公司也可能產生直接的應用價值。
申明:《2013 ACM網絡搜索與數據挖掘國際會議》一文在微軟研究院博客上轉載經由《中國計算機學會通信》贊成,版權歸《中國計算機學會通信》全部。原文刊登於《中國計算機學會通信》2013年3月 第85期
做者介紹
武 威
微軟亞洲研究院高副研究員。主要研究方向爲機器學習、智能問答和信息檢索。
參考文獻
[2] 中國計算機學會通信, 第8卷第1期, 2012年1月
____________________________________________________________________________________
相關閱讀
歡迎關注
微軟亞洲研究院人人網主頁:http://page.renren.com/600674137
微軟亞洲研究院微博:http://t.sina.com.cn/msra