KDD-CUP Proposal

From 鞠源php

已有 1303 次閱讀 2012-11-25 21:09 |系統分類:科研筆記|關鍵詞:會議 領域 justify 知識html

KDDCUP - Competition is a strong mover for Science and Engineering算法

   ACM KDD是知識發現和數據挖掘領域的頂級會議,KDD CUP又是基於ACM KDD的世界級賽事。目的在於1. 探求從海量數據中挖掘出高層知識的最佳方法。2. 做爲學術界和工業界溝通的橋樑(事實上KDD97起,首先是由工業界如yahoo,美國國防部發起,參與並獲獎的也是SASSAP等一些企業,後來學術界漸漸參與進來,好比lib-SVM 的發明者CJ Lin。 3. 促進知識發現和數據挖掘領域的進一步發展。網絡

KDD-CUP 97年起至今歷經15屆,每一年的二月份在官方網站(http://www.kdd.org/kdd2012/kddcup.shtml)上給出題目,二月份以前都在call for proposal.階段,下面一些統計指標統計dom

這是最終提交答案的參賽者的數量,從發起至今就不斷有人蔘與,通常都是以團隊的形式。數據集不斷增大,而運行速度要求增長。對所運用的機器學習模型的要求也不斷提升,下面是2000年以前用到的機器學習的算法。機器學習

傳統的算法如boosting, Decision Tree  Nearest Neighbour , association rule(關聯規則)等佔大多數。事實上2003年起一些Social的數據逐漸進來(估計是Face bookNetfix等社交網站相繼創立),社會網絡,協同推薦等算法逐漸popular。這是後話。KDD-cup的工做量很是大,通常是成幾個月得的在搞,通常人均所用時間達204個小時,最大人均所用時間爲910小時,但付出的同時收穫也很大。學習

KDD-CUP 97 -98 都和 CRM 客戶關係管理有關,97年的題目是郵件準確得send給有需求的客戶,數據集均由工業界一些企業或者機構提供。99年是美國國防部出給出的有效檢測網絡攻擊的問題,即如何識別一些操做是屬於內部正常使用行爲仍是來自外部入侵,這一年的Winner 是著名的SAS公司。 測試

KDD-CUP 2000  採納了Gazelle.com的題目,Gazelle.com是一家女性奢侈用品的網絡零售商。數據信息由點擊流信息和購買數據組成。Target有如下幾點識別哪些用戶會花不少錢買不少商品,識別重要的頁面 挖掘訪問者可能會關注的品牌。 其目的在於使網站更加個性化,並提升該網站的訪問量來增長盈利。 Winner使用的好像是關聯規則挖掘。 後來再訪問這個網站會很讓人有些失望,由於它已經墮落去賣一些舊貨了。至少他沒有很好得去利用此次競賽的成果。網站

     KDD Cup 2001 是一個生物學機器學習的問題。值得關注的是從這一年起,數據量(half a gigabyte when uncompressed)和參賽人數(A total of 136 groups participated )增長很是多ui

Task 1的獲勝者Jie Cheng用的是貝葉斯網絡學習分類器,Task 2 用的是Inductive Logic programming。 Task 3 用的是KNN算法。 能夠看出傳統的ML算法仍是占主導地位,仍是足夠應付一些問題的。 KDD-CUP 2002年也是生物學領域的兩個任務,一個是Document extraction from biological articles TASK 2 是基於基因刪除實驗的蛋白質分類問題。

KDD-CUP 2003  複雜網絡的挖掘開始成爲主題,1)the first Task是預測KDD2003會議舉行前三個月,每篇paperreceive 多少citation; 2) Task 2 是要求參賽者構建一個只來源於LaTex的大規模文檔集的citation graph. 3)最後一個Task是根據一些部分的下載日誌去預測相關paperpopularity. (是一個開放性問題)。如上,這一年的topic很是有趣,複雜網絡挖掘(社會網絡,引文網絡)被引進機器學習和數據挖掘的領域,開啓了以後05-11年用ML算法去解決社會網絡和協同推薦問題的熱潮。這一年獲獎者大多來自學術界。如NYU

KDD-CUP 2004 又是一個生物學預測問題。冠軍是HKUST的楊強團隊,他也是KDD-CUP 2012BJ)的General Chair

下面是2005-2010年的KDD-CUP 相關信息的統計

 

 

值得關注的是,隨着KDD-CUP的影響力和難度質量的提升,一些獲獎者會成爲一些大公司的青睞對象,像05HKUST的沈抖就被微軟總部挖走,揚威也被山景城的Google挖過去了,再到後來11年中科院的項亮也加入了美國視頻推薦網站hulu07年是又是一個協同推薦的customer recommendationTASK,出題者Netfix是美國一個租電影的社交網站。08年是西門子出題,題目是怎樣從拍攝的醫學圖像中檢測出乳腺癌,這也和Siemens公司最爲盈利的Health Care市場相關(它是不少醫療檢測儀器的提供商)。有意思的一點是07-09年,這三年的Winner都是IBM Research團隊(其實這是因爲當時IBM 研究院調集了一幫精兵強將去搞人工智能的watson問答系統,便是後來在jeopardy中打敗人類的watson機器人)。因而到了2010年,按照機器學習的思惟,彷佛能夠預測獲獎者極可能又是IBM, 因此chair board的專家一致決定這一年讓IBM Research出題,這回總不可能參加了吧。(joking.....)。

    10年是關於Student Performance prediction  in  E-learning,也是一個頗有意思的topic,獲獎者是著名的CJ Lin林志仁教授。有意思的是,這一年獲獎的人數居然一張紙都寫不下,這是由於聰明且搞笑的林志仁教授把這個題目當作了他教授的一門課的課程做業!因此是一個班的同窗集體參加的。。。。06年的題目很通常,可是用於training和測試 的data卻出現嚴重的問題,最後發現前面一半的ID 都是正樣本,後面一半都是負樣本,因此後處理根據ID來會討巧不少,因此原本的競賽題變得毫無技術含量。致使委員會最後很不情願頒獎並給出獎金,可是這連同後續也有幾回的紕漏使後處理每每能提升不少performance,卻揭示了機器學習中存在的一個不容忽視的問題,即數據集不夠嚴密不夠完美。因此後來有一年得到SIGKDD最佳論文獎的paper就是闡述的有關data leakage 的問題。

2011年 KDD-CUP 的題目是有關音樂推薦的主題。是一個很是經典的社會網絡和協同過濾的推薦問題。獲獎者項亮博士對他的解決方案在ppt中作了介紹,他作了大量工做,大概用了14種模型,包括initial BN,KNNjaccard index,再到深化的問題,創新的解決了兩個問題1Item-based 協同推薦中點擊時間的一個影響temporal influence  2)規避社會化推薦中的哈利波特效應,所謂哈利波特效應,源於amazon作推薦系統研究,發現幾乎每個用戶都會和哈利波特這本書創建很大相關度,而他認爲推薦的意義在於令人們發現那條長尾,而不是已有的熱點,如何消除或者弱化熱點的影響,他採用了相關的方法見PDF

 另外兩篇文章是Learning Online Discussion Structures by Conditional Random FieldsChengXiang Zhai, Jiawei Han)是SIGIR 2011年的paper,幾乎UIUC巨牛逼的教授都一齊上陣了,含金量也算能夠。另一篇Mining Heterogeneous Information Networks也能夠讀下.

相關文章
相關標籤/搜索