推薦系統經常使用數據集

推薦系統經常使用的:html

1)MovieLens算法

MovieLens數據集中,用戶對本身看過的電影進行評分,分值爲1~5。MovieLens包括兩個不一樣大小的庫,適用於不一樣規模的算法.小規模的庫是943個獨立用戶對1682部電影做的10000次評分的數據;大規模的庫是6040個獨立用戶對3900部電影做的大約100萬次評分。數據庫

2)EachMovie架構

HP/Compaq的DEC研究中心曾經在網上架設EachMovie電影推薦系統對公衆開放.以後,這個推薦系統關閉了一段時間,其數據做爲研究用途對外公佈,MovieLens的部分數據就是來自於這個數據集的.這個數據集有72916個用戶對l628部電影進行的2811983次評分。早期大量的協同過濾的研究工做都 是基於這個數據集的。2004年HP從新開放EachMovie,這個數據集就不提供公開下載了。機器學習

3)BookCrossing性能

這個數據集是網上的Book-Crossing圖書社區的278858個用戶對271379本書進行的評分,包括顯式和隱式的評分。這些用戶的年齡等人口統計學屬性(demographic feature)都以匿名的形式保存並供分析。這個數據集是由Cai-Nicolas Ziegler使用爬蟲程序在2004年從Book-Crossing圖書社區上採集的。學習

4)Jester Joke網站

Jester Joke是一個網上推薦和分享笑話的網站。這個數據集有73496個用戶對100個笑話做的410萬次評分。評分範圍是-10~10的連續實數。這些數據是由加州大學伯克利分校的Ken Goldberg公佈的。htm

5)Netflixblog

這個數據集來自於電影租賃網址Netflix的數據庫。Netflix於2005年末公佈此數據集並設立百萬美圓的獎金(netflix prize),徵集可以使其推薦系統性能上升10%的推薦算法和架構。這個數據集包含了480189個匿名用戶對大約17770部電影做的大約lO億次評分。

6)Usenet Newsgroups

這個數據集包括20個新聞組的用戶瀏覽數據。最新的應用是在KDD2007上的論文。新聞組的內容和討論的話題包括計算機技術、摩托車、籃球、政治等。用戶們對這些話題進行評價和反饋。

7)UCI知識庫

UCI知識庫是Blake等人在1998年開放的一個用於機器學習和評測的數據庫,其中存儲大量用於模型訓練的標註樣本。

其餘:

8)http://snap.stanford.edu/na09/resources.html

9)http://archive.ics.uci.edu/ml/

10)http://www.ituring.com.cn/article/details/1188

 

轉自: http://www.cnblogs.com/zz-boy/archive/2012/08/27/2658063.html

相關文章
相關標籤/搜索