推薦系統經常使用數據集

時間 2019-11-06

標籤推薦系統經常使用數據简体版

原文原文鏈接

推薦系統經常使用的：html

1)MovieLens算法

MovieLens數據集中，用戶對本身看過的電影進行評分，分值爲1～5。MovieLens包括兩個不一樣大小的庫，適用於不一樣規模的算法．小規模的庫是943個獨立用戶對1682部電影做的10000次評分的數據；大規模的庫是6040個獨立用戶對3900部電影做的大約100萬次評分。數據庫

2)EachMovie架構

HP/Compaq的DEC研究中心曾經在網上架設EachMovie電影推薦系統對公衆開放．以後，這個推薦系統關閉了一段時間，其數據做爲研究用途對外公佈，MovieLens的部分數據就是來自於這個數據集的．這個數據集有72916個用戶對l628部電影進行的2811983次評分。早期大量的協同過濾的研究工做都是基於這個數據集的。2004年HP從新開放EachMovie，這個數據集就不提供公開下載了。機器學習

3)BookCrossing性能

這個數據集是網上的Book-Crossing圖書社區的278858個用戶對271379本書進行的評分，包括顯式和隱式的評分。這些用戶的年齡等人口統計學屬性(demographic feature)都以匿名的形式保存並供分析。這個數據集是由Cai-Nicolas Ziegler使用爬蟲程序在2004年從Book-Crossing圖書社區上採集的。學習

4)Jester Joke網站

Jester Joke是一個網上推薦和分享笑話的網站。這個數據集有73496個用戶對100個笑話做的410萬次評分。評分範圍是-10~10的連續實數。這些數據是由加州大學伯克利分校的Ken Goldberg公佈的。htm

5)Netflixblog

這個數據集來自於電影租賃網址Netflix的數據庫。Netflix於2005年末公佈此數據集並設立百萬美圓的獎金(netflix prize)，徵集可以使其推薦系統性能上升10％的推薦算法和架構。這個數據集包含了480189個匿名用戶對大約17770部電影做的大約lO億次評分。

6)Usenet Newsgroups

這個數據集包括20個新聞組的用戶瀏覽數據。最新的應用是在KDD2007上的論文。新聞組的內容和討論的話題包括計算機技術、摩托車、籃球、政治等。用戶們對這些話題進行評價和反饋。

7)UCI知識庫

UCI知識庫是Blake等人在1998年開放的一個用於機器學習和評測的數據庫，其中存儲大量用於模型訓練的標註樣本。

其餘：

8）http://snap.stanford.edu/na09/resources.html

9）http://archive.ics.uci.edu/ml/

10）http://www.ituring.com.cn/article/details/1188