推薦系統經常使用的:html
1)MovieLens算法
MovieLens數據集中,用戶對本身看過的電影進行評分,分值爲1~5。MovieLens包括兩個不一樣大小的庫,適用於不一樣規模的算法.小規模的庫是943個獨立用戶對1682部電影做的10000次評分的數據;大規模的庫是6040個獨立用戶對3900部電影做的大約100萬次評分。數據庫
2)EachMovie架構
HP/Compaq的DEC研究中心曾經在網上架設EachMovie電影推薦系統對公衆開放.以後,這個推薦系統關閉了一段時間,其數據做爲研究用途對外公佈,MovieLens的部分數據就是來自於這個數據集的.這個數據集有72916個用戶對l628部電影進行的2811983次評分。早期大量的協同過濾的研究工做都 是基於這個數據集的。2004年HP從新開放EachMovie,這個數據集就不提供公開下載了。機器學習
3)BookCrossing性能
這個數據集是網上的Book-Crossing圖書社區的278858個用戶對271379本書進行的評分,包括顯式和隱式的評分。這些用戶的年齡等人口統計學屬性(demographic feature)都以匿名的形式保存並供分析。這個數據集是由Cai-Nicolas Ziegler使用爬蟲程序在2004年從Book-Crossing圖書社區上採集的。學習
4)Jester Joke網站
Jester Joke是一個網上推薦和分享笑話的網站。這個數據集有73496個用戶對100個笑話做的410萬次評分。評分範圍是-10~10的連續實數。這些數據是由加州大學伯克利分校的Ken Goldberg公佈的。htm
5)Netflixblog
這個數據集來自於電影租賃網址Netflix的數據庫。Netflix於2005年末公佈此數據集並設立百萬美圓的獎金(netflix prize),徵集可以使其推薦系統性能上升10%的推薦算法和架構。這個數據集包含了480189個匿名用戶對大約17770部電影做的大約lO億次評分。
6)Usenet Newsgroups
這個數據集包括20個新聞組的用戶瀏覽數據。最新的應用是在KDD2007上的論文。新聞組的內容和討論的話題包括計算機技術、摩托車、籃球、政治等。用戶們對這些話題進行評價和反饋。
7)UCI知識庫
UCI知識庫是Blake等人在1998年開放的一個用於機器學習和評測的數據庫,其中存儲大量用於模型訓練的標註樣本。
其餘:
8)http://snap.stanford.edu/na09/resources.html
9)http://archive.ics.uci.edu/ml/
10)http://www.ituring.com.cn/article/details/1188
轉自: http://www.cnblogs.com/zz-boy/archive/2012/08/27/2658063.html