音樂數據集彙總

接下來會研究一下音樂推薦系統,須要數據來進行算法及工程代碼的演示,遂彙總一下網上開源的音樂數據集。html

Million Song Dataset

說到音樂數據集第一位確定是MSD,它包含了100萬首歌曲的信息,總量有280GB大小。因爲數據量的確較大,它使用了h5的文件壓縮格式,並提供了一些code用於讀這種文件。git

每首歌對應一個文件,字段包括歌曲的方方面面,如 artist_mbidartist_nametitletempo 等等,全部字段在這裏列出。 路徑是奇怪的,Q&A中解釋說,實在沒法把全部文件都放到同一個目錄下,目錄的組織方式爲: 某首歌曲所在位置爲它的The Echo Nest track IDs的第3、第4、第五位造成的層級目錄,好比 MillionSong/data/A/D/H/TRADHRX12903CD3866.h5github

此外,在MSD的基礎上,社區還貢獻了很多補充數據集,方便對MSD作各方面的研究。在首頁能夠很容易找到它們。web

Lastfm數據集

last.fm是一家英國的網絡電臺和音樂社區,其向發開者提供了豐富的API,因而有不少機構或我的經過調用這些API來生成一些數據集。算法

1K users (user full listening history)

《推薦系統實戰》2.1節介紹到了此數據集,做爲有上下文信息的隱性反饋數據集的表明。 它有兩個文件,聽歌記錄與用戶信息。 前者爲近1000位聽衆至2009年5月5日爲止的全部音樂播放記錄與播放時間,以及音樂的title、artist name、musicbrain id等信息。 後者則記錄了全部聽衆的性別、年齡、國家、註冊時間的信息。 其中聽歌記錄的統計數字以下:sql

  • Total Lines: 19,150,868
  • Unique Users: 992
  • Artists with MBID: 107,528
  • Artists without MBDID: 69,420

360K users (user top artists)

與1K數據集一塊兒出現的還有360K users數據集。 包含user-artist關係信息以及用戶信息。 用戶信息與1K相同,不過數據量來到了360K,user-artist關係文件的一行爲某user聽某樂隊的次數。 user-artist文件的統計數據以下:json

  • Total Lines: 17,559,530
  • Unique Users: 359,347
  • Artists with MBID: 186,642
  • Artists without MBID: 107,373

HetRec 2011

這是2011年HetRec會議發佈的從Last.fm獲取的數據集。 與上兩例不一樣的是它包含有社會好友關係,標籤信息。其中文件數目比較多,但各文件列很較少,其中是很明顯簡單的關聯關係,再也不贅述。 統計數據以下:api

  • 1892 users
  • 17632 artists
  • 12717 好友關係
  • 92834 user-listened artist relations
  • 11946 tags
  • 186479 tag assignments (tas), i.e. tuples [user, tag, artist]

MSD's Lastfm

在MSD的首頁能夠看到此來自Lastfm的數據集(又一個,真的很容易搞亂。),它做爲MSD的補充信息,可與其id直接關聯。 數據量較大,是下面的樣子:網絡

  • 943,347 matched tracks MSD <-> Last.fm
  • 505,216 tracks with at least one tag
  • 584,897 tracks with at least one similar track
  • 522,366 unique tags
  • 8,598,630 (track - tag) pairs
  • 56,506,688 (track - similar track) pairs

與MSD同樣的奇怪的目錄結構,每一個歌曲對應一個json文件,長這個樣子: app

img

文件名是 TRAAAAW128F429D538.json 這樣的編碼可與MSD的某首歌關聯起來,圖中提供了基本的歌曲、做者信息、標籤。 比較獨特的是還有Lastfm直接提供的與此歌曲類似的歌曲列表以及類似度值。

其餘數據集

  • fma: music audio大型數據集,917 GiB and 343 days of Creative Commons-licensed audio from 106,574 tracks from 16,341 artists and 14,854 albums, arranged in a hierarchical taxonomy of 161 genres。
  • Pitchfork reviews: Pitchfork是一家在線音樂雜誌,有人爬取了自1999年以來的18000份音樂評論文章放到Kaggle上用於分析和學習。 格式爲sqlite文件,主要提供信息爲文章的id、標題、artist、文章連接、評分、做者、發佈時間等。
  • 50 Years of Pop Music Lyrics: 1964到2015Billboard每一年的Year-End Hot100歌曲的歌詞。
  • MetroLyrics: 從MetroLyrics爬取的38萬首歌詞,csv格式,字段有song title,artist,genre,lyric。
  • kkbox: WSDM 2018比賽使用的數據集,kkbox做爲一家亞洲音樂服務商,提供了不少亞洲歌曲信息,這點是以上其餘所不具備的。
  • Spotify Song Attributes: 做者調用spotify的api獲取了2017首歌的數據並嘗試獲取訓練一個模型來預測本身是否喜歡一首歌。

API

根據一些官方或民間的API,能夠根據本身的需求生成自定義的數據集。

相關文章
相關標籤/搜索