玩機器學習的童鞋都知道數據集的重要性,沒有數據糧食餵養,好的模型是長不出來的,形象的比喻就是「巧婦難爲無米之炊」。機器學習
這一年多來一直在摸索文本分析領域,文科生一枚摸着石頭過河,很惋惜一直沒有出什麼東西。不過卻也在這過程當中積累了一些在線評論數據集。大可能是在百度網盤、谷歌遇到我以爲有用的數據我通常會下載下來。大鄧都整理到csv中,方便你們使用pandas進行數據分析。今天我整理了一下,分享給你們。ide
中文在線評論數據
中文的數據主要電商平臺在線評論數據,且均標註正負情感標籤的,領域包括:學習
計算機視頻
熱水器blog
服裝直播
手機數據分析
書籍pandas
洗髮水產品
經過這些標註的各個領域評論數據,咱們能夠訓練各自領域的情感分析模型。有餘力的童鞋也能夠構建相關領域屬性詞典,想一想就很激動。大鄧這裏打開其中一個文件,樣子大概是這樣的。it
此外還有微博評論數據,有人將其標註爲4種情緒,數據量10萬條。再次感謝他們的辛勤勞動。
亞馬遜評論數據集
該數據集的發現要感謝山東煙臺的一位網友,向我諮詢問題的時候給我留下了 加州大學聖地哥分校Julian McAuley教授的Amazon product ata數據集頁面。
數據集簡介:
該數據集包含來自亞馬遜的產品評論和元數據,其中包括1996年5月至2014年7月的1.4億條評論。 該數據集包括評論(評分,文字,樂於投票),產品數據(產品描述,類別信息,價格,品牌和圖像特徵)以及產品連接。
亞馬遜1996-2014年 近200G數據(這只是部分數據,更大更大的數據須要找Julian McAuley教授要)。這是教授的官方介紹,竟然還有一個視頻直播。大鄧寫這篇文章時美國大概是晚上十點,可能教授下班了,因此屋子裏沒有。若是趕巧的話,大家能看到教授搞學習。