乾貨 | 100+個NLP數據集大放送，再不愁數據！

時間 2019-11-12

標籤乾貨 nlp 數據放送不愁简体版

原文原文鏈接

奉上100多個按字母順序排列的開源天然語言處理文本數據集列表（原始未結構化的文本數據），快去按圖索驥下載數據本身研究吧！php

數據集html

Apache軟件基金會公開郵件檔案：截止到2011年7月11日所有公開可用的Apache軟件基金會郵件檔案。（200 GB） http://aws.amazon.com/de/datasets/apache-software-foundation-public-mail-archives/git

博主原創語料庫：包含2004年8月從blogger.com網站收集的19,320位博主的帖子。681,288個帖子以及140多萬字。（298 MB） http://u.cs.biu.ac.il/~koppel/BlogCorpus.htmgithub

亞馬遜美食評論[Kaggle]：包含亞馬遜用戶在2012年10月前留下的568,454條食評。（240MB） https://www.kaggle.com/snap/amazon-fine-food-reviewsweb

亞馬遜評論：斯坦福收集了3500萬條亞馬遜評論。（11GB） https://snap.stanford.edu/data/web-Amazon.html數據庫

ArXiv上：全部收錄論文全文（270GB）+源文件。（190GB） http://arxiv.org/help/bulk_data_s3apache

ASAP自動做文評分[Kaggle]：在本次比賽中，有8個做文集。每一個做文都由一個單獨提示所得回答所生成。所選做文長度爲150到550個字不等。部分做文依賴於源信息，而另其餘則不是。全部論文都是由7年級到10年級的學生所寫。全部的做文都由人工打分，並採用雙評分制。（100MB） https://www.kaggle.com/c/asap-aes/datajson

ASAP簡答題評分[Kaggle]：每一個數據集都是由單個提示所得回答生成的。所選回答的平均長度爲50個字。某些回答依賴於源信息，而其餘則不是。全部回答由10年級學生所寫。全部回答均爲人工打分，並採用雙評分制。（35MB） https://www.kaggle.com/c/asap-sas/dataapi

政治社交媒體分類：按內容分類來自政客的社交媒體消息。（4MB） https://www.crowdflower.com/data-for-everyone/安全

CLiPS文體學研究（CSI）語料庫：每一年擴展兩種類型的學生寫做：文章和綜述。這個語料庫的目的主要在於文體學研究，固然也可用於其餘研究。（數據集須要申請得到） http://www.clips.uantwerpen.be/datasets/csi-corpus

ClueWeb09 FACC：帶有Freebase註釋的ClueWeb09。（72GB） http://lemurproject.org/clueweb09/FACC1/

ClueWeb11 FACC：帶有Freebase註釋的ClueWeb11。（92GB） http://lemurproject.org/clueweb12/FACC1/

常見爬蟲語料庫：由超過50億個網頁（541TB）爬蟲數據構成。 http://aws.amazon.com/de/datasets/common-crawl-corpus/

康奈爾電影對話語料庫（Cornell Movie Dialog Corpus）：包含大量豐富的元數據，從原始電影劇本中提取的對話集合：617部電影，10,292對電影人物之間的220,579次會話交流。（9.5MB） http://www.cs.cornell.edu/~cristian/Cornell_Movie-Dialogs_Corpus.html

企業信息：分類企業在社交媒體上到底談論了什麼的工做。要求志願者將企業陳述分類爲信息（關於公司或其活動的客觀陳述），對話（回覆用戶等）或行動（要求投票或要求用戶點擊連接等的信息）。（600KB） http://aws.amazon.com/de/datasets/common-crawl-corpus/

Crosswikis：關聯英語短語與維基百科文章的數據庫。（11GB） http://nlp.stanford.edu/data/crosswikis-data.tar.bz2/

一個網絡社區關於從維基百科中提取結構化信息並使得此信息在網絡上可用的共同成果。（17GB） http://aws.amazon.com/de/datasets/dbpedia-3-5-1/?tag=datasets%23keywords%23encyclopedic

Death Row：自1984年以來處決的每一個犯人的遺言。（HTML表格） http://www.tdcj.state.tx.us/death_row/dr_executed_offenders.html

Del.icio.us：delicious.com上的125萬個書籤。 http://arvindn.livejournal.com/116137.html

社交媒體上的災難推文：1萬條推文，註釋了是否涉及災難事件。（2MB） https://www.crowdflower.com/data-for-everyone/

經濟新聞相關文章：肯定新聞文章與美國經濟是否相關，若是相關，文章的基調是什麼。時間範圍從1951年到2014年。（12MB） https://www.crowdflower.com/data-for-everyone/

安然公司電子郵件數據：包含1,227,255封電子郵件，其中493,384個附件覆蓋151位管理者。（210GB） http://aws.amazon.com/de/datasets/enron-email-data/

事件註冊：免費工具，能夠實時訪問全球100,000個媒體的新聞文章。有API接口。（查詢工具） http://eventregistry.org/

Examiner.com—用新聞頭條釣魚的垃圾郵件[Kaggle]：現已停用的釣魚網站The Examiner從2010年到2015年發佈的3百萬衆包新聞頭條。（200MB） https://www.kaggle.com/therohk/examine-the-examiner

聯邦採購數據中心的聯邦合同（USASpending.gov）：來自USASpending.gov的聯邦採購數據中心全部聯邦合同的數據庫。（180GB） http://aws.amazon.com/de/datasets/federal-contracts-from-the-federal-procurement-data-center-usaspending-gov/

Flickr我的分類法：我的標籤的樹結構數據集。（40MB） http://www.isi.edu/~lerman/downloads/flickr/flickr_taxonomies.html

Freebase數據庫：Freebase中全部當前事實和推斷的數據庫。（26GB） http://aws.amazon.com/de/datasets/freebase-data-dump/

Freebase簡單主題庫：Freebase中每一個主題中基本的可識別事實的數據庫。（5GB） http://aws.amazon.com/de/datasets/freebase-simple-topic-dump/

Freebase四元庫：Freebase中全部當前事實和推斷的數據庫[LZ1]。（35GB） http://aws.amazon.com/de/datasets/freebase-quad-dump/

GigaOM Wordpress挑戰賽[Kaggle]：博客文章，元數據，用戶喜愛。（1.5GB） https://www.kaggle.com/c/predict-wordpress-likes/data

谷歌圖書n元語法：也可經過亞馬遜S3上hadoop格式文件獲取。（2.2TB） http://storage.googleapis.com/books/ngrams/books/datasetsv2.html

谷歌網頁5元語法：含有英文單詞的n元序列，及其觀測頻率計數。（24GB） https://catalog.ldc.upenn.edu/LDC2006T13

Gutenberg電子書清單：帶註釋電子書清單。（2MB） http://www.gutenberg.org/wiki/Gutenberg:Offline_Catalogs

加拿大議會文本塊：來自加拿大第36屆議會正式記錄（Hansards）的130萬標準文本塊（句子或更小的片斷）。（82MB） http://www.isi.edu/natural-language/download/hansard/

哈佛圖書館：超過1,200萬冊哈佛圖書館所藏資料的書目記錄，包括書籍，期刊，電子資源，手稿，檔案資料，曲譜，音頻，視頻和其餘資料。（4GB） http://library.harvard.edu/open-metadata#Harvard-Library-Bibliographic-Dataset

仇恨言論識別：志願人查看短文，並肯定它是否a）包含仇恨言論，b）冒犯性的，但沒有仇恨言論，或c）一點也沒有冒犯性。包含近15千行，每一個文本字符串有三個志願者判斷。（3MB） https://github.com/t-davidson/hate-speech-and-offensive-language

希拉裏克林頓的電子郵件[Kaggle]：整理了近7,000頁克林頓的電子郵件。（12MB） https://www.kaggle.com/kaggle/hillary-clinton-emails

家得寶公司產品搜索關聯[Kaggle]：包含家得寶公司網站的許多產品和客戶搜索條款。挑戰是預測搜索條目組合和產品的相關性分數。爲了建立真實標籤，家得寶公司將搜索/產品配對衆包給多個評分者打分。（65MB） https://www.kaggle.com/c/home-depot-product-search-relevance/data

肯定文本中的關鍵短語：問題/答案對和文本組成；判斷上下文文本是否與問題/答案相關。（8MB） https://www.crowdflower.com/data-for-everyone/

美國電視節目‘危險’：216930個過去出如今‘危險’節目的問題合集。（53MB） http://www.reddit.com/r/datasets/comments/1uyd0t/200000_jeopardy_questions_in_a_json_file/

200k英語明文笑話：208000種不一樣來源的明文笑話存檔。 https://github.com/taivop/joke-dataset

歐洲語言機器翻譯。（612MB） http://statmt.org/wmt11/translation-task.html#download

材料安全數據表：230000材料安全數據表。（3GB） http://aws.amazon.com/de/datasets/material-safety-data-sheets/

百萬新聞頭條-澳大利亞ABC[Kaggle]：由澳大利亞ABC新聞發佈的從2003到2017年的130萬新聞。（56MB） https://www.kaggle.com/therohk/million-headlines

MCTest：可無償使用的660個故事集和相關問題，可用於研究文本機器理解、問答。（1MB） http://research.microsoft.com/en-us/um/redmond/projects/mctest/index.html

Negra：德國報紙文本的語法標註語料庫。可供全部大學及非營利機構無償使用。須要簽署協議併發送申請才能得到。 http://www.coli.uni-saarland.de/projects/sfb378/negra-corpus/negra-corpus.html

新聞頭條-印度時報[Kaggle]：印度時報發表的從2001到2017年的270萬類新聞頭條。（185MB） https://www.crowdflower.com/data-for-everyone/

新聞文章/維基百科頁面配對：志願者閱讀一篇短文，被問及最匹配的兩篇維基百科文章是哪一篇。（6MB） https://www.kaggle.com/benhamner/nips-2015-papers/version/2

2015 NIPS論文（版本2）[Kaggle]：全部2015年nips論文全文。（335MB） https://www.kaggle.com/benhamner/nips-2015-papers/version/2

紐約時報臉譜網數據：全部紐約時報在臉譜網的帖子。（5MB） http://minimaxir.com/2015/07/facebook-scraper/

全球新聞一週供稿[Kaggle]：在2017年8月的一週，用20多種語言全球發表的140萬篇新聞事件數據集。（115MB） https://www.kaggle.com/therohk/global-news-week

句子/概念對的正確性：志願者讀關於兩個概念的句子。例如，「狗是一種動物」，或者「船長能夠和主人有一樣的意思」，而後他們被問到這個句子是否正確，並將其1-5評級。（700KB） https://www.crowdflower.com/data-for-everyone/

公開圖書館數據庫：公開圖書館中全部記錄的修改合集。（16GB） https://openlibrary.org/developers/dumps

人物語料庫：收集了做者文章風格和個性預測的實驗。由145名學生的145篇荷蘭語文章組成。（得到須要申請） http://www.clips.uantwerpen.be/datasets/personae-corpus

Reddit評論：截至2015年7月，reddit論壇全部公開的評論。共計17億條評論。（250GB） https://www.reddit.com/r/datasets/comments/3bxlg7/i_have_every_publicly_available_reddit_comment/

Reddit評論（2015年5月）：Kaggle子數據集。（8GB） https://www.kaggle.com/reddit/reddit-comments-may-2015

Reddit提交語料庫：2006年1月-2015年8月31日全部公開可得的Reddit提交內容。（42GB） https://www.reddit.com/r/datasets/comments/3mg812/full_reddit_submission_corpus_now_available_2006/

路透社語料庫：一個包含路透社新聞報道的數據集，用於天然語言處理的研究開發、信息檢索和機器學習系統。該語料庫又被稱爲「路透社語錄1」或RCV1，它遠遠大於原來在文本分類中被普遍使用的著名的路透社21578數據集。該語料庫數據須要經過簽署協議和發送郵件獲取。（2.5GB） https://trec.nist.gov/data/reuters/reuters.html

SaudiNewsNet：31030條從不一樣沙特阿拉伯的網絡報紙上摘取的標題和元數據。（2MB） https://github.com/ParallelMazen/SaudiNewsNet

垃圾短信數據集：5574條被標記爲合法/不合法的、未經編碼的真實英文短信消息。（200KB） http://www.dt.fee.unicamp.br/~tiago/smsspamcollection/

《南方公園》數據集：csv格式文件，包含季、集、角色和臺詞的劇本信息。（3.6MB） https://github.com/BobAdamsEE/SouthParkData

Stackoverflow：730萬條stackoverflow問題和其餘stackexchange（問答工具）上的問答。 http://data.stackexchange.com/

Twitter的Cheng-Caverlee-lee用戶定位數據集：2009年9月-2010年1月的推文定位。（400MB） https://archive.org/details/twitter_cikm_2010

Twitter上關於新英格蘭愛國者隊「放氣門」事件的輿情：在2015年超級碗比賽前，人們對被放了氣的橄欖球以及愛國者隊是否存在欺騙行爲議論紛紛。該數據集提供了醜聞發生的這段時間裏Twitter上的輿情，以便評估公衆對整個事件的感覺。（2MB） https://www.figure-eight.com/data-for-everyone/

Twitter上對於左傾相關事件的輿情分析：關於墮胎合法化、女權主義、希拉里·克林頓等各類左傾相關事件的推文，推文將根據內容推斷被分類爲For（支持）、Against（反對）、Neutral（中立）或None of the above（以上都不是）。（600KB） https://www.figure-eight.com/data-for-everyone/

Twitter的Sentiment140（情感分析數據集）：關於品牌/關鍵詞的推文，網站包括論文和研究想法。（77MB） http://help.sentiment140.com/for-students/

Twitter上關於自動駕駛汽車的輿情分析：貢獻者們閱讀推文後，將推文裏對於自動駕駛的態度分爲很是積極、較積極、中立、較消極和很是消極。若是推文與自動駕駛汽車無關，他們也要標記出來。（1MB） https://www.figure-eight.com/data-for-everyone/

Twitter上定位於東京的推文：20萬條來自東京的推文。（47MB） http://followthehashtag.com/datasets/200000-tokyo-geolocated-tweets-free-twitter-dataset/

Twitter上定位於英國的推文：17萬條來自英國的推文。（47MB） http://followthehashtag.com/datasets/170000-uk-geolocated-tweets-free-twitter-dataset/

Twitter上定位於美國的推文：20萬條來自美國的推文。（45MB） http://followthehashtag.com/datasets/free-twitter-dataset-usa-200000-free-usa-tweets/

Twitter上對於美國各大航空公司的態度（Kaggle數據集）：這是一個對於美國各大航空公司存在問題的情感分析任務。該數據集爬取了2015年2月的推文，貢獻者們將其分類爲積極、消極和中立，對於那些分類爲消極態度的推文，還會給出緣由（例如「飛機晚點」或「服務態度差」等）。（2.5MB） https://www.kaggle.com/crowdflower/twitter-airline-sentiment

基於新聞標題的美國經濟表現：根據新聞標題頭條和摘要，對新聞和美國經濟的相關性進行排序。（5MB） https://www.figure-eight.com/data-for-everyone/

城市詞典（美國在線俚語詞典）裏的單詞和定義：一個通過清洗的CSV語料庫，包含截至2016年5月的城市詞典內全部260萬個詞彙、定義、做者和投票狀況。（238MB） https://www.kaggle.com/therohk/urban-dictionary-words-dataset

亞馬遜的Wesbury Lab Usenet語料庫：2005-2010的47,860個英文新聞組的郵件匿名彙編。（40GB） http://aws.amazon.com/de/datasets/the-westburylab-usenet-corpus/

維基百科的Wesbury Lab語料庫：2010年4月維基百科英文部分中全部文章的快照。網站詳細描述了數據是如何被處理的——即去除全部連接和不相關的材料（如導航文本等）。語料庫是未經標記的原始文本，它被用於Stanford NLP。 http://www.psych.ualberta.ca/~westburylab/downloads/westburylab.wikicorp.download.html

Stanford NLP跳轉的連接： https://scholar.google.com/scholar?oi=bibs&hl=en&cites=9060444488071171966&as_sdt=5

維基百科提取（WEX）：經處理後的英文版維基百科。（66GB） http://aws.amazon.com/de/datasets/wikipedia-extraction-wex/

維基百科的XML格式數據：全部維基媒體（Wikimedia）的完整複製，以維基文本元（wikitext source）和元數據的形式嵌入到XML中。（500GB） http://aws.amazon.com/de/datasets/wikipedia-xml-data/

雅虎問答中的綜合問題與答案：截至2007年10月25日的雅虎問答語料庫，包含4,483,032條問答。（3.6GB） http://webscope.sandbox.yahoo.com/catalog.php?datatype=l

雅虎問答中用法語提問的問題：2006-2015年雅虎問答語料庫的子數據集，包含170萬條法語問答。（3.8GB） https://webscope.sandbox.yahoo.com/catalog.php?datatype=l

雅虎問答中的關於「如何作」的問題[LZ2]：根據語言屬性從2007年10月25日雅虎問答語料庫選出的子集，包含142,627條問答。（104MB） https://webscope.sandbox.yahoo.com/catalog.php?datatype=l

雅虎從公開網頁中提取的HTML格式頁面：包含少許複雜HTML格式的頁面和267萬個複雜格式的頁面。（50+ GB） https://webscope.sandbox.yahoo.com/catalog.php?datatype=l

雅虎從公開網頁頁面中提取的元數據：1億個RDF格式數據的三元組。（2GB） https://webscope.sandbox.yahoo.com/catalog.php?datatype=l

雅虎的N元語法模型表示（N-Gram Representations）數據：該數據集包含N元語法表示數據，這些數據能夠用於IR研究中常見的查詢重寫（query rewriting）任務，也能夠用於NLP研究中常見的詞語和句子類似性分析任務。（2.6GB） https://webscope.sandbox.yahoo.com/catalog.php?datatype=l

雅虎的N元語法模型數據（版本2.0）：n元語法模型數據（n=1-5），從一個包含1460萬個文檔（1.26億條不重複的語句，34億個運行詞）的語料庫中提取，這些文檔是從12000個面向新聞的站點裏爬取的。（12 GB） https://webscope.sandbox.yahoo.com/catalog.php?datatype=l

雅虎搜索日誌的相關性判斷：匿名雅虎搜索日誌的相關性判斷。（1.3GB） https://webscope.sandbox.yahoo.com/catalog.php?datatype=l

雅虎的英語維基百科語義註釋快照：包含從2006年11月4日開始的經一些公開的NLP工具處理後的英文維基百科，共有1,490,688個條目。（6GB） https://webscope.sandbox.yahoo.com/catalog.php?datatype=l

Yelp：包含餐廳排名和220萬條評論。 https://www.yelp.com/dataset

Youtube：170萬條YouTube視頻描述。（torrent格式） https://www.reddit.com/r/datasets/comments/3gegdz/17_millions_youtube_videos_description/

資源

優秀的公開NLP數據集（包含更多清單） https://github.com/awesomedata/awesome-public-datasets

亞馬遜公開數據集 https://aws.amazon.com/de/datasets/

CrowdFlower數據集（包含大量小調查和對特定任務以衆包方式得到的數據） https://www.crowdflower.com/data-for-everyone/

Kaggle數據集 https://www.kaggle.com/datasets

Kaggle比賽（請確保這些kaggle比賽數據能夠在比賽以外使用） https://www.kaggle.com/competitions

開放圖書館 https://openlibrary.org/developers/dumps

Quora（大部分爲已標註好的語料庫） https://www.quora.com/Datasets-What-are-the-major-text-corpora-used-by-computational-linguists-and-natural-language-processing-researchers-and-what-are-the-characteristics-biases-of-each-corpus