keywords: NLP, DataSet, corpus processphp
如下處理步驟出自[Mikolov T, et al. Exploiting Similarities among Languages for Machine Translation[J]. Computer Science, 2013.]html
適用領域:機器翻譯git
規模最大的口語領域英中雙語對照數據集。提供了超過1000萬的英中對照的句子對做爲數據集合。全部雙語句對通過人工檢查,數據集從規模、相關度、質量上都有保障。github
訓練集:10,000,000 句
驗證集(同聲傳譯):934 句
驗證集(文本翻譯):8000 句web
https://challenger.ai/datasets/translationapp
適用領域:機器翻譯ide
WMT 是機器翻譯領域最重要的公開數據集。數據規模較大,取決於不一樣的語言,一般在百萬句到千萬句不等。網站
2017年WMT的網址 http://www.statmt.org/wmt17/this
適用領域:機器翻譯翻譯
聯合國平行語料庫由已進入公有領域的聯合國正式記錄和其餘會議文件組成。語料庫包含1990至2014年編寫並經人工翻譯的文字內容,包括以語句爲單位對齊的文本。
語料庫旨在提供多語種的語言資源,幫助在機器翻譯等各類天然語言處理方面開展研究和取得進展。爲了方便使用,本語料庫還提供現成的特定語種雙語文本和六語種平行語料子庫。
介紹:https://conferences.unite.un.org/UNCorpus/zh#introduction
下載:https://conferences.unite.un.org/UNCorpus/zh/DownloadOverview
(目前一直下載不下來)
適用領域:中文分詞
This directory contains the training, test, and gold-standard data
used in the 2nd International Chinese Word Segmentation Bakeoff.
http://sighan.cs.uchicago.edu/bakeoff2005/
適用領域:文本分類
The 20 Newsgroups data set is a collection of approximately 20,000 newsgroup documents, partitioned (nearly) evenly across 20 different newsgroups.
http://qwone.com/~jason/20Newsgroups/
適用領域:文本分類
http://tcci.ccf.org.cn/conference/2017/taskdata.php
https://github.com/FudanNLP/nlpcc2017_news_headline_categorization
適用領域:文本分類
This is a collection of documents that appeared on Reuters newswire in 1987. The documents were assembled and indexed with categories.
http://kdd.ics.uci.edu/databases/reuters21578/reuters21578.html
適用領域:文本分類、事件檢測跟蹤、新詞發現、命名實體識別自動摘要
來自若干新聞站點2012年6月—7月期間國內,國際,體育,社會,娛樂等18個頻道的新聞數據,提供URL和正文信息
http://www.sogou.com/labs/resource/ca.php
清華大學孫茂松老師組清洗並整理的數據(SogouT),Complete training dataset Clean-SogouT is released in https://pan.baidu.com/s/1kXgkyJ9(password: f2ul).
ref: https://github.com/thunlp/SE-WRL
適用領域:文本分類、事件檢測跟蹤、新詞發現、命名實體識別、自動摘要
來自搜狐新聞2012年6月—7月期間國內,國際,體育,社會,娛樂等18個頻道的新聞數據,提供URL和正文信息
http://www.sogou.com/labs/resource/cs.php
適用領域:文本分類
評估文本分類結果的正確性。語料來自搜狐等多個新聞網站近20個頻道。
http://www.sogou.com/labs/resource/tce.php
THUCNews是根據新浪新聞RSS訂閱頻道2005~2011年間的歷史數據篩選過濾生成,包含74萬篇新聞文檔(2.19 GB),均爲UTF-8純文本格式。咱們在原始新浪新聞分類體系的基礎上,從新整合劃分出14個候選分類類別:財經、彩票、房產、股票、家居、教育、科技、社會、時尚、時政、體育、星座、遊戲、娛樂。
ref: http://thuctc.thunlp.org/
適用領域:知識抽取
To develop a probabilistic, symbolic knowledge base that mirrors the content of the world wide web. If successful, this will make text information on the web available in computer-understandable form, enabling much more sophisticated information retrieval and problem solving.
http://www.cs.cmu.edu/afs/cs.cmu.edu/project/theo-11/www/wwkb/
適用領域:word embedding
中文:https://dumps.wikimedia.org/zhwiki/latest/