轉自: Linguistic Data Consortium (LDC)網站
由於Kaldi裏面各類語料涉及到LDC,蒐羅一下,好像並無相應的教程和網站用法。。。。ui
搞 NLP 的人常常會聽到一個神祕的名字 LDC,由於大量的論文所使用的數據都來自於 LDC,本文就來揭露其神祕面目。htm
About LDC:教程
LDC,全名 Linguistic Data Consortium,是一個由大學、圖書館、企業、政府、研究機構共同合辦的聯合企業。
成立於 1992 年,目前由賓夕法尼亞大學主要運營。
LDC 最初的角色只是保存與分發科研要用到的語言數據,後來有錢了,就也本身收集、本身構建一些數據,漸漸發展成如今的規模:擁有很是多的語言數據資源,成爲主要的科研語言資源管理分發機構。
如今每一年 LDC 大概新增 30~36 個語料。ip
Join LDC:資源
任何機構交錢就能夠加入 LDC,加入後就成爲了 LDC 的會員,購買語料能夠享受會員價(對於不少語料來講就是免費,主要是老版本語料)。
以 PTB 語料爲例,會員價 0,非會員價 1700 刀。
那麼會員價是多少呢?get
對於非盈利機構,價格 2400 刀 / 年
對於盈利性機構,價格 24 刀 / 年io
在會員期間獲取的數據即便不是會員了也能夠永久使用(可是盈利性機構不知道是否是這樣…… 網站上寫的很模糊)。
想要把數據拷貝給別人也是要單獨交錢的,不過會員依舊有優惠。gui
Data:支付
LDC 的語料仍是很豐富的,中英日法阿拉伯,各類語言,各類語料,五花八門,不過也都真心貴啊 = =
瀏覽所有語料:https://catalog.ldc.upenn.edu/byyear
Data Scholarships:
LDC 給窮學生提供了免費申請數據的機會……
申請人須要知足兩個條件:
一、是在校本科生或研究生(沒有博士?仍是說 graduate student 包含了博士?),並且所在學校沒有買 LDC 的數據。
二、本人有很好的研究計劃並且是真窮…… 支付不起那個數據費用。
申請人要提交申請說明本身要哪一個數據、作什麼研究、成功概率有多大,此外,還要申請人的導師或系主任提供證明。
一年有兩個申請期,春秋各一次。
-
下面開始我的吐槽:
黑…… 真 TM 黑……
不過想一想 visual studio 要上千刀,matlab 要上千刀…… 我真有點懷疑要多有錢才能搞學術……
ref: https://www.ldc.upenn.edu/about/ldc-overview