標註工具

1、NLP標註工具BRAT

BRAT是一個基於web的文本標註工具,主要用於對文本的結構化標註,用BRAT生成的標註結果可以把無結構化的原始文本結構化,供計算機處理。利用該工具能夠方便的得到各項NLP任務須要的標註語料。如下是利用該工具進行命名實體識別任務的標註例子。
WeTest輿情團隊在使用:http://wetest.qq.com/bee/
使用案例:http://blog.csdn.net/owengbs/article/details/49780225php

這裏寫圖片描述

這裏寫圖片描述
.
.html


2、VS標註工具——LabelImg

一、PyQt

用 PyQt 寫的, 很輕量, Linux/macOS/Windows 全平臺都可運行.
工具github網址:https://github.com/tzutalin/labelImg
知乎介紹網址:有圖像標註工具推薦或者分享嗎?
這裏寫圖片描述python

這裏寫圖片描述

二、Vatic

參考:人工智能AI工具-視頻標註工具vatic的搭建和使用
視頻標註工具vatic,Vatic源自MIT的一個研究項目(Video Annotation Tool from Irvine, California)。輸入一段視頻,支持自動抽取成粒度合適的標註任務並在流程上支持接入亞馬遜的衆包平臺Mechanical Turk。mysql

網址:http://web.mit.edu/vondrick/vatic/linux

Vatic源自MIT的一個研究項目(Video Annotation Tool from Irvine, California)。輸入一段視頻,支持自動抽取成粒度合適的標註任務並在流程上支持接入亞馬遜的衆包平臺Mechanical Turk。除此以外,其還有不少實用的特性:
1.簡潔使用的GUI界面,支持多種快捷鍵操做
2.基於opencv的tracking,這樣就能夠抽樣的標註,減小工做量
具體使用時,能夠設定要標註的物體label,好比:水果,人,車,等等。而後指派任務給到衆包平臺(也但是本身的數據工程師)。現階段支持的標註樣式是框(box)。一個示例,下圖標註了NBA直播比賽中的運動員
這裏寫圖片描述c++

.git

三、BBox-Label-Tool

這裏寫圖片描述
.github

四、圖像標註VS2013項目

有人本身寫了一個版本:
打框的代碼(c++)我封裝成了dll,下載地址:圖像標註VS2013項目 (個人環境是win7vs2013旗艦版,win8 win10好像不能運行)web

別人封裝的opencv動態庫,如今修改成opencv2.4.10,64位,vs2013,按網上教程配置好opencv,資源地址:
圖像標註EXE-2016-10-18
上面的代碼好像忘寫操做說明了,這裏寫一下:
(1)圖片顯示出來後,輸入法切換到英文;
(2)在目標的左上角按下鼠標左鍵,拉一個包圍框到目標右下角,而後鍵盤輸入標籤(一個字符)
(3)繼續(2)操做,直到框完該張圖片上的目標;
(4)按n進入下一張,esc退出。
注意:標籤只能輸入一個字符,你能夠在生成的txt文件中替換成你實際的標籤。
.算法

五、Yolo_mark

YOLO V2 準備數據的圖形界面目標邊界框標註工具 AlexeyAB/Yolo_mark
.

六、視頻標註工具

CDVA(compact descriptor for video analysis),主要是基於CDVS中的緊湊視覺描述子來作視頻分析,以前是緊湊視覺描述子主要應用在圖像檢索領域。須要製做新的數據集,對視頻幀進行標註,因此根據網上一個博主的標註工具進行了必定的修改,實現的功能是在每一幀中將須要標註的區域用鼠標選取4個點,順序是順時針。由於四邊形的範圍更廣,以前的一些人直接標註了矩形,可是在一些仿射變換中,每每矩形的定位效果很差,矩形定位應該比較適合於人臉定位和行人定位之中。
http://www.cnblogs.com/louyihang-loves-baiyan/p/4457462.html

.
.


3、Amazon’s Mechanical Turk 離線工做框架

一個開源的Amazon’s Mechanical Turk 離線工做框架,基於Django搭建的
github網址:https://github.com/hltcoe/turkle
.
.


4、用已訓練來進行圖像標註

《使用深度學習和Fisher向量進行圖片標註》(paper

主講人Lior Wolf,特拉維夫大學的教員在一次倫敦深度學習會議上的一次公開演講:
爲了實現圖像標註和搜索,他們最開始用CNNs將圖片轉換成向量,用Word2Vec將詞語轉換成向量。大部分研究工做都集中於如何將詞語向量結合到語句向量之中,由此產生了基於Fisher向量的模型。一旦他們獲得了語句向量,他們使用典型相關分析(CCA)將圖片表示和語句表示投射到同一空間裏,使圖像和句子能夠匹配,找到最近鄰的部分。

參考自博客:2015倫敦深度學習峯會筆記:來自DeepMind、Clarifai等大神的分享
.

5、snape

人工數據集生成工具,來看一段有趣的獨白:

Snape is primarily used for creating complex datasets that challenge
students and teach defense against the dark arts of machine learning.

專門是針對機器學習領域自動生成數據集。
安裝:
Via Github

git clone https://github.com/mbernico/snape.git cd snape python setup.py install
  • 1
  • 2
  • 3
  • 1
  • 2
  • 3

來自:https://github.com/mbernico/snape

.
.


延伸一 國內一些衆包的數據標註服務商

一、敲寶網——衆包

這裏寫圖片描述

裏面確實有一些圖像分類、圖像標註的任務。可是也不是不少。

二、小魚兒網

個人技能時間交易平臺小魚兒網成立最晚,但卻走了最具互聯網思惟的盈利之路,增值服務盈利,平臺在整個過程交易中不收取費用,提供大數據分析,篩選服務者等增值服務,主動權徹底交給用戶,互聯網時代,流量爲王,用戶爲王,小魚兒網的盈利模式無疑向這個宗旨貼近的,長期來看,這種盈利模式或許最聰明。

挺大的,可是沒有看到有圖像的任務。

三、威客-創意,一品威客網

中國最專業威客網站一品威客網借鑑了豬八戒盈利模式的短板,對用戶劃分普通用戶和vip用戶,對普通用戶實行免費,對VIP用戶收取會員費,在互聯網時代,有效的籠絡住了大批用戶的心,不失爲一種好的盈利模式。
國內最大的衆包了吧,可是圖像標識項目不多,商家也幾乎沒有看到..

四、數據堂

這裏寫圖片描述

確確實實有數據標註,並且有文本、語音、圖片採集項目。

五、百度衆包

這裏寫圖片描述

裏面有不少任務與案例,文本、語音、圖片都有。

六、阿里衆包

圖像採集任務?
這裏寫圖片描述

七、薈萃公司——薈萃-薈集人力之萃

http://huicui.me/?from=singlemessage&isappinstalled=0
圖片識別
智能識別圖片內容、屬性、分類、是否涉黃等,支持單圖多圖多種形式。

語音轉化
可替您將文字轉成語音、文字轉成方言(真人語音),識別語音、歌曲等。

視頻識別
能夠爲您完成視頻內容收集,字幕識別,視頻內容鑑定等內容。

視頻創做
爲您拍攝或收集某一主題的視頻,以小視頻形式上傳。

網頁展現任務
可自定義任意網頁在用戶端展現時間,如新品推廣、廣告觀看等類型。

自定義任務
搶票?秒殺?聯繫上下文?只要你腦洞夠大,任意H5網頁類任務皆可接入。

八、地平線公司
http://www.horizon-robotics.com/index_cn.html

地平線具備世界領先的深度學習和決策推理算法開發能力,將算法集成在高性能、低功耗、低成本的嵌入式人工智能處理器及軟硬件平臺上。地平線目前提供基於ARM/FPGA等處理器的解決方案,同時開發自主設計研發的Brain Processing Unit (BPU) — 一種創新的嵌入式人工智能處理器架構IP,提供設備端上完整開放的嵌入式人工智能解決方案。

公司核心業務面向智能駕駛和智能生活等應用場景,目前已成功推出了面向智能駕駛應用的「雨果」平臺及面向智能生活的「安徒生」平臺,與國內國際頂尖的汽車Tier 一、OEMs及家電廠商展開了深刻的合做,並在成立僅一年多的時間內成功推出量產產品。地平線也正積極搭建開放的嵌入式人工智能產業生態,與產業上下游共同合做發展。

2017年1月6日,地平線與英特爾於CES聯合發佈了基於單目攝像頭和FPGA的最新ADAS系統,可實如今高速公路和市區道路場景下,同時對行人、車輛、車道線和可行駛區域的實時檢測和識別。2016年8月1日,地平線與美的聯合發佈了「智能王」櫃機空調,擁有手勢控制、智能送風、智能安防三大新功能。

.
.


6、圖像數據集

一部分來源:深度學習視覺領域經常使用數據集彙總

一、LSUN:用於場景理解和多任務輔助(房間佈局估計,顯着性預測等)。

有:Bedroom

地址:http://lsun.cs.princeton.edu/2016/

二、行人檢測DataSets

(1).基於背景建模:利用背景建模方法,提取出前景運動的目標,在目標區域內進行特徵提取,而後利用分類器進行分類,判斷是否包含行人;
(2).基於統計學習的方法:這也是目前行人檢測最經常使用的方法,根據大量的樣本構建行人檢測分類器。提取的特徵主要有目標的灰度、邊緣、紋理、顏色、梯度直方圖等信息。分類器主要包括神經網絡、SVM、adaboost以及如今被計算機視覺視爲寵兒的深度學習。

Caltech行人數據庫http://www.vision.caltech.edu/Image_Datasets/CaltechPedestrians/

該數據庫是目前規模較大的行人數據庫,採用車載攝像頭拍攝,約10個小時左右,視頻的分辨率爲640×480,30幀/秒。標註了約250,000幀(約137分鐘),350000個矩形框,2300個行人,另外還對矩形框之間的時間對應關係及其遮擋的狀況進行標註。數據集分爲set00~set10,其中set00~set05爲訓練集,set06~set10爲測試集(標註信息還沒有公開)。性能評估方法有如下三種:(1)用外部數據進行訓練,在set06~set10進行測試;(2)6-fold交叉驗證,選擇其中的5個作訓練,另一個作測試,調整參數,最後給出訓練集上的性能;(3)用set00~set05訓練,set06~set10作測試。因爲測試集的標註信息沒有公開,須要提交給Pitor Dollar。結果提交方法爲每30幀作一個測試,將結果保存在txt文檔中(文件的命名方式爲I00029.txt I00059.txt ……),每一個txt文件中的每行表示檢測到一個行人,格式爲「[left, top,width, height, score]」。若是沒有檢測到任何行人,則txt文檔爲空。該數據庫還提供了相應的Matlab工具包,包括視頻標註信息的讀取、畫ROC(Receiver Operatingcharacteristic Curve)曲線圖和非極大值抑制等工具。

其餘數據集可參考:行人檢測:http://www.52ml.net/17004.html

三、人臉數據庫UMDFaces等

(1)UMDFaces
http://www.umdfaces.io/
不只有人臉的目標檢測數據,還有關鍵點的數據,很是適合作訓練。
就是比較大,總共有三個文件,一共8000+個類別,總共36W張人臉圖片,全都是通過標註的樣本,標註信息保存在csv文件中,除了人臉的box,還有人臉特徵點的方位信息,強力推薦!

(2)人臉識別數據庫
1. 李子青組的 CASIA-WebFace(50萬,1萬我的). 需申請.Center for Biometrics and Security Research
2. 華盛頓大學百萬人臉MegaFace數據集. 郵件申請, 是一個60G的壓縮文件. MegaFace
3. 南洋理工 WLFDB. (70萬+,6,025). 需申請. WLFDB : Weakly Labeled Faces Database
4. 微軟的MSRA-CFW ( 202792 張, 1583人). 能夠直接經過OneDrive下載.MSRA-CFW: Data Set of Celebrity Faces on the Web
5. 湯曉歐實驗室的CelebA(20萬+), 標註信息豐富. 如今能夠直接從百度網盤下載 Large-scale CelebFaces Attributes (CelebA) Dataset
6. FaceScrub. 提供圖片下載連接(100,100張,530人). vintage – resources

做者:疾如風
連接:https://www.zhihu.com/question/33505655/answer/67492825
來源:知乎

四、搜狗實驗室數據集:

http://www.sogou.com/labs/dl/p.html

互聯網圖片庫來自sogou圖片搜索所索引的部分數據。其中收集了包括人物、動物、建築、機械、風景、運動等類別,總數高達2,836,535張圖片。對於每張圖片,數據集中給出了圖片的原圖、縮略圖、所在網頁以及所在網頁中的相關文本。200多G

格式說明:
共包括三個文件:Meta_Data,Original_Pic,Evaluation_Data。其中Meta_Data存儲圖片的相關元數據;Original_Pic中存儲圖片的原圖;Evaluation_Data是識圖搜索結果的人工標註集合。
Meta_Data文件包含全部圖片的相關元數據,格式以下:
<PIC> <PIC_URL>圖片在互聯網中的URL地址</PIC_URL> <PAGE_URL>圖片所在網頁的URL地址</PAGE_URL> <ALT_TEXT>圖片的替換文字</ALT_TEXT> <ANCHOR_TEXT>以圖片爲目標的超連接的顯示文本</ANCHOR_TEXT> <SUR_TEXT1>頁面中提取的圖片上方的文本</SUR_TEXT1> <SUR_TEXT2>頁面中提取的圖片下方的文本</SUR_TEXT2> <PAGE_TITLE>圖片所在網頁的標題</PAGE_TITLE> <CONTENT_TITLE>圖片所在網頁的正文標題</ CONTENT_TITLE> <WIDTH>圖片的寬度</WIDTH> <HEIGHT>圖片的高度</HEIGHT> <ORIGINAL_PIC_NAME>圖片在Original_Pic下的文件名</ ORIGINAL_PIC_NAME> </PIC> 圖片原圖存儲在Original_Pic文件中,每一個圖片二進制數據保存成一個單獨文件,文件名在Meta_Data的元信息中指明。 Evaluation_Data文件包含全部圖片的相關元數據,格式以下: <PIC> <QUERY_URL>查詢圖片在互聯網中的URL地址</QUERY_URL> <RESULT_URL>搜索結果的 PIC_URL,多個分號隔開</RESULT_URL> </PIC>
  • 1
  • 2
  • 3
  • 4
  • 5
  • 6
  • 7
  • 8
  • 9
  • 10
  • 11
  • 12
  • 13
  • 14
  • 15
  • 16
  • 17
  • 18
  • 19
  • 20
  • 21
  • 22
  • 23
  • 24
  • 1
  • 2
  • 3
  • 4
  • 5
  • 6
  • 7
  • 8
  • 9
  • 10
  • 11
  • 12
  • 13
  • 14
  • 15
  • 16
  • 17
  • 18
  • 19
  • 20
  • 21
  • 22
  • 23
  • 24

五、Imagenet數據集

業界標杆
Imagenet數據集有1400多萬幅圖片,涵蓋2萬多個類別;其中有超過百萬的圖片有明確的類別標註和圖像中物體位置的標註,具體信息以下:

1)Total number of non-empty synsets: 21841

2)Total number of images: 14,197,122

3)Number of images with bounding box annotations: 1,034,908

4)Number of synsets with SIFT features: 1000

5)Number of images with SIFT features: 1.2 million

Imagenet數據集是目前深度學習圖像領域應用得很是多的一個領域,關於圖像分類、定位、檢測等研究工做大多基於此數據集展開。Imagenet數據集文檔詳細,有專門的團隊維護,使用很是方便,在計算機視覺領域研究論文中應用很是廣,幾乎成爲了目前深度學習圖像領域算法性能檢驗的「標準」數據集。

與Imagenet數據集對應的有一個享譽全球的「ImageNet國際計算機視覺挑戰賽(ILSVRC)」,以往通常是google、MSRA等大公司奪得冠軍,今年(2016)ILSVRC2016中國團隊包攬所有項目的冠軍。

Imagenet數據集是一個很是優秀的數據集,可是標註不免會有錯誤,幾乎每一年都會對錯誤的數據進行修正或是刪除,建議下載最新數據集並關注數據集更新。

數據集大小:~1TB(ILSVRC2016比賽所有數據)

下載地址:

http://www.image-net.org/about-stats

六、COCO數據集

COCO數據集由微軟贊助,其對於圖像的標註信息不只有類別、位置信息,還有對圖像的語義文本描述,COCO數據集的開源使得近兩三年來圖像分割語義理解取得了巨大的進展,也幾乎成爲了圖像語義理解算法性能評價的「標準」數據集。

Google開源的開源了圖說生成模型show and tell就是在此數據集上測試的,想玩的能夠下下來試試哈。

數據集大小:~40GB

下載地址:http://mscoco.org/

COCO(Common Objects in Context)是一個新的圖像識別、分割和圖像語義數據集,它有以下特色:

1)Object segmentation

2)Recognition in Context

3)Multiple objects per image

4)More than 300,000 images

5)More than 2 Million instances

6)80 object categories

7)5 captions per image

8)Keypoints on 100,000 people

七、PASCAL VOC

PASCAL VOC挑戰賽是視覺對象的分類識別和檢測的一個基準測試,提供了檢測算法和學習性能的標準圖像註釋數據集和標準的評估系統。PASCAL VOC圖片集包括20個目錄:人類;動物(鳥、貓、牛、狗、馬、羊);交通工具(飛機、自行車、船、公共汽車、小轎車、摩托車、火車);室內(瓶子、椅子、餐桌、盆栽植物、沙發、電視)。PASCAL VOC挑戰賽在2012年後便再也不舉辦,但其數據集圖像質量好,標註完備,很是適合用來測試算法性能。

數據集大小:~2GB

下載地址:

http://host.robots.ox.ac.uk/pascal/VOC/voc2012/index.html

八、Open Image

過去幾年機器學習的發展使得計算機視覺有了快速的進步,系統可以自動描述圖片,對共享的圖片創造天然語言迴應。其中大部分的進展均可歸因於 ImageNet 、COCO這樣的數據集的公開使用。谷歌做爲一家偉大的公司,天然也要作出些表示,因而乎就有了Open Image。

Open Image是一個包含~900萬張圖像URL的數據集,裏面的圖片經過標籤註釋被分爲6000多類。該數據集中的標籤要比ImageNet(1000類)包含更真實生活的實體存在,它足夠讓咱們從頭開始訓練深度神經網絡。

谷歌出品,必屬精品!惟一不足的可能就是它只是提供圖片URL,使用起來可能不如直接提供圖片方便。

此數據集,筆者也未使用過,不過google出的東西質量應該仍是有保障的。

數據集大小:~1.5GB(不包括圖片)

下載地址:

https://github.com/openimages/dataset

九、Youtube-8M

Youtube-8M爲谷歌開源的視頻數據集,視頻來自youtube,共計8百萬個視頻,總時長50萬小時,4800類。爲了保證標籤視頻數據庫的穩定性和質量,谷歌只採用瀏覽量超過1000的公共視頻資源。爲了讓受計算機資源所限的研究者和學生也能夠用上這一數據庫,谷歌對視頻進行了預處理,並提取了幀級別的特徵,提取的特徵被壓縮到能夠放到一個硬盤中(小於1.5T)。

此數據集的下載提供下載腳本,因爲國內網絡的特殊緣由,下載此數據常常斷掉,不過還好下載腳本有續傳功能,過一下子從新鏈接就能再連上。能夠寫一個腳本檢測到下載中斷後就sleep一段時間而後再從新請求下載,這樣就不用一直守着了。(截至發文,斷斷續續的下載,筆者表示還沒下完呢……)

數據集大小:~1.5TB

下載地址:https://research.google.com/youtube8m/

十、深度學習數據集收集網站

http://deeplearning.net/datasets/**

收集大量的各深度學習相關的數據集,但並非全部開源的數據集都能在上面找到相關信息。

十一、CoPhIR

http://cophir.isti.cnr.it/whatis.html

雅虎發佈的超大Flickr數據集,包含1億多張圖片。

十二、MirFlickr1M

http://press.liacs.nl/mirflickr/

Flickr數據集中挑選出的100萬圖像集。

1三、SBU captioned photo dataset

http://dsl1.cewit.stonybrook.edu/~vicente/sbucaptions/

Flickr的一個子集,包含100萬的圖像集。

1四、NUS-WIDE

http://lms.comp.nus.edu.sg/research/NUS-WIDE.htm

Flickr中的27萬的圖像集。

1五、MSRA-MM

http://research.microsoft.com/en-us/projects/msrammdata/

包含100萬的圖像,23000視頻;微軟亞洲研究院出品,質量應該有保障。
.

1六、多物體+關係數據庫:HICO & HICO-DET

HICO has images containing multiple objects and these objects have been tagged along with their relationships. The proposed problem is for algorithms to be able to dig out objects in an image and relationship between them after being trained on this dataset. I expect multiple papers to come out of this dataset in future.
這裏寫圖片描述
.

1七、QA型圖像數據庫:CLEVR: A Diagnostic Dataset for Compositional Language and Elementary Visual Reasoning

CLEVR is an attempt by Fei-Fei Li’s group, the same scientist who developed the revolutionary ImageNet dataset. It has objects and questions asked about those objects along with their answers specified by humans. The aim of the project is to develop machines with common sense about what they see. So for example, the machine should be able to find 「an odd one out」 in an image automatically. You can download the dataset here.
這裏寫圖片描述
.

1八、Driver Speed Dataset

A 200 Gb huge dataset, which is aimed to calculate speed of moving vehicles. Can be downloaded here.
這裏寫圖片描述


7、「稀有」實驗室

一、生物識別與安全技術研究中心

CASIA行爲分析數據庫共有1446條視頻數據,是由室外環境下分佈在三個不一樣視角的攝像機拍攝而成,爲行爲分析提供實驗數據。數據分爲單人行爲和多人交互行爲,單人行爲包括走、跑、彎腰走、跳、下蹲、暈倒、徘徊和砸車,每類行爲有24人蔘與拍攝,每人4次左右。多人交互行爲有搶劫、打鬥、尾隨、遇上、碰頭、會合和超越,每兩人1次或2次。

來源:http://www.cbsr.ia.ac.cn/china/Action%20Databases%20CH.asp

該實驗室擁有的數據庫:虹膜數據庫,步態數據庫,人臉數據庫,指紋數據庫,掌紋數據庫,筆跡數據庫,行爲分析數據庫
該實驗室研究成果:
近紅外的人臉身份識別技術和系統, 中遠距離人臉識別系統, 人臉檢測與跟蹤, 多目標遮擋跟蹤, 目標檢測、跟蹤與分類, 異常動做檢測, 人異常行爲檢測與報警, 交通車輛計數演示, 主從攝像機跟蹤,
多攝像機數據融合(全景監控地圖), 交通擁堵檢測與報警, 車輛異常行爲檢測與報警, 夜間跟蹤演示, 動態場景下的主動跟蹤, 視頻圖像序列拼接, 人數統計, 視頻濃縮

二、中文語言資源聯盟
中文語言資源聯盟,英文譯名Chinese Linguistic Data Consortium,縮寫爲CLDC。 CLDC是由中國中文信息學會語言資源建設和管理工做委員會發起,由中文語言(包括文本、語音、文字等)資源建設和管理領域的科技工做者自願組成的學術性、公益性、非盈利性的社會團體,其宗旨是團結中文語言資源建設領域的廣大科技工做者,建成表明中文信息處理國際水平的、通用的中文語言語音資源庫。
這裏寫圖片描述
固然,裏面的內容都是收費的,並且不便宜,不過畢竟是好東西~

三、中科院自動化研究所 模式識別國家重點實驗室
這裏寫圖片描述

四、北郵模式識別實驗室
http://www.pris.net.cn/

圖像識別方向的技術有:
高清車牌及車標識別技術、不良圖片過濾、圖片檢索技術

五、中國科學技術大學,圖像處理實驗室
http://image.ustc.edu.cn/project.html
國家天然基金重點項目:高分辨率SAR圖像目標認知模型及高效算法
國家天然科學基金項目:星上原始超光譜圖像稀疏編碼壓縮技術研究
973課題:稀疏微波成像數據壓縮及特徵理解
果真有錢!!

六、國內高校開源鏡像站友情連接
清華大學開源鏡像站
http://mirror.tuna.tsinghua.edu.cn/
中國科學技術大學開源鏡像站
http://mirrors.ustc.edu.cn
北京交通大學開源鏡像站
http://mirror.bjtu.edu.cn/cn/
蘭州大學開源鏡像站
http://mirror.lzu.edu.cn/
廈門大學開源鏡像站
http://mirrors.xmu.edu.cn/
上海交通大學開源鏡像站
http://ftp.sjtu.edu.cn/
東軟信息學院開源鏡像站
http://mirrors.neusoft.edu.cn/

七、網頁版呈現各種模型的實現

https://github.com/hwalsuklee/awesome-deep-vision-web-demo
這裏寫圖片描述
.


8、中文文本語料庫

可參考:【語料庫】語料庫資源彙總
NLP經常使用信息資源:https://github.com/memect/hao/blob/master/awesome/nlp.md
FudanNLP (FNLP)(FNLP主要是爲中文天然語言處理而開發的工具包,也包含爲實現這些任務的機器學習算法和數據集。 ):https://github.com/FudanNLP/fnlp

(一) 國家語委

1國家語委現代漢語語料庫http://www.cncorpus.org/

現代漢語通用平衡語料庫如今從新開放網絡查詢了。重開後的在線檢索速度更快,功能更強,同時提供檢索結果下載。現代漢語語料庫在線提供免費檢索的語料約2000萬字,爲分詞和詞性標註語料。

2古代漢語語料庫http://www.cncorpus.org/login.aspx

網站如今還增長了一億字的古代漢語生語料,研究古代漢語的也能夠去查詢和下載。同時,還提供了分詞、詞性標註軟件、詞頻統計、字頻統計軟件,基於國家語委語料庫的字頻詞頻統計結果和發佈的詞表等,以供學習研究語言文字的老師同窗使用。

(二) 北京大學計算語言學研究所

1《人民日報》標註語料庫http://www.icl.pku.edu.cn/icl_res/

《人民日報》標註語料庫中一半的語料(1998年上半年)共1300萬字已經經過《人民日報》新聞信息中心公開提供許可以使用權。其中一個月的語料(1998年1月)近200萬字在互聯網上公佈,供自由下載。

(三) 北京語言大學

漢語國際教育技術研發中心:HSK動態做文語料庫http://202.112.195.192:8060/hsk/login.asp

語言研究所:北京口語語料查詢系統(B J K Y)http://www.blcu.edu.cn/yys/6_beijing/6_beijing_chaxun.asp

還有不少,可參考:【語料庫】語料庫資源彙總

百度開源的中文問答語料:

WebQA: A Chinese Open-Domain Factoid Question Answering Dataset
發佈的文件有267MB,但對於咱們來講,裏邊的東西貌似有點過多了,由於裏邊包含了分詞結果、序列標註結果、詞向量結果,貌似是內部研究小組直接用來作的實驗。對於咱們來講,顯然只須要純粹的問答語料就好了。
相關介紹可見: 百度的中文問答數據集WebQA

微博終結者爬蟲

這個項目致力於對抗微博的反爬蟲機制,集合衆人的力量把微博成千上萬的微博評論語料爬取下來並製做成一個開源的高質量中文對話語料,推進中文對話系統的研發。
github:https://github.com/jinfagang/weibo_terminater

相關文章
相關標籤/搜索