論文閱讀:STC data set for single-turn short text conversation——Wang 2013 Noah's Ark Lab

首先吐槽一句,不公開完整human labelled 數據集…… 這是一個基於Sina微博的數據集,是從一些中國搞NLP的高級知識分子的微博posts中爬下來的(posts的質量較高),但是comments(replies)是所有人都可以發的。 一、data set構建的方法如下: 1、 crawling the community of users 首先確定10個在sina微博上活躍的NLP大牛
相關文章
相關標籤/搜索