數據集

下面就介紹一些獲取數據的方法:python

1 爬蟲
最好的方法就是本身寫爬蟲,優勢是能夠自由的定製想要的數據,缺點是週期較長。web

但如今隨着python的興起,愈來愈多的架包的開發,爬蟲愈來愈簡單實現。大數據

跟着下面這個教程能夠很快的實現一個強大的爬蟲:.net

CSDN 爬蟲教程
http://blog.csdn.net/u012052268/article/category/6889435blog

2 數據平臺
國內一些機構貢獻了一些數據集出來,你們能夠在上面下載。教程

2.1 數據堂
數據堂 是國內比較大的大數據交易平臺,上面有許多數據覆蓋面很廣,可是要收費,推薦有財力的實驗室採購。網址: http://www.datatang.com/開發

2.2 搜狗實驗室
搜狗實驗室是比較權威的數據提供方提供的數據質量很高並且數據是免費的。網址:
http://www.sogou.com/labs/io

2.3 天然語言處理與信息檢索共享平臺
是中科大的信息平臺,上面有一些天然語言相關的數據集。網址:
http://www.nlpir.org/?action-category-catid-28下載

2.4 聚數力
http://dataju.cn/Dataju/web/home方法

3 人工收集的
這是幾個博主本身總結的,質量很高。

https://zhuanlan.zhihu.com/p/25138563

https://www.zhihu.com/question/53655758/answer/146351918

相關文章
相關標籤/搜索