如何使用中文維基百科語料

前言 在作天然語言處理時不少時候都會須要中文語料庫,高質量的中文語料庫較難找,維基百科和百度百科算是比較不錯的語料庫。其中維基百科會定時將語料庫打包發佈 https://dumps.wikimedia.org/zhwiki/ ,能夠下載最新版本的語料庫。而百度百科則須要本身去爬,不過也有人把爬好的語料貢獻出來了,https://pan.baidu.com/share/init?surl=i3wvf
相關文章
相關標籤/搜索