獲取並處理中文維基百科語料

中文語料庫中,質量高而又容易獲取的語料庫,應該就是維基百科的中文語料了,並且維基百科至關厚道,每月都把全部條目都打包一次(下載地址在這裏:https://dumps.wikimedia.org/zhwiki/),供全世界使用,這纔是真正的「取之於民,回饋於民」呀。遺憾的是,因爲天朝的無理封鎖,中文維基百科的條目到目前只有91萬多條,而百度百科、互動百科都有千萬條了(英文維基百科也有上千萬了)。儘管
相關文章
相關標籤/搜索