維基百科簡體中文語料的獲取

  最近作實驗須要較大規模的中文語料,很天然的就想到使用維基百科的中文數據。python   使用維基百科作訓練語料有不少好處:正則表達式 維基百科資源獲取很是方便,有 Wiki Dump 能夠直接下載,全部的最新備份都在裏面。最近的一次備份是3月底,也就是5天前。相比之下,其餘不少語料都須要用爬蟲抓取,或者付費得到。 維基百科的文檔解析有很是多的成熟工具,直接使用開源工具便可完成正文的提取。 維
相關文章
相關標籤/搜索