詳解中文維基百科數據處理流程及腳本代碼

導讀 最近在做詞向量相關工作,詞向量的訓練數據採用中文維基百科數據,訓練之前,要對維基百科數據進行處理,這篇文章記錄了一些處理過程及相關的腳本。   一、維基百科 維基百科(Wikipedia),是一個基於維基技術的多語言百科全書協作計劃,也是一部用不同語言寫成的網絡百科全書。維基百科是由吉米·威爾士與拉里·桑格兩人合作創建的,於2001年1月13日在互聯網上推出網站服務,並在2001年1月15日
相關文章
相關標籤/搜索