中文維基百科獲取與處理流程

1、獲取html

http://dumps.wikimedia.org/    git

enwiki(英文)zhwiki(中文)github

指導文檔:數據庫

https://www.cs.bgu.ac.il/~elhadad/nlp12/jwpl/wikification.html數據結構

2、處理eclipse

參考:https://dkpro.github.io/dkpro-jwpl/HowToGetJWPL/編碼

Cmd問題不太好解決(主要是看不懂改不了) 選擇了eclipsespa

配置問題包括:.net

Jdk 環境設置(系統及eclipse)3d

Vm環境設置(eclips.ini)https://dkpro.github.io/dkpro-jwpl/DeveloperSetup/

數據結構設置(文件位置)

 

仔細閱讀官方文檔  各文件位置也很重要

 

 

 

他在運行。。。。。

等待ing(3小時吧)

結束

 

 

3、建立相應的數據庫

 

1建立數據庫命令(數據庫名DB_NAME能夠自行設定):注意要保證建立的數據庫的編碼是utf-8

CREATE DATABASE WIKI2019 DEFAULT CHARACTER SET utf8 DEFAULT COLLATE utf8_general_ci;

 

 後面按你們的來,沒什麼問題不寫了

參考(感謝):

http://www.javashuo.com/article/p-egmiuler-a.html

https://blog.csdn.net/qq_39023569/article/details/88556301

相關文章
相關標籤/搜索