1、獲取html
http://dumps.wikimedia.org/ git
enwiki(英文)zhwiki(中文)github
指導文檔:數據庫
https://www.cs.bgu.ac.il/~elhadad/nlp12/jwpl/wikification.html數據結構
2、處理eclipse
參考:https://dkpro.github.io/dkpro-jwpl/HowToGetJWPL/編碼
Cmd問題不太好解決(主要是看不懂改不了) 選擇了eclipsespa
配置問題包括:.net
Jdk 環境設置(系統及eclipse)3d
Vm環境設置(eclips.ini)https://dkpro.github.io/dkpro-jwpl/DeveloperSetup/
數據結構設置(文件位置)
仔細閱讀官方文檔 各文件位置也很重要
他在運行。。。。。
等待ing(3小時吧)
結束
3、建立相應的數據庫
1建立數據庫命令(數據庫名DB_NAME能夠自行設定):注意要保證建立的數據庫的編碼是utf-8
CREATE DATABASE WIKI2019 DEFAULT CHARACTER SET utf8 DEFAULT COLLATE utf8_general_ci;
後面按你們的來,沒什麼問題不寫了
參考(感謝):