訓練分詞模型

1. 訓練的文件
segmentor_train.txtjava

文件內容,用空格分隔詞測試

中國 進出口 銀行 與 中國 銀行 增強 合做
新華社 北京 十二月 二十六日 電 ( 記者 周根良 )

今日 三 大 股指 均 小幅 低開,隨後 滬深指數 在 權重板塊 集體 拉昇 的 帶動 下 小幅 上漲,但 創業板 卻 出現 持續性 的 下跌。
午後 權重 跳水 致使 滬深指數 也 出現 一波殺跌,創業板 表現 卻 迥異,盤中 沒有 一波 拉昇,今日 一度 大跌 3%。

從 盤面 上 看,今日 權重 板塊 依然 獨領風騷,銀行,券商,地產 大幅 上漲,但 保險板塊 今日 表現 不佳,保險股 漲幅 平淡。
今日 國信證券(002736),西部證券(002673)雙雙漲停,海通證券(600837),國元證券(000728),中信證券(600030)也有 不俗 表現。銀行股 方面,僅有 一直 中信銀行 (601998) 漲停。

上證指數   漲跌幅

 
2. 運行類edu.stanford.nlp.ie.crf.CRFClassifierblog

Eclipse Run設置ip

 


訓練模型的參數
-prop chinese_models/edu/stanford/nlp/models/segmenter/chinese/ctb.prop
-serDictionary chinese_models/edu/stanford/nlp/models/segmenter/chinese/dict-chris6.ser.gz
-sighanCorporaDict chinese_models/edu/stanford/nlp/models/segmenter/chinese/
-trainFile segmentor_train.txt
-serializeTo chinese_models/edu/stanford/nlp/models/segmenter/chinese/newmodel.ser.gz內存

參數說明
prop: ctb.prop, ctb表示Chinese Penn Treebank, 賓州中文詞庫
serDictionary: ??
sighanCorporaDict: ??
trainFile: 你本身的訓練預料文件
serializeTo: 模型存儲位置
須要大於1g內存: Xmx1g


3. 生成的模型文件在如下目錄
chinese_models/edu/stanford/nlp/models/segmenter/chinese/newmodel.ser.gz

4. 運行分詞測試用例
edu.stanford.nlp.lxf.segmentor/SegDemo.java

io

相關文章
相關標籤/搜索