1. 訓練的文件
segmentor_train.txtjava
文件內容,用空格分隔詞測試
中國 進出口 銀行 與 中國 銀行 增強 合做 新華社 北京 十二月 二十六日 電 ( 記者 周根良 ) 今日 三 大 股指 均 小幅 低開,隨後 滬深指數 在 權重板塊 集體 拉昇 的 帶動 下 小幅 上漲,但 創業板 卻 出現 持續性 的 下跌。 午後 權重 跳水 致使 滬深指數 也 出現 一波殺跌,創業板 表現 卻 迥異,盤中 沒有 一波 拉昇,今日 一度 大跌 3%。 從 盤面 上 看,今日 權重 板塊 依然 獨領風騷,銀行,券商,地產 大幅 上漲,但 保險板塊 今日 表現 不佳,保險股 漲幅 平淡。 今日 國信證券(002736),西部證券(002673)雙雙漲停,海通證券(600837),國元證券(000728),中信證券(600030)也有 不俗 表現。銀行股 方面,僅有 一直 中信銀行 (601998) 漲停。 上證指數 漲跌幅
2. 運行類edu.stanford.nlp.ie.crf.CRFClassifierblog
Eclipse Run設置ip
訓練模型的參數
-prop chinese_models/edu/stanford/nlp/models/segmenter/chinese/ctb.prop
-serDictionary chinese_models/edu/stanford/nlp/models/segmenter/chinese/dict-chris6.ser.gz
-sighanCorporaDict chinese_models/edu/stanford/nlp/models/segmenter/chinese/
-trainFile segmentor_train.txt
-serializeTo chinese_models/edu/stanford/nlp/models/segmenter/chinese/newmodel.ser.gz內存
參數說明
prop: ctb.prop, ctb表示Chinese Penn Treebank, 賓州中文詞庫
serDictionary: ??
sighanCorporaDict: ??
trainFile: 你本身的訓練預料文件
serializeTo: 模型存儲位置
須要大於1g內存: Xmx1g
3. 生成的模型文件在如下目錄
chinese_models/edu/stanford/nlp/models/segmenter/chinese/newmodel.ser.gz
4. 運行分詞測試用例
edu.stanford.nlp.lxf.segmentor/SegDemo.java
io