7.21html
7.20python
FudanNLP主要是爲中文天然語言處理而開發的工具包,也包含爲實現這些任務的機器學習算法和數據集。FudanNLP及其包含數據集使用LGPL3.0許可證。主要功能包括:git
信息檢索:文本分類,新聞聚類。github
中文處理:中文分詞,詞性標註,實體名識別,關鍵詞抽取,依存句法分析,時間短語識別。算法
結構化學習:在線學習,層次分類,聚類,精確推理。chrome
工具採用Java編寫,提供了API的訪問調用方式。下載安裝包後解壓後,內容以下圖所示:微信
文本主題發現(一)-- 數據預處理dom
公衆號後臺回覆關鍵字便可學習機器學習
回覆 R R語言快速入門及數據挖掘
回覆 Kaggle案例 Kaggle十大案例精講(連載中)
回覆 文本挖掘 手把手教你作文本挖掘
7.19
7.9
#參考資料:https://blog.csdn.net/wang7807564/article/details/78164855/ #打開文件 讀取時使用二進制 rb,解碼再用 gbk with open("idiom corpus/corpus_面目一新.txt",'rb') as f: for line in f: line = f.readline() print(line.decode('gbk'))
7.5
7.4
基於非平行語料的雙語詞典構建 張 檬 劉 洋 孫 茂松
google 計算機在詞典編纂中的做用
goole idom exemplification classification extraction'