論文筆記

7.21html

7.20python

  • wechat :利用Python實現wiki中文語料的word2vec聚類 
    •   算法】word2vec與doc2vec模型
    •  天然語言處理資源和Python天然語言處理工具總結
      •   6 FudanNLP

        FudanNLP主要是爲中文天然語言處理而開發的工具包,也包含爲實現這些任務的機器學習算法和數據集。FudanNLP及其包含數據集使用LGPL3.0許可證。主要功能包括:git

        • 信息檢索:文本分類,新聞聚類。github

        • 中文處理:中文分詞,詞性標註,實體名識別,關鍵詞抽取,依存句法分析,時間短語識別。算法

        • 結構化學習:在線學習,層次分類,聚類,精確推理。chrome

        工具採用Java編寫,提供了API的訪問調用方式。下載安裝包後解壓後,內容以下圖所示:微信

    •    NLP之Word2Vec模型和Doc2Vec模型app

    • 文本主題發現(一)-- 數據預處理dom

      •    公衆號後臺回覆關鍵字便可學習機器學習

        回覆 R                  R語言快速入門及數據挖掘 
        回覆 Kaggle案例  Kaggle十大案例精講(連載中)
        回覆 文本挖掘      手把手教你作文本挖掘

    •   

7.19

7.9

7.6

  • python 3解決 unicode error問題
  • #參考資料:https://blog.csdn.net/wang7807564/article/details/78164855/
    #打開文件 讀取時使用二進制 rb,解碼再用 gbk
    with open("idiom corpus/corpus_面目一新.txt",'rb') as f:
        for line in f:
            line = f.readline()
            print(line.decode('gbk'))
            
        

     

7.5  

  • 文本聚類教程 https://blog.csdn.net/xiaoxik/article/details/78742308
  • 文本聚類教程http://www.cnblogs.com/onlytiancai/archive/2008/05/10/1191557.html

7.4

 

 

 

 基於非平行語料的雙語詞典構建  張 檬  劉 洋  孫 茂松

  •   參考文獻:
  •   Dictionary-based techniques for cross-language information retrieval.

google 計算機在詞典編纂中的做用

  • http://ling.cass.cn/xzfc/xzfc_xzft/201804/t20180425_4213449.html
  • 章宜華教授談外向型漢語學習詞典編研工做
    • 「學習詞典」是20世紀上半葉爲海外英語教學而編纂的詞典,譯自英語的「learner’s dictionary」,即面向非母語學習者的專門性語文詞典。爲母語學習者編纂的辭書則稱爲「school dictionary」或「students’ dictionary」(學生詞典)。英國的學習詞典很發達,以牛津詞典和朗文詞典爲表明的英語詞典幾乎佔領了我國英語學習詞典的整個市場。

goole idom exemplification classification extraction'

相關文章
相關標籤/搜索