天然語言處理—資源連接(持續更新)

1 — 語言處理綜合工具包(暫未完善)

工具包名 支持語言 受歡迎程度 簡介 我的使用評價
HanLP
pyhanlp
中文 1.3W star HanLP是一系列模型與算法組成的NLP工具包,由大快搜索主導並徹底開源,目標是普及天然語言處理在生產環境中的應用。HanLP具有功能完善、性能高效、架構清晰、語料時新、可自定義的特色。
NLTK 多語言 7.8K star NLTK是一個被普遍使用的高效的Python構建的平臺,用來處理人類天然語言數據。它提供了易於使用的接口,經過這些接口能夠訪問超過50個語料庫和詞彙資源(如WordNet)。
LTP語言技術平臺 中文 2.2K star LTP提供了一系列中文天然語言處理工具,用戶可使用這些工具對於中文文本進行分詞、詞性標註、句法分析等等工做。
Stanford CoreNLP 多語言 6.3K star 斯坦福CoreNLP是一個Java天然語言分析庫,它集成了全部的天然語言處理工具,包括詞性的終端(POS)標註器,命名實體識別(NER),分析器,對指代消解系統,以及情感分析工具,並提供英語分析的模型文件。
spaCy 多語言,中文支持有限 1.34W star spaCy 是一個Python天然語言處理工具包,誕生於2014年年中,號稱「Industrial-Strength Natural Language Processing in Python」,是具備工業級強度的Python NLP工具包。spaCy裏大量使用了 Cython 來提升相關模塊的性能,這個區別於學術性質更濃的Python NLTK,所以具備了業界應用的實際價值。
gensim 多語言 9.3K star Gensim是一款開源的第三方Python工具包,用於從原始的非結構化的文本中,無監督地學習到文本隱層的主題向量表達。
它支持包括TF-IDF,LSA,LDA,和word2vec在內的多種主題模型算法,
支持流式訓練,並提供了諸如類似度計算,信息檢索等一些經常使用任務的API接口

2 — 分詞

工具包 官方簡介 我的評測
jieba結巴中文分詞 「結巴」中文分詞:作最好的 Python 中文分詞組件 一、使用人數多(github star1.8萬),速度快;
二、雖然準確率和召回率較其餘新出分詞工具備差距,可是各方面的綜合效果仍是不錯的
pkuseg北京大學開源分詞工具 pkuseg簡單易用,支持細分領域分詞,有效提高了分詞準確度。 一、會自動去除空格等空字符;
二、分詞粒度較細(例如「北京  工業   大學」);
三、速度較jieba慢不少(粗略評測速度是jieba的約1/5)
HanLP HanLP是一系列模型與算法組成的NLP工具包,由大快搜索主導並徹底開源,目標是普及天然語言處理在生產環境中的應用。HanLP具有功能完善、性能高效、架構清晰、語料時新、可自定義的特色。 一、使用人數多(github star1.2萬),速度約jieba的1/3;
二、綜合處理工具包

3 —詞向量

資源名稱 簡介 使用評估
Chinese Word Vectors 中文詞向量 100+ Chinese Word Vectors 上百種預訓練中文詞向量(我的只使用了mixed-large) 一、詞彙量128萬, 300維度,大小3.4G;
二、詞長度分佈狀況(1:2:3:4:其餘):1.4:27:32:11:28.6;
騰訊高質量詞向量 騰訊AI Lab這次公開的中文詞向量數據包含800多萬中文詞彙,其中每一個詞對應一個200維的向量 一、詞彙量882萬,200維度,大小15.5G;
二、詞長度分佈狀況(1:2:3:4:其餘):0.25:23:23:22.4:31.35;
三、缺乏中文標點逗號等部分標點字符的支持。

5 — 語料庫

  4.1 實體數據集
數據集 數據集描述
MSRA數據集 30個實體屬性,4.6萬行,126.5萬詞,11.8萬個實體
相關文章
相關標籤/搜索