部分經常使用分詞工具使用整理

時間 2019-11-19

標籤部分經常使用分詞工具整理欄目搜索引擎简体版

原文原文鏈接

如下分詞工具均能在Python環境中直接調用（排名不分前後）。python

一、jieba（結巴分詞）無償使用算法

二、HanLP（漢語言處理包）無償使用架構

三、SnowNLP（中文的類庫）無償使用app

四、FoolNLTK（中文處理工具包）無償使用工具

五、Jiagu（甲骨NLP）無償使用性能

六、pyltp（哈工大語言云）商用須要付費編碼

七、THULAC（清華中文詞法分析工具包）商用須要付費操作系統

八、NLPIR（漢語分詞系統）付費使用ip

一、jieba（結巴分詞）開發

「結巴」中文分詞：作最好的 Python 中文分詞組件。

項目Github地址：jieba

安裝：

pip install jieba

使用：

import jieba

jieba.initialize()

text = '化妝和服裝'

words = jieba.cut(text)

words = list(words)

print(words)

二、HanLP（漢語言處理包）

HanLP是一系列模型與算法組成的NLP工具包，由大快搜索主導並徹底開源，目標是普及天然語言處理在生產環境中的應用。HanLP具有功能完善、性能高效、架構清晰、語料時新、可自定義的特色。

項目Github地址：pyhanlp

安裝：

pip install pyhanlp

使用：

import pyhanlp

text = '化妝和服裝'

words = []

for term in pyhanlp.HanLP.segment(text):

words.append(term.word)

print(words)

三、SnowNLP（中文的類庫）

SnowNLP是一個python寫的類庫，能夠方便的處理中文文本內容，是受到了TextBlob的啓發而寫的，因爲如今大部分的天然語言處理庫基本都是針對英文的，因而寫了一個方便處理中文的類庫，而且和TextBlob不一樣的是，這裏沒有用NLTK，全部的算法都是本身實現的，而且自帶了一些訓練好的字典。

項目Github地址：snownlp

安裝：

pip install snownlp

使用：

import snownlp

text = '化妝和服裝'

words = snownlp.SnowNLP(text).words

print(words)

四、FoolNLTK（中文處理工具包）

可能不是最快的開源中文分詞，但極可能是最準的開源中文分詞。

項目Github地址：FoolNLTK

安裝：

pip install foolnltk

使用：

import fool

text = '化妝和服裝'

words = fool.cut(text)

print(words)

五、Jiagu（甲骨NLP）

基於BiLSTM模型，使用大規模語料訓練而成。將提供中文分詞、詞性標註、命名實體識別、關鍵詞抽取、文本摘要、新詞發現等經常使用天然語言處理功能。參考了各大工具優缺點製做，將Jiagu回饋給你們。

項目Github地址：jiagu

安裝：

pip3 install jiagu

使用：

import jiagu

jiagu.init()

text = '化妝和服裝'

words = jiagu.seg(text)

print(words)

六、pyltp（哈工大語言云）

pyltp 是 LTP 的 Python 封裝，提供了分詞，詞性標註，命名實體識別，依存句法分析，語義角色標註的功能。

項目Github地址：pyltp，3.4模型下載連接：網盤

安裝：

pip install pyltp

使用：

import pyltp

segmentor = pyltp.Segmentor()

segmentor.load('model/ltp_data_v3.4.0/cws.model') # 模型放置的路徑

text = '化妝和服裝'

words = segmentor.segment(text)

words = list(words)

print(words)

七、THULAC（清華中文詞法分析工具包）

THULAC（THU Lexical Analyzer for Chinese）由清華大學天然語言處理與社會人文計算實驗室研製推出的一套中文詞法分析工具包，具備中文分詞和詞性標註功能。

項目Github地址：THULAC-Python

安裝：

pip install thulac

使用：

import thulac

thu = thulac.thulac(seg_only=True)

text = '化妝和服裝'

words = thu.cut(text, text=True).split()

print(words)

NLPIR（漢語分詞系統）

主要功能包括中文分詞；英文分詞；詞性標註；命名實體識別；新詞識別；關鍵詞提取；支持用戶專業詞典與微博分析。NLPIR系統支持多種編碼、多種操做系統、多種開發語言與平臺。

項目Github地址：pynlpir

安裝：

pip install pynlpir

下載證書覆蓋到安裝目錄，NLPIR.user 例如安裝目錄：/usr/lib64/python3.4/site-packages/pynlpir/Data

使用：

import pynlpir

pynlpir.open()

text = '化妝和服裝'

words = pynlpir.segment(text, pos_tagging=False)

print(words)

pynlpir.close()

相關標籤/搜索

每日一句

每一个你不满意的现在，都有一个你没有努力的曾经。