1. pyhanlp介紹和簡單應用

時間 2020-07-10

標籤 pyhanlp 介紹簡單應用简体版

原文原文鏈接

1. pyhanlp介紹和簡單應用

2. 觀點提取和聚類代碼詳解

1. 前言

中文分詞≠天然語言處理！html

中文分詞只是第一步；HanLP從中文分詞開始，覆蓋詞性標註、命名實體識別、句法分析、文本分類等經常使用任務，提供了豐富的API。java

不一樣於一些簡陋的分詞類庫，HanLP精心優化了內部數據結構和IO接口，作到了毫秒級的冷啓動、千萬字符每秒的處理速度，而內存最低僅需120MB。不管是移動設備仍是大型集羣，都能得到良好的體驗。python

不一樣於市面上的商業工具，HanLP提供訓練模塊，能夠在用戶的語料上訓練模型並替換默認模型，以適應不一樣的領域。項目主頁上提供了詳細的文檔，以及在一些開源語料上訓練的模型。web

HanLP但願兼顧學術界的精準與工業界的效率，在二者之間取一個平衡，真正將天然語言處理普及到生產環境中去。數據結構

咱們使用的pyhanlp是用python包裝了HanLp的java接口。工具

2. pyhanlp的安裝和使用

2.1 python下安裝pyhanlp

pip安裝優化

sudo pip3 install pyhanlp

第一次import pyhanlp會下載一個比較大的數據集，須要耐心等待下，後面再import就不會有了。spa

from pyhanlp import *

詳情請見pyhanlp官方文檔code

2.2 pyhanlp簡單使用方法

分詞使用htm

from pyhanlp import *
print(HanLP.segment("今天開心了嗎？"))
>>> [今天/t, 開心/a, 了/ule, 嗎/y, ？/w]

依存分析使用

from pyhanlp import *
print(HanLP.parseDependency("今天開心了嗎？"))
>>> 1	今天	今天	nt	t	_	2	狀中結構	_	_
>>> 2	開心	開心	a	a	_	0	核心關係	_	_
>>> 3	了	了	e	y	_	2	右附加關係	_	_
>>> 4	嗎	嗎	e	y	_	2	右附加關係	_	_
>>> 5	？	？	wp	w	_	2	標點符號	_	_