中文分詞≠天然語言處理!html
中文分詞只是第一步;HanLP從中文分詞開始,覆蓋詞性標註、命名實體識別、句法分析、文本分類等經常使用任務,提供了豐富的API。java
不一樣於一些簡陋的分詞類庫,HanLP精心優化了內部數據結構和IO接口,作到了毫秒級的冷啓動、千萬字符每秒的處理速度,而內存最低僅需120MB。不管是移動設備仍是大型集羣,都能得到良好的體驗。python
不一樣於市面上的商業工具,HanLP提供訓練模塊,能夠在用戶的語料上訓練模型並替換默認模型,以適應不一樣的領域。項目主頁上提供了詳細的文檔,以及在一些開源語料上訓練的模型。web
HanLP但願兼顧學術界的精準與工業界的效率,在二者之間取一個平衡,真正將天然語言處理普及到生產環境中去。數據結構
咱們使用的pyhanlp是用python包裝了HanLp的java接口。工具
pip安裝優化
sudo pip3 install pyhanlp
第一次import pyhanlp會下載一個比較大的數據集,須要耐心等待下,後面再import就不會有了。spa
from pyhanlp import *
詳情請見pyhanlp官方文檔code
分詞使用htm
from pyhanlp import * print(HanLP.segment("今天開心了嗎?")) >>> [今天/t, 開心/a, 了/ule, 嗎/y, ?/w]
依存分析使用
from pyhanlp import * print(HanLP.parseDependency("今天開心了嗎?")) >>> 1 今天 今天 nt t _ 2 狀中結構 _ _ >>> 2 開心 開心 a a _ 0 核心關係 _ _ >>> 3 了 了 e y _ 2 右附加關係 _ _ >>> 4 嗎 嗎 e y _ 2 右附加關係 _ _ >>> 5 ? ? wp w _ 2 標點符號 _ _
若是你們看不太清楚上面的輸出,pyhanlp提供了一個很好的展現交付界面,只要一句命令就能啓動一個web服務
hanlp serve
登陸http://localhost:8765就能看下可視化界面,能看到分詞結果和依存關係的結果,是否是很直觀。這個網頁上還有安裝說明、源碼連接、文檔連接、常見的問題(FAQ)。