HanLP 天然語言處理 for nodejsjava
·支持中文分詞(N-最短路分詞、CRF分詞、索引分詞、用戶自定義詞典、詞性標註),命名實體識別(中國人名、音譯人名、日本人名、地名、實體機構名識別),關鍵詞提取,自動摘要,短語提取,拼音轉換,簡繁轉換,文本推薦,依存句法分析(MaxEnt依存句法分析、CRF依存句法分析)node
環境要求docker
java 1.8npm
nodejs >= 6json
dockerapi
·build imageapp
cd node-hanlpui
./scripts/build-docker-image.shspa
Or pull image索引
docker pull samurais/hanlp-api:1.0.0
· start container
docker run -it --rm -p 3002:3000 samurais/hanlp-api:1.0.0
·access service
POST /tokenizer HTTP/1.1
Host: localhost:3002
Content-Type: application/json
{
"type": "nlp",
"content": "劉德華和張學友創做了不少流行歌曲"
}
RESPONSE
{
"status": "success",
"data": [
{
"word": "劉德華",
"nature": "nr",
"offset": 0
},
{
"word": "和",
"nature": "cc",
"offset": 0
},
{
"word": "張學友",
"nature": "nr",
"offset": 0
},
{
"word": "創做",
"nature": "v",
"offset": 0
},
{
"word": "了",
"nature": "ule",
"offset": 0
},
{
"word": "不少",
"nature": "m",
"offset": 0
},
{
"word": "流行歌曲",
"nature": "n",
"offset": 0
}
]
}
·Other APIs
l tokenizer 分詞
l keyword 關鍵詞
l summary 摘要
l phrase 短語提取
l query 關鍵詞、摘要
l conversion 簡、繁、拼音轉換
源碼
node module
·Install
npm install node-hanlp
·Config
² 配置文件路徑 node_modules/node-hanlp/lib/src-java/hanLP.proerties
² 請修改root爲您的目錄路徑
² 詞典文件目錄 ./data
² 請下載詞典 pan.baidu.com/s/1pKUVNYF 放入 ./data (約800MB文件) 目錄下
·Usage
const Hanlp = require("node-hanlp");
//分詞庫初始化及配置
const HanLP = new Hanlp({
CustomDict : true, //使用自定義詞典
NameRecognize : true, //中國人名識別
TranslatedNameRecognize : true , //音譯人名識別
JapaneseNameRecognize : true, //日本人名識別
PlaceRecognize : true , //地名識別
OrgRecognize : true //機構名識別
});
let words = HanLP.Tokenizer("商品和服務");
標準分詞 HanLP.Tokenizer( text )
@param String text [文本]
@ruten Object
let words = HanLP.Tokenizer("商品和服務");
[
{ word: '商品', nature: 'n', offset: 0 },
{ word: '和', nature: 'cc', offset: 0 },
{ word: '服務', nature: 'vn', offset: 0 }
]
NLP分詞 HanLP.NLPTokenizer( text )
@param String text [文本]
@ruten Object
let words = HanLP.NLPTokenizer("中國科學院計算技術研究所的宗成慶教授正在教授天然語言處理課程");
[
{ word: '中國科學院計算技術研究所', nature: 'nt', offset: 0 },
{ word: '的', nature: 'ude1', offset: 0 },
{ word: '宗成慶', nature: 'nr', offset: 0 },
{ word: '教授', nature: 'nnt', offset: 0 },
...
]
索引分詞 HanLP.IndexTokenizer( text )
@param String text [文本]
@ruten Object
let words = HanLP.IndexTokenizer("主副食品");
[
{ word: '主副食品', nature: 'n', offset: 0 },
{ word: '主副食', nature: 'j', offset: 0 },
{ word: '副食', nature: 'n', offset: 1 },
{ word: '副食品', nature: 'n', offset: 1 },
{ word: '食品', nature: 'n', offset: 2 }
]
CRF分詞 HanLP.CRFTokenizer( text )
@param String text [文本]
@ruten Object
let words = HanLP.CRFTokenizer("你好,歡迎使用HanLP漢語處理包!");
[
{ word: '你好', nature: 'vl', offset: 0 },
{ word: ',', nature: 'w', offset: 0 },
{ word: '歡迎', nature: 'v', offset: 0 },
{ word: '使用', nature: 'v', offset: 0 },
{ word: 'HanLP', nature: 'nz', offset: 0 },
{ word: '漢語', nature: 'gi', offset: 0 },
...
]
去除停用詞分詞 HanLP.NoStopWord( text )
@param String text [文本]
@ruten Object
let words = HanLP.NoStopWord("你好,歡迎使用HanLP漢語處理包!");
[
{ word: '你好', nature: 'vl', offset: 0 },
{ word: '歡迎', nature: 'v', offset: 0 },
{ word: '使用', nature: 'v', offset: 0 },
{ word: 'HanLP', nature: 'nz', offset: 0 },
{ word: '漢語', nature: 'gi', offset: 0 },
...
]
最短路分詞 HanLP.ShortSegment( text )
@param String text [文本]
@ruten Object
let words = HanLP.ShortSegment("今天,liuzhijun案的關鍵人物,山西女商人dingshumiao在市二中院出庭受審。");
[
{ word: '今天', nature: 't', offset: 0 },
{ word: ',', nature: 'w', offset: 0 },
{ word: 'liushijun', nature: 'nr', offset: 0 },
{ word: '案', nature: 'ng', offset: 0 },
{ word: '的', nature: 'ude1', offset: 0 },
{ word: '關鍵', nature: 'n', offset: 0 },
...
]
N-最短分詞 HanLP.NShortSegment( text )
@param String text [文本]
@ruten Object
let words = HanLP.NShortSegment("劉喜傑石國祥會見吳亞琴先進事蹟報告團成員");
[
{ word: '劉喜傑', nature: 'nr', offset: 0 },
{ word: '石國祥', nature: 'nr', offset: 0 },
{ word: '會見', nature: 'v', offset: 0 },
{ word: '吳亞琴', nature: 'nr', offset: 0 },
{ word: '先進', nature: 'a', offset: 0 },
...
]
極速詞典分詞 HanLP.SpeedTokenizer( text )
@param String text [文本]
@ruten Object
let words = HanLP.SpeedTokenizer("江西鄱陽湖乾枯,中國最大淡水湖變成大草原");
[
{ word: '江西', offset: 0 },
{ word: '鄱陽湖', offset: 2 },
{ word: '乾枯', offset: 5 },
{ word: ',', offset: 7 },
{ word: '中國', offset: 8 },
]
關鍵詞提取 HanLP.Keyword( text , nTop )
@param String text [文本]
@param Number nTop [關鍵詞個數,默認5個]
@ruten Object
let words = HanLP.Keyword("江西鄱陽湖乾枯,中國最大淡水湖變成大草原" , 3);
[ '中國', '最大', '淡水湖' ]
短語提取 HanLP.Phrase( text , nTop )
@param String text [文本]
@param Number nTop [短語個數,默認3個]
@ruten Object
let words = HanLP.Phrase("江西鄱陽湖乾枯,中國最大淡水湖變成大草原" , 2 );
[ '中國最大', '變成草原' ]
提取文章摘要 HanLP.Summary( text , nTop )
@param String text [文本]
@param Number nTop [文章摘要條數,默認3條]
@ruten Object
let text = "據美國福克斯新聞報道,俄羅斯黑海艦隊一艘護衛艦格里戈羅維奇海軍上將號,正在駛向美國軍艦發射導彈攻擊敘利亞的區域。該護衛艦是俄羅斯最早進的護衛艦,2016年纔剛服役,除防空、反艦導彈外,也能夠發射巡航導彈。格里戈羅維奇海軍上將號原定於本週訪問敘利亞的塔爾圖斯港。"
let words = HanLP.Summary( text , 3);
[
'俄羅斯黑海艦隊一艘護衛艦格里戈羅維奇海軍上將號',
'格里戈羅維奇海軍上將號原定於本週訪問敘利亞的塔爾圖斯港',
'正在駛向美國軍艦發射導彈攻擊敘利亞的區域'
]
文本推薦 HanLP.Suggester( list, words, Ntop )
@param Array list 句子列表
@param Array words 詞語
@param Number nTop 類似句子推薦個數,默認1個
@ruten Object
句子級別,從一系列句子中挑出與輸入句子最類似的那一個
語義距離 HanLP.WordDistance( words )
@param Array words 詞
@ruten Object
簡繁轉換 HanLP.ConversionFont( text , type )
@param String text 文本
@ruten String type 類型 jt簡體|ft繁體,默認jt
@ruten String
拼音轉換 HanLP.Pinyin( text , type )
@param String text 文本
@ruten String type 類型 類型 num數字音調|tone符號音調|outtone無音調|shengmu聲母|yunmu韻母|head輸入法頭,默認outtone
@ruten Object