NLP天然語言處理基礎之hanlp入門

時間 2019-11-06

標籤 nlp 天然語言處理基礎 hanlp 入門简体版

原文原文鏈接

天然語言處理定義： 天然語言處理是一門計算機科學、人工智能以及語言學的交叉學科。雖然語言只是人工智能的一部分（人工智能還包括計算機視覺等），但它是很是獨特的一部分。這個星球上有許多生物擁有超過人類的視覺系統，但只有人類才擁有這麼高級的語言。天然語言處理的目標是讓計算機處理或說「理解」天然語言，以完成有意義的任務，好比訂機票購物或QA等。徹底理解和表達語言是極其困難的，完美的語言理解等效於實現人工智能。android

天然語言處理涉及的幾個層次：網絡

做爲輸入一共有兩個來源，語音與文本。因此第一級是語音識別和OCR或分詞（事實上，跳過度詞雖然理所固然地不能作句法分析，但字符級也能夠直接作很多應用）。接下來是形態學，援引《統計天然語言處理》中的定義：形態學（morphology）：形態學（又稱「詞彙形態學」或「詞法」）是語言學的一個分支，研究詞的內部結構，包括屈折變化和構詞法兩個部分。因爲詞具備語音特徵、句法特徵和語義特徵，形態學處於音位學、句法學和語義學的結合部位，因此形態學是每一個語言學家都要關注的一門學科。工具

Hanlp天然語言處理開發包：oop

從事大數據方面工做的人對天然語言處理必然都是不陌生的，在Github上用戶量最多的開源漢語天然語言處理工具是HanLP。HanLP的初始版本是在2014年初開發的，3月份的時候開始在Github上開源。2015年的時候集成在了大快搜索的DKNLP中，目前大快已經把DKNLP技術成果已經開源，而且總體裝如HanLP項目，HanLP的版本已經到了V1.50。大數據

Hanlp天然語言處理技術優點：人工智能

支持中文分詞（N-最短路分詞、CRF分詞、索引分詞、用戶自定義詞調、詞性標註），命名實體識別（中國人民、音譯人民、日本人民，地名，實體機構名識別），關鍵詞提取，自動摘要，短語提取，拼音轉換，簡繁轉換，文本推薦，依存句法分析（MaxEnt依存句法分析、神經網絡依存句法分析）。提供Lucene查件，兼容Solr和ElasticSearch。blog

Hanlp天然語言處理應用領域：索引

Hanlp已經被普遍應用於Lucene、Solr、ElasticSearch、hadoop、android、Resin等平臺，有大量開源做者開發各類查件與拓展，而且被包裝或移植到Python、C#、R、JavaScript等語言上去。ip

相關標籤/搜索

每日一句

每一个你不满意的现在，都有一个你没有努力的曾经。