天然語言處理定義: 天然語言處理是一門計算機科學、人工智能以及語言學的交叉學科。雖然語言只是人工智能的一部分(人工智能還包括計算機視覺等),但它是很是獨特的一部分。這個星球上有許多生物擁有超過人類的視覺系統,但只有人類才擁有這麼高級的語言。 天然語言處理的目標是讓計算機處理或說「理解」天然語言,以完成有意義的任務,好比訂機票購物或QA等。徹底理解和表達語言是極其困難的,完美的語言理解等效於實現人工智能。android
天然語言處理涉及的幾個層次:網絡
做爲輸入一共有兩個來源,語音與文本。因此第一級是語音識別和OCR或分詞(事實上,跳過度詞雖然理所固然地不能作句法分析,但字符級也能夠直接作很多應用)。接下來是形態學,援引《統計天然語言處理》中的定義:形態學(morphology):形態學(又稱「詞彙形態學」或「詞法」)是語言學的一個分支,研究詞的內部結構,包括屈折變化和構詞法兩個部分。因爲詞具備語音特徵、句法特徵和語義特徵,形態學處於音位學、句法學和語義學的結合部位,因此形態學是每一個語言學家都要關注的一門學科。工具
Hanlp天然語言處理開發包:oop
從事大數據方面工做的人對天然語言處理必然都是不陌生的,在Github上用戶量最多的開源漢語天然語言處理工具是HanLP。HanLP的初始版本是在2014年初開發的,3月份的時候開始在Github上開源。2015年的時候集成在了大快搜索的DKNLP中,目前大快已經把DKNLP技術成果已經開源,而且總體裝如HanLP項目,HanLP的版本已經到了V1.50。大數據
Hanlp天然語言處理技術優點:人工智能
支持中文分詞(N-最短路分詞、CRF分詞、索引分詞、用戶自定義詞調、詞性標註),命名實體識別(中國人民、音譯人民、日本人民,地名,實體機構名識別),關鍵詞提取,自動摘要,短語提取,拼音轉換,簡繁轉換,文本推薦,依存句法分析(MaxEnt依存句法分析、神經網絡依存句法分析)。提供Lucene查件,兼容Solr和ElasticSearch。blog
Hanlp天然語言處理應用領域:索引
Hanlp已經被普遍應用於Lucene、Solr、ElasticSearch、hadoop、android、Resin等平臺,有大量開源做者開發各類查件與拓展,而且被包裝或移植到Python、C#、R、JavaScript等語言上去。ip