GNLP產品介紹數據庫
GNLP(Giant Natural Language Processing)語義理解平臺(如下簡稱GNLP)是將非結構化或半結構化的天然語言文本轉化爲計算機可深層處理的結構化信息、並進行分類、分析的 軟件平臺。通俗地說,GNLP「閱讀」文本,自動生成語義標籤、管理標籤、關係標籤(當有大批量文本時),並可進一步「分析」造成分析報告。微信
GNLP構建於極天徹底自主知識產權的兩大核心技術:SimRank和SemNet。工具
SimRank是語義計算模型。該模型是GNLP的核心。學習
SemNet是語義網(Ontology),包括模型及管理工具,爲SimRank創建語義模型數據。網站
形象地說,GNLP是一個模擬人腦的智能系統,SemNet是大腦中的知識組織系統,SimRank則是思考系統,二者緊密配合,完成智能信息處理。搜索引擎
GNLP可以整合處理各類數據源,包括企業內容倉庫(知識庫、文檔庫等)、數據庫、互聯網網站、微信、微博等。不管是結構化數據仍是非結構化數據,經過GNLP對數據內容的理解,均能實現自動化的信息處理。spa
搜索服務 : 利用語義網引擎,從用戶文字表達的語義層次上來認識和處理用戶的檢索請求。經過對知識源進行語義上的標註,以及對用戶的查詢表達進行分詞、語法分析、語義分析等處理,從而得到更準確、全面的檢索結果。對象
分類服務 : 對文本按預約義的分類要求,進行自動歸類。系統在分類訓練和自動歸類中,利用語義網引擎理解文本的主旨內容,進行文本的特徵提取、類似度計算、分類評估。分類結果準確性高,魯棒性好,並能不斷增量學習。索引
分析服務 : 對文本流進行在線分析,包括數據清洗,摘要提取,關聯及熱點分析等,造成文本流的即時畫像。文檔
天然語言處理服務 : 對文本進行分詞、詞性標註、新詞發現、關鍵詞自動提取。
語義網服務 : 將文字符號序列轉化爲詞彙單元序列或語義網節點序列的處理器。語義網引擎是智能信息處理的基礎引擎。
精準
SimRank遵循「觀其伴而知其意」 的計算模型,挖掘概念之間的內在關聯,並使用SemNet準確理解語義,進而識別文檔之間的語義類似性。與使用關鍵字詞典進行天然語言理解的同類產品相比,GNLP顯著提升了準確度。
智能
GNLP的分類和分析工做所有由系統自動完成,且可以在線增量學習,無需人工干預或手工處理。處理結果穩定可靠。
通用
GNLP中的SemNet模型包括通用語義網和領域語義網兩個層次。
分層次的語義網技術,使GNLP既能支持通用領域,又能支持專業領域的應用需求。
支持全語料
GNLP處理對象覆蓋詞、句子、段落、篇章。用戶可使用以上任意方式表達信息需求,擺脫了傳統搜索引擎基於關鍵字的束縛。
GNLP可做爲完整解決方案,對數據進行內容理解,進而分析和挖掘,提供有價值的結果信息和直觀的結果展現手段(圖、樹、表等)。
GNLP又可做爲解決方案中的集成組件,基於GNLP的各類應用解決方案,包括智能搜索、自動分類、內容分析、智能應答、信息監控、情感分析等,已普遍應用於電信、移動、銀行、證券、地產等行業應用之中。