天然語言處理結合金融專業應用,主要在於資料蒐集和處理。

 智能金融的基石——天然語言處理(NLP)和知識圖譜 

金融行業因其與數據的高度相關性,成爲人工智能最早應用的行業之一,而天然語言處理(NLP)與知識圖譜做爲人工智能技術的重要研究方向與組成部分,正在快速進入金融領域,並日益成爲智能金融的基石。

通常的金融科技公司只會集中在其中的某些業務方向,只要能深刻掌握兩到三種能力,就能具備至關的競爭力。在這些業務場景中,天然語言處理(NLP)和知識圖譜技術每每須要共同應用,才能發揮出最大的效能。同時,一種核心能力能夠在多個智能金融應用場景中獲得應用,這些應用場景包括:智能投研、智能投顧、智能風控、智能客服、智能監管、智能運營等。

金融語義應用場景概念框 01智能問答和語義搜索 智能問答和語義搜索是天然語言處理(NLP)的關鍵技術,目的是讓用戶以天然語言形式提出問題,深刻進行語義分析,以更好理解用戶意圖,快速準確獲取知識庫中的信息。在用戶界面上,既能夠表現爲問答機器人的形式(智能問答),也能夠爲搜索引擎的形式(語義搜索)。智能問答系統通常包括問句理解、信息檢索、答案生成三個環節。智能問答系統與金融知識圖譜密切相關,知識圖譜在語義層面提供知識的表示、存儲和推理,智能問答則從語義層面提供知識檢索的入口。基於知識圖譜的智能問答相比基於文本的問答更能知足金融業務實際需求。 智能問答和語義搜索的價值在金融領域愈來愈被重視。它主要應用的場景包括智能投研、智能投顧和智能客服。在智能投研領域,投研人員平常工做須要經過多種渠道搜索大量相關信息。而有了金融問答和語義搜索的幫助,信息獲取途徑將是「Just ask a question」。而且,語義搜索返回的結果不只是平面化的網頁信息,而是能把各方面的相關信息組織起來的立體化信息,還能提供必定的分析預測結論。在智能客服和智能投顧領域,智能問答系統的應用主要是機器人客服。機器人客服目前的做用還只是輔助人工客服回答一些常見問題,但已能較大地節省客服部門的人力成本。 典型應用案例如美國Alphasense公司爲投研人員整合碎片化信息,提供專業金融知識訪問工具。AlphaSense公司的產品能夠說是新一代的金融知識引擎。它重新聞、財報、研報各類行業網站等獲取大量數據、信息、知識形式的「素材」,經過語義分析構建成知識圖譜,並提供高級語義搜索引擎、智能問答、交互式知識管理系統、文檔(知識)協做系統,以對金融知識進行更加有效的管理、搜索、使用。 02資訊與輿情分析 金融資訊信息很是豐富,例如公司新聞(公告、重要事件、財務情況等)、金融產品資料(股票、證券等)、宏觀經濟(通貨膨脹、失業率等)、政策法規(宏觀政策、稅收政策等)、社交媒體評論等。 金融資訊天天產生的數量很是龐大,要從浩如煙海的資訊庫中準確找到相關文章,還要閱讀分析每篇重要內容,是費時費力的工做。若是有一個工具幫助人工快速迅捷獲取資訊信息,將大大提升工做效率。資訊輿情分析的主要功能包括資訊分類標籤(按公司、產品、行業、概念板塊等)、情感正負面分析(文章、公司或產品的情感)、自動文摘(文章的主要內容)、資訊個性化推薦、輿情監測預警(熱點熱度、雲圖、負面預警等)。在這個場景中,金融知識圖譜提供的金融知識有助於更好理解資訊內容,更準確地進行資訊輿情分析。 資訊輿情分析的應用主要在智能投研和智能監管這兩個場景。目前市場上的輔助投研工具中,資訊輿情分析是必不可少的重要部分。資訊輿情分析做爲通用工具更可能是對海量定性數據進行摘要、概括、縮簡,以更加快捷方便地爲投研人員提供信息,支持他們進行決策,而非直接給出決策結論。在智能監管領域,經過資訊輿情分析,對金融輿情進行監控,發現違規非法活動進行預警。 03金融預測和分析 基於語義的金融預測即利用金融文本中包含的信息預測各類金融市場波動,它是以NLP等人工智能技術與量化金融技術的結合。 利用金融文本數據幫助改善金融交易預測模型的想法早已有之。本世紀初,美國就有人利用新聞和股價的歷史數據來預測股價波動。2010年後,社交媒體產生了大量數據,基於Twitter、Facebook來預測股市的研究項目不少。最近,深度學習被大量應用在預測模型中。金融文本數據提供的信息是定性的(qualitative),而一般數字形式的數據是定量的(quantitative)。定性分析比定量分析更難,定性信息包含的信息量更大。有分析代表,投資決策人員在進行決策時,更多依賴於新聞、事件甚至流言等定性信息,而非定量數據。所以,可期待基於語義的金融預測分析大有潛力可挖。這個場景中涉及的關鍵NLP技術包括事件抽取和情感分析技術。金融知識圖譜在金融預測分析中具備重要的做用,它是進行事件推理的基礎。例如在中興事件中,可根據產業鏈圖譜推導受影響的公司。 基於語義的金融預測和分析在金融應用的主要場景包括智能投研和智能投顧。它的理想目標是能代替投資人員作投資預測,進行自動交易,但目前還只是做爲投資人員的投資參考。將不一樣來源的多維度數據進行關聯分析,特別是對非結構化數據的分析,好比郵件、社交網絡信息、網絡日誌信息。從而挖掘和展示出未知的相關關係,爲決策提供依據。典型的應用案例如美國Palantir公司提供基於知識圖譜的大數據分析平臺。其金融領域產品Metropolis,經過整合多源異構數據,構建金融領域知識圖譜。特色是:對非結構化數據的分析能力、將人的洞察和邏輯與高效的機器輔助手段相結合起來。另外一個例子如Kensho公司利用金融知識圖譜進行預測分析。在英國脫歐期間,交易員成功運用Kensho瞭解到退歐選舉形成當地貨幣貶值;曾準確分析了美國總統任期的前100天內股票漲跌狀況。 04文檔信息抽取 信息抽取是NLP的一種基礎技術,是NLP進一步進行數據挖掘分析的基礎,也是知識圖譜中知識抽取的基礎。採用的方法包括基於規則模板的槽填充的方法、基於機器學習或深度學習的方法。按抽取內容分能夠分爲實體抽取、屬性抽取、關係抽取、規則抽取、事件抽取等。 在這裏的文檔信息抽取特指一種金融應用場景。指從金融文檔(如公告研報)等抽取指定的關鍵信息,如公司名稱、人名、指標名稱、數值等。文檔格式多是格式化文檔(word, pdf, html等)或純文本。對格式化文本進行抽取時須要處理並利用表格、標題等格式信息。文檔信息抽取的應用場景主要是智能投研和智能數據,促進數據生產自動化或輔助人工進行數據生產、文檔複覈等。 05自動文檔生成 自動文檔生成指根據必定的數據來源自動產生各種金融文檔。常見的須要生成的金融文檔如信息披露公告(債券評級、股轉書等)、各類研究報告。 自動報告生成屬於生成型NLP應用。它的數據來源多是結構化數據,也多是從非結構化數據用信息抽取技術取得的,也多是在金融預測分析場景中得到的結論。簡單的報告生成方法是根據預約義的模板,把關鍵數據填充進去獲得報告。進一步的自動報告生成須要比較深刻的NLG技術,它能夠把數據和分析結論轉換成流暢的天然語言文本。 自動文檔生成的應用場景包括智能投研、智能投顧等。它的典型應用案例如美國的Narrative Science,它從結構化數據中進行數據挖掘,並把結果用簡短的文字或依據模板產生報告內容。又如Automated Insights,它爲美聯社自動寫出了10億多篇文章與報告。 06風險評估與反欺詐 風險評估是大數據、互聯網時代的傳統應用場景,應用時間較早,應用行業普遍。它是經過大數據、機器學習技術對用戶行爲數據分析後,進行用戶畫像,並進行信用和風險評估。 NLP技術在風控場景中的做用是理解分析相關文本內容,爲待評估對象打標籤,爲風控模型增長更多的評估因子。引入知識圖譜技術之後,能夠經過人員關係圖譜的分析,發現人員關係的不一致性或者短期內變更較大,從而偵測欺詐行爲。利用大數據風控技術,在事前可以預警,過濾掉帶惡意欺詐目的人羣;在事中進行監控,發生欺詐攻擊時及時發現;在過後進行分析,挖掘到欺詐者的關聯信息,下降之後的風險。 在金融行業,風險評估與反欺詐的應用場景首先是智能風控。利用NLP和知識圖譜技術改善風險模型以減小模型風險,提升欺詐監測能力。其次,還能夠應用在智能監管領域,以增強監管者和各部門的信息交流,跟蹤合規需求變化。經過對通訊、郵件、會議記錄、電話的文本進行分析,發現不一致和欺詐文本。例如欺詐文本有些固定模式:如用負面情感詞,減小第一人稱使用等。經過有效的數據聚合分析可大大減小風險報告和審計過程的資源成本。從事此類業務的Finctech公司不少,如Palantir最初從事的金融業務就是反欺詐。其餘如Digital Reasoning、Rapid Miner、Lexalytics、Prattle等。 07客戶洞察 客戶關係管理(CRM)也是在互聯網和大數據時代中發展起來,市場相對成熟,應用比較普遍,許多Fintech公司都以此爲主要業務方向。現代交易愈來愈可能是在線上而不是線下當面完成,所以如何掌握客戶興趣和客戶情緒,愈來愈須要經過對客戶行爲數據進行分析來完成。 NLP技術在客戶關係管理中的應用,是經過把客戶的文本類數據(客服反饋信息、社交媒體上的客戶評價、客戶調查反饋等)解析文本語義內涵,打上客戶標籤,創建用戶畫像。同時,結合知識圖譜技術,經過創建客戶關係圖譜,以得到更好的客戶洞察。這包括客戶興趣洞察(產品興趣),以進行個性化產品推薦、精準營銷等。以及客戶態度洞察(對公司和服務滿意度、改進意見等),以快速響應客戶問題,改善客戶體驗,增強客戶聯繫,提升客戶忠誠度。 客戶洞察在金融行業的應用場景主要包括智能客服和智能運營。例如在智能客服中,經過客戶洞察分析,能夠改善客戶服務質量,實現智能質檢。在智能運營(智能CRM)中,根據客戶興趣洞察,實現個性化精準營銷。國外從事這個業務方向的Fintech公司不少,如Inmoment,Medallia,NetBase等。html

天然語言處理(NLP)和知識圖譜兩種技術自己都還在發展成長過程當中,所以在金融落地過程當中勢必也還會面臨許多新的課題和挑戰,任重而道遠。一方面,人工智能必須與金融的具體業務場景切合,找到金融企業需求痛點,真正提高客戶生產效率,給客戶帶來價值;另外一方面,人工智能是基礎技術學科,技術難度大,人才要求高,在覈心技術和關鍵算法上須要有突破有優點,才能不斷提高市場競爭力。因此,場景驅動和技術研發須要相輔相成、緊密結合。相信金融智能語義技術的應用將會有廣闊的發展空間,推進智能金融邁向一個新的臺階。git

相關文章
相關標籤/搜索