如何處理暗數據?

【摘要】有研究代表,全球數據總量每兩年翻一番,各企業都在處理和存儲這些海量數據。這些數據主要由結構化數據、非結構化數據等類型數據構成。企業對數據瞭解得越透徹,就可以越準確地判斷數據的價值及風險。

結構化的數據:即有固定格式和有限長度的數據。例如填的表格就是結構化的數據,國籍:中華人民共和國,民族:漢,性別:男,這都叫結構化數據。對於ICT領域來講,就是以固定的格式存儲到數據庫裏的數據(Oracle/MySQL/…)。算法

半結構化數據:是一些 XML 或者 HTML 的格式的,當根據須要可按結構化數據來處理,也可抽取出純文本按非結構化數據來處理。數據庫

非結構化的數據:就是不定長、無固定格式的數據,例如網頁,郵件,有時候很是長;有時候很是短,幾句話就沒了;例如Word文檔、語音,視頻、圖片都是非結構化的數據。如今非結構化的數據居多。跨域

爲了描述方便,咱們把半結構化數據和非結構化數據,合二爲一統稱爲「暗數據」,固然這個詞不是我起的,是AA公司起的名字。AA(Automation Anywhere)公司於2003年最初由Ankur Kothari,Mihir Shukla,Neeti Mehta和Rushabh Parmani在加利福尼亞州聖何塞的Tethys Solutions,LLC成立。該軟件公司在10多個國家/地區開展業務,開發適用於領先金融服務,業務流程外包,醫療保健,技術和保險公司的機器人過程自動化技術的產品。在RPA領域市場份額第一,全球最大的RPA生態,培訓並認證超過10,000名RPA人員。網絡

AA公司統計「暗數據」佔比達80%,就像下圖冰山在水下的部分。這些暗數據,致使信息是斷裂的,傳統的自動化不能訪問。業界最頭疼的就是如何處理這部分數據?機器學習

1、傳統處理暗數據的方法學習

目前傳統的公司,在處理暗數據的時候,採用的是笨辦法,想辦法把非結構化的數據轉換成結構化數據。或者乾脆,大部分公司是讓這些暗數據躺在數據湖裏沉睡中,沒有任何用處,反而還浪費了存儲和維護資源。像咱們的站點數據、設備數據、網絡數據、操做數據,大部分都是暗數據。咱們如今花大力氣在想辦法結構化,這多是最笨的辦法。費時費力,結果還不好。人工智能

2、利用AI處理暗數據的新方法視頻

其實單純的RPA作的工做很是有限,RPA主要是處理結構化和流程化的數據,不能處理「暗數據」。利用AI技術,就能夠處理圖片、郵件等暗數據,同時AI還能夠隨機應變的處理一些突發的流程。blog

下面列舉了AI和RPA的差別點:事件

AA這家公司把AI和RPA結合起來,處理暗數據。使用的關鍵技術以下:

一、語音識別:主要處理對話、錄音、音頻等文件。

二、NLP:主要處理文本、郵件、文檔等文件。

三、計算視覺:主要處理圖片、PDF中嵌入的圖片等信息。

四、機器學習&深度學習:主要經過「學習」,處理一些異常事件,讓流程能正常流轉,像人同樣,能靈活處理問題。

3、AA這家公司推出的關鍵產品(或解決方案)

推出了IQ-Bot的解決方案。IQ Bot™是人工智能(AI)解決方案,業務用戶能夠輕鬆設置和使用,以更快地自動讀取和處理各類複雜的文檔和電子郵件。另外,IQ Bot經過構建的自動化認知,可與IBM Watson/Google Cloud AI/MS Cognitive Service等AI解決方案集成,以彌合RPA與純認知平臺之間的差距。

在其主頁上呈現的IQ BOT解決方案的示例如圖,重點是想說明IQ Bot是一座橋樑,能夠鏈接RPA和認知平臺:

使用IQ-Bot先後對比

AI可以之內容爲中心實現流程自動化,使AI成爲理想的RPA的補充技術。 使用二者的組合,組織能夠端到端自動化流程,例如使用AI,解析,分類和理解語義或情緒,並將所需的行動傳遞給RPA。 例如:完成使用AI爲客戶撰寫確認函/文本或電子郵件等案例。

4、如何把AI嵌入到前臺的RPA流程中去?

一、許多流程須要理解語義。利用AI中的NLP技術理解句子的結構,語義和意圖。

經過統計方法和機器學習。NLP將文本轉換爲數據,反之亦然,容許人與人之間有意義的互動。它包括天然語言理解和生成,例如:保險公司處理索賠、銀行抵押貸款,這些都須要補充材料,包括圖片(身份證信息)、表格信息、郵件信息、文本信息等等,這些都是非結構化信息,很難直接使用RPA自動化,影響了這個流程的效率。文本,電子郵件,信件和圖像,首先經過NLP和圖像識別技術以便進一步處理。

二、利用計算機視覺技術自動提取,分析圖片,轉換成語義。

從單個圖像或一系列圖像(包括掃描文檔)中理解有用信息,實現自動視覺理解。

三、經過ML(Machine Learning)來實現一些靈活化處理問題的能力。

經過算法來實現人處理問題的靈活性,無需明確固定的流程,能夠經過「學習」來靈活處理,具有隨機應變的處理機制,避免經過系統對接傳遞大量數據。

5、AI方法的借鑑意義?

這多年過去了,整個電信業界就沒有搞定網絡拓撲,特別是跨域和跨廠商的。我一直認爲,經過採集上來的現有公開數據(不一樣廠商確定有網管系統),經過數據的拼接,是能夠拼出一個拓撲的。你們以爲不可能。其實想一想Google地圖,看看Google地圖是怎麼作到的?地圖須要拼接的數據量確定是網絡信息的不少倍,難度也大於網絡拓撲,但爲何地圖能搞出來,而一個拓撲就搞不出來呢?利用數據的拼接+AI技術,是能夠把整網跨廠商的網絡拓撲拼接出來的。

6、給你們介紹的IQ Bot的目的是打開一扇窗,讓你們去尋寶

IQ Bot:認知自動化機器人,是專門負責處理暗數據,IQ Bot發現和轉換隱藏數據,以更快,更高效地自動化業務流程,同時消除人爲錯誤。

在這個AI時代,如何讓手裏的數據發揮出價值成爲在市場中殺出重圍的重要的技能。企業面對內部大量的暗數據,須要創建高效的數據管理體系,學會妥善運用算法、簡化流程,才能迎接這數據洪流時代。

本文做者做者:華爲雲社區高亮,點擊關注,第一時間瞭解華爲雲新鮮技術~

相關文章
相關標籤/搜索