我被「非結構化數據包圍了」,請求支援!

阿里妹導讀:非結構化數據的內容佔據了當前數據海洋的80%。換句話來講,就是咱們都被「非結構化數據」包圍了。因爲非結構化數據的信息量和信息的重要程度很難被界定,所以對非結構化數據的使用成爲了難點。若是說結構化數據用詳實的方式記錄了企業的生產交易活動,那麼非結構化數據則是掌握企業命脈的關鍵內容,所反映的信息蘊含着諸多企業效益提升的機會。而對大部分組織而言,掌握先進的非結構化數據分析能力還是從「大數據」中得到價值的重大挑戰。算法

當前,數據技術及產品部對結構化數據處理和應用已經具有了成熟的技術以及產品方案。爲了應對日益增加的非結構化數據訴求,非結構化數據體系經過覆蓋非結構化數據規範、數據設計、算法能力、服務能力等來解決這一問題,該體系是對OneData體系的非結構化數據的補充和完善。已經賦能了集團內不少業務取得了很是好的效果,而這只是剛剛開始。數據庫

非結構化數據概述

「非結構化數據」是什麼?相較於記錄了生產、業務、交易和客戶信息等的結構化數據,非結構化的信息涵蓋了更爲普遍的內容。非結構化數據指的是:數據結構不規則或不完整,沒有預約義的數據模型,不方便用數據庫二維邏輯表來表現的數據。包括全部格式的辦公文檔、文本、圖片、XML、 HTML、各種報表、圖像和音頻/視頻信息等。網絡

相對於結構化數據,非結構化數據具備如下特色:數據存儲佔比高、數據格式多樣、結構不標準且複雜、信息量豐富、處理門檻高。數據結構

當前行業公認:非結構化數據佔數據總量的80%以上。結構化數據僅佔到所有數據量的20%,其他80%都是以文件形式存在的非結構化和半結構化數據,非結構化數據包含各類辦公文檔、圖片、視頻、音頻、設計文檔、日誌文件、機器數據等。工具

圖:非結構化數據的佔比圖 圖片來源:《大數據分析行業網》學習

非結構化數據沒有預約義的數據模型,不方便用數據庫二維邏輯表來表現。大數據

下面對比一下結構化數據和非結構化數據的區別:阿里雲

結構化數據,是指由二維表結構來邏輯表達和實現的數據,嚴格地遵循數據格式與長度規範,主要經過關係型數據庫進行存儲和管理。人工智能

結構化數據格式形式如圖下:spa

圖:結構化數據

非結構化數據,是數據結構不規則或不完整,沒有預約義的數據模型,不方便用數據庫二維邏輯表來表現的數據。包括全部格式的辦公文檔、文本、圖片、HTML、各種報表、圖像和音頻/視頻信息等等。

非結構化數據-圖片格式以下圖所示:

圖:非結構化數據 圖片來源:《數字時代》

非結構化數據包含的信息量豐富。非結構化數據與結構化數據最大的區別在於蘊含信息量很是豐富,一樣以圖片爲例,請看下圖:

圖:圖片蘊含的信息 圖片來源:淘寶

你看到了多少信息?不妨咱們一塊兒看一看:

  1. 人物:女人,短髮,佩戴項鍊,作了美甲,......
  2. 衣服:女裝,黑色T恤,長袖,低領,白色褲子,薄款,緊身
  3. 文字:秋定製,流金詩意,2折包郵,custom

這是一些顯性信息,能夠看出一張圖片裏面的顯性信息就已經不少了,固然還有不少隱形信息。好比:

1.衣服材質:純棉
2.特色:時尚的版型,貼身,顯身材
......

由此能夠看出非結構化數據隱含的信息量很是豐富。

非結構化數據通常不能直接使用,須要經過算法等手段進行處理。但因非結構化數據自己的特色,處理難度大。好比:對評論文本信息的情感分析。爲了實現情感分析,須要使用算法進行復雜的處理,經過大量的數據訓練才能完成。以商品評論數據來看,對於結構化的評論以下表:

結構化評論數據

能夠直觀看出用戶感情是負向的。

同一個買家的非結構化評論:我在這家買了,缺乏螺絲,商品還有劃痕直接無論。

根據以上的評論內容,若是要肯定買家的情感,就沒那麼簡單了。須要使用NLP算法,並通過算法效果評估等一系列過程。

所以,當前非結構化數據的處理門檻仍是很高,處理難度還比較大。

非結構化數據的價值及應用

非結構化數據因其包含豐富的內容、多樣化的形態以及廣闊的想象空間,必將引爆未來的市場,不管是娛樂、教育、醫療、生活等,都將產生更豐富的非結構化數據場景、使用更智能的數據處理方式。接下來,咱們就針對當前的一些場景簡單瞭解一下非結構化數據的價值。

ImageNet:改變AI和世界的圖片[1]

2006 年,李飛飛開始反覆思考一個問題。

當時的李飛飛纔剛剛在伊利諾伊大學香檳分校(UIUC)任教,她看到整個學界和工業界廣泛流行一種想法,都在致力於打造更好的算法,認爲更好的算法將帶來更好的決策,不論數據如何。

但李飛飛意識到了這樣作的侷限——即便是最好的算法,若是沒有好的、可以反映真實世界的訓練數據,也沒辦法用。

李飛飛的解決方案是:構建一個更好的數據集。

「咱們要詳細描繪出整個世界的物體。」李飛飛說。由今生成的數據集名叫 ImageNet。

相關論文發表於 2009 年,最初做爲一篇研究海報在邁阿密海灘會議中心的角落展現出來。但沒過多久,這個數據集就迅速發展成爲一項年度競賽,衡量哪些算法能夠以最低的錯誤率識別數據集圖像中的物體。許多人都認爲 ImageNet 競賽是現在席捲全球 AI 浪潮的催化劑。

儘管經歷了不少艱辛,可是最終 ImageNet改變了人們認識數據和算法的方式。「ImageNet 思惟所帶來的範式轉變是,儘管不少人都在注意模型,但咱們要關心數據,」李飛飛說:「數據將從新定義咱們對模型的見解。」

自 2010 年以來,谷歌、微軟和 CIFAR 推出了其餘一些數據集,由於事實代表深度學習須要像ImageNet 這樣的大數據。

「圖片,不少不少的圖片」,做爲非結構化數據的一種,ImageNet向咱們展現了圖片的巨大威力,而咱們相信,這只是剛剛開始。

圖: ImageNet 圖片來源:《數據科學淺談》

店小蜜:智能客服的養成之道[2]

2016年3月,一個名叫「個人小蜜」的人工智能客服就出如今了手機淘寶和手機天貓的APP中,它能夠說是店小蜜的前身,當時,它的主要工做是擔當平臺客服,爲用戶解決催發貨、退貨退款、投訴和售後保障等問題。「咱們開發‘個人小蜜’,是爲了讓用戶能以最快的方式找到解決問題的途徑。」 小蜜的產品經理南山回憶起團隊初創時的往事,這樣說道。

整個淘寶天貓電商平臺的用戶有好幾億,若是讓每一個用戶都能用快速客服通道來聯繫客服,顯然會對淘寶客服團隊形成巨大壓力。怎麼辦呢?人力不能解決的問題,就靠技術來解決。客服人員忙不過來,就請智能客服來幫忙。阿里天天大量的真實交易互動,讓用戶的問題都以數據的形式沉澱下來。經過這些數據,開發團隊能夠得知哪些問題最高頻。而這些數據也讓小蜜不斷地進行強化學習,變得愈來愈「聰明」,應答準確度愈來愈高。

客服系統產生的文本、語音成了豐富的寶藏,經過對這些文本、語音的智能化處理,店小蜜逐漸成爲了「最懂電商的客服機器人」。

「知識,各行各業的知識」,店小蜜的成功從一個角度證實了對文本、語音的運用,能夠釋放出來的巨大能力。咱們相信,這只是剛剛開始。

圖:客服機器人 圖片來源:浙江在線-錢江晚報

智能安保:智能化辦案[3]

2018年11月5日到10日,首屆中國國際進口博覽會在上海成功舉辦。本次進博會有一個大的亮點:智能安保。

在本次安保活動中,上海公安局「智慧公安」產品「智能警務中臺」成功亮相,經過對轄區1.5萬攝像頭的全量接入,實時解析,實現民警的智能化辦案。基於全網全視頻數據結構化的提取,實現人、車多維特徵布控,觸網自動告警,融合視頻結構化信息、MAC、IMEI、RFID等進行多維研判,對目標嫌疑人進行行爲軌跡跟蹤。


圖:首屆中國國際進口博覽會 圖片來源:環球網

「視頻,流動的視頻」,首屆中國國際進口博覽會上智能安保的成功應用,使咱們相信了對視頻監控智能化處理的巨大。咱們仍然相信,這只是剛剛開始。

狂奔的應用:被「慣壞」的應用

隨着網絡的加速和人工智能的興起,彷彿一晚上之間信息流、短視頻、網紅直播這些新的娛樂方式涌如今人們面前,躁動的人們攪動着躁動的市場,躁動的市場攪動着躁動的應用。頭條、抖音、鬥魚、小紅書、淘寶直播等等新的娛樂或電商模式噴薄而出,網紅經濟、內容電商、信息流等新興的詞彙也如雨後春筍般涌現出來。正如蘋果廣告Think different裏面描述的那樣:「你能夠讚美他們,引用他們,反對他們,質疑他們,頌揚或是詆譭他們,但惟獨不能漠視他們。」也許你跟我同樣,對某些產品不覺得然甚至嗤之以鼻,可是新的娛樂形態畢竟擋無可擋,每一個人都不能置身事外。

仔細分析,其實不難發現,當咱們經歷了互聯網時代的洗禮,對信息的渴望被極大的喚起,常規的結構化數據交互已經不能知足人們的慾望,而伴隨着技術成熟而來的非結構化數據:圖片、視頻、語音,正式登上舞臺,催生着一個接一個的應用一路狂奔。


圖:狂奔的應用 圖片來源:百度百科

非結構化數據的問題和挑戰

非結構化數據雖然具備很大的價值,可是當前對非結構化數據的處理和管理卻存在不少問題和挑戰,下面結合咱們的理解對這些問題和挑戰進行一個初步整理。

實體和關係分離

非結構化數據由於其自身不具備規整的形式,所以不能像結構化數據同樣按照二維表的形式存儲。所以其實體和關係是分離的。

舉個簡單例子:對於淘寶商品的圖片,其商品的信息是經過二維表的形式存儲的,可是主圖的圖片卻存在在OSS中,須要經過cdn映射才能訪問圖片內容。

這種狀況出如今大部分的非結構化數據的身上,實體和關係的分離,形成了場景分析的困難。若是咱們單獨看一張圖片(可參考圖:圖片蘊含的信息),其蘊含的豐富的信息若是所有靠算法去處理,不只耗費巨大的資源,並且沒法追溯其來源、曝光、使用場景等,會形成大量精準信息的缺失。若是咱們從結構化數據去看,卻沒法直接使用圖片自己所包含的信息(圖片的特色、圖片包含的文字、圖片包含的促銷信息)等。
實體和關係的分離,形成了非結構化數據使用的困難,下降了數據的完整性。

數據分散,未造成協力

不管是從ImageNet的例子仍是從集團數據的角度去看,當前非結構化數據廣泛存在數據分散的現象。而實際的生活中,數據不該該是分散的,而應該造成聯動,更充分的發揮價值,便利咱們的生活。

處理複雜,開發門檻高

如今對於非結構化數據的處理,離不開算法,依託於集團人工智能實驗室、各個部門的算法團隊,集團內智能化場景遍地開花,欣欣向榮。

可是,這並無解決非結構化數據處理複雜,開發門檻高的問題。算法的高門檻和業務的高要求,制約了非結構化數據能力的釋放。

隨着5G時代的到來,各類新的應用產生的巨量非結構化數據,僅僅依託人工的合做形態,恐怕不足以很好的實現非結構化數據的使用。工具化、平臺化、規模化將會成爲未來的重點。

非結構化數據的思考

通過前文的描述和分析,咱們對非結構化數據進行了深刻的思考。

構建完整的非結構化數據資產意義重大

「單絲不成線,孤木不成林」,構建非結構化數據資產意義重大。當咱們將分散的非結構化數據聚集在一塊兒,會造成完整的用戶、商品、內容、品牌等的數據集,會造成完整的資產視圖和商業視圖。數據聚集後,各個BU看數據的視角再也不是孤立的,再也不是受限的。從廣度上來說,可以從整個集團甚至整個市場的層面去查看業務的全貌;從深度上來說,可以深刻行業,造成行業專業化的知識,將業務深耕進去。

集成通用及專用的算法能力相當重要

當非結構化數據遇到MIT、PAI等集團強大算法平臺或工具後,將會充分下降算法的使用門檻,充分發揮數據的價值。屆時,80%的非結構化數據再也不是放在倉庫中積灰的礦石,而是能夠被加工成閃閃發光的金子;算法再也不是針對具體業務去賦能的途徑,而是能夠被規模化使用的利器。

提供標準化、快速的非結構化數據服務前景可觀

當前不管是AWS、Azure仍是阿里雲,對於非結構化處理主要提供工具、算法,並無針對數據自己提供解決方案,不一樣的行業數據應該如何組織、如何訓練、如何造成行業知識庫。所謂,提供了「器」,卻沒有提供「術」。而市場上不少數據公司,則專一於某個領域的數據,如公安、電商、諮詢等行業,提供行業性的解決方案,而且取得了可觀的成果。若是咱們可以與業務深度結合,提供標準化、快速的非結構化服務,前景將會很是可觀,小到BU,大到集團乃至外部市場,具有極大的想象空間。

非結構化數據的價值還遠未充分挖掘,將來:廣闊天地,大有可爲。

非結構化數據做爲一種數據量大、類型豐富、與人工智能能夠深度結合的數據類型,將會發揮愈來愈大的價值。然而如何管理、使用、快速價值化非結構化數據,當前並無很好的解決方案,咱們團隊在綜合分析市場上的產品和深度思考後結合DT強大的數據能力,提出了「非結構化數據體系」的設想和解決方案。


原文連接 本文爲雲棲社區原創內容,未經容許不得轉載。

相關文章
相關標籤/搜索