流式計算的應用特徵

大數據流式計算能夠普遍應用於金融銀行互聯網物聯網等諸多領域,如股市實時分析、插入式廣告投放、交通流量實時預警等場景,主要是爲了知足該場景下的實時應用需求。數據每每以數據流的形式持續到達數據計算系統,計算功能的實現是經過有向任務圖的形式進行描述,數據流在有向任務圖中流事後,會實時產生相應的計算結果。整個數據流的處理過程每每是在毫秒級的時間內完成的。微信

一般狀況下,大數據流式計算場景具備如下鮮明特徵。網絡

1. 在流式計算環境中,數據是以元組爲單位,以連續數據流的形態,持續地到達大數據流式計算平臺。數據並非一次所有可用,不可以一次獲得全量數據,只能在不一樣的時間點,以增量的方式,逐步獲得相應數據。app

2. 數據源每每是多個,在進行數據流重放的過程當中,數據流中各個元組間的相對順序是不能控制的。也就是說,在數據流重放過程當中,獲得徹底相同的數據流(相同的數據元組和相同的元組順序)是很困難的,甚至是不可能的。運維

3. 數據流的流速是高速的,且隨着時間在不斷動態變化。這種變化主要體如今兩個方面,一個方面是數據流流速大小在不一樣時間點的變化,這就須要系統能夠彈性、動態地適應數據流的變化,實現系統中資源、能耗的高效利用;另外一方面是數據流中各個元組內容(語義)在不一樣時間點的變化,即概念漂移,這就須要處理數據流的有向任務圖能夠及時識別、動態更新和有效適應這種語義層面上的變化。post

4. 實時分析和處理數據流是相當重要的,在數據流中,其生命週期的時效性每每很短,數據的時間價值也更加劇要。全部數據流到來後,均須要實時處理,並實時產生相應結果,進行反饋,全部的數據元組也僅會被處理一次。雖然部分數據可能以批量的形式被存儲下來,但也只是爲了知足後續其餘場景下的應用需求。學習

5. 數據流是無窮無盡的,只要有數據源在不斷產生數據,數據流就會持續不斷地到來。這也就須要流式計算系統永遠在線運行,時刻準備接收和處理到來的數據流。在線運行是流式計算系統的一個常態,一旦系統上線後,全部對該系統的調整和優化也將在在線環境中開展和完成。大數據

6. 多個不一樣應用會經過各自的有向任務圖進行表示,並將被部署在一個大數據計算平臺中,如圖1所示,這就須要整個計算平臺能夠有效地爲各個有向任務圖分配合理資源,並保證知足用戶服務級目標。同時各個資源間須要公平地競爭資源、合理地共享資源,特別是要知足不一樣時間點各應用間系統資源的公平使用。優化

圖 1 大數據流式應用部署


相關閱讀:ui

用於推薦系統評估的概念與指標
人工智能

推薦系統的工做流程

白話推薦系統

想要了解推薦系統?看這裏!(2)——神經網絡方法

想要了解推薦系統?看這裏!(1)——協同過濾與奇異值分解

AutoML如何實現智能推薦系統的自動上線和運維?

入門推薦系統,你不該該錯過的知識清單

如欲瞭解更多,歡迎搜索並關注先薦微信公衆號(ID:dsfsxj)

本帳號爲第四範式智能推薦產品先薦的官方帳號。帳號立足於計算機領域,特別是人工智能相關的前沿研究,旨在把更多與人工智能相關的知識分享給公衆,從專業的角度促進公衆對人工智能的理解;同時也但願爲人工智能相關人員提供一個討論、交流、學習的開放平臺,從而早日讓每一個人都享受到人工智能創造的價值。

相關文章
相關標籤/搜索