Flink是什麼數據庫
Flink是一個面向數據流處理和批處理的分佈式開源計算框架。編程
無界流VS有界流網絡
任何類型的數據均可以造成流數據,好比用戶交互記錄, 傳感器數據,事件日誌等等。架構
Apache Flink 擅長處理無界和有界數據集。 精確的時間控制和有狀態的計算,使得 Flink可以運行任何處理無界流的應用。框架
流數據分爲無界流和有界流。分佈式
1) 無界流:有定義流的開始,但沒有定義流的結束, 會不停地產生數據,無界流採用的是流處理方式。大數據
2) 有界流:有定義流的開始, 也有定義流的結束, 須要在獲取全部數據後再進行計算,有界流採用的是批處理方式。網站
編程模型spa
DataSet 通常用來處理有界流數據。設計
DataStream通常用來處理無界流數據。
什麼是智能推薦?
定義: 根據用戶行爲習慣所提供的數據, 系統提供策略模型,自動推薦符合用戶行爲的信息。
例舉:
好比根據用戶對商品的點擊數據(時間週期,點擊頻次), 推薦相似的商品;
根據用戶的評價與滿意度, 推薦合適的品牌;
根據用戶的使用習慣與點擊行爲,推薦相似的資訊。
應用案例:
小紅書推薦系統
實時流處理
Flink處理(新一代大數據處理引擎)
1)什麼是實時數倉
數據倉庫(Data Warehouse),可簡寫爲DW或DWH,是一個龐大的數據存儲集合,經過對各類業務數據進行篩選與整合,生成企業的分析性報告和各種報表,爲企業的決策提供支持。實時倉庫是基於Storm/Spark(Streaming)/Flink等實時處理框架,構建的具有實時性特徵的數據倉庫。
2)應用案例
分析物流數據, 提高物流處理效率。
3)阿里巴巴菜鳥網絡實時數倉設計:
4)數倉分層處理架構(也稱流式ETL):
ODS -> DWD -> DWS -> ADS
ODS(Operation Data Store):操做數據層, 通常爲原始採集數據。
DWD(Data Warehouse Detail) :明細數據層, 對數據通過清洗,也稱爲DWI。
DWS(Data Warehouse Service):彙總數據層,基於DWD層數據, 整合彙總成分析某一個主題域的服務數據,通常是寬表, 由多個屬性關聯在一塊兒的表, 好比用戶行爲日誌信息:點贊、評論、收藏等。
ADS(Application Data Store): 應用數據層, 將結果同步至RDS數據庫中, 通常作報表呈現使用。
IoT數據分析
1) 什麼是IoT
物聯網是新一代信息技術,也是將來發展的趨勢,英文全稱爲: Internet of things(IOT),顧名思義, 物聯網就是萬物相聯。物聯網經過智能感知、識別技術與普適計算等通訊感知技術,普遍應用於網絡的融合中,也所以被稱爲繼計算機、互聯網以後世界信息產業發展的第三次浪潮。
2) 應用案例
物聯網設備運營分析:
華爲Iot數據分析平臺架構:
智慧城市
城市中汽車愈來愈多, 川流不息,高德地圖等APP經過技術手段採集了愈來愈多的攝像頭、車流的數據。
但道路卻愈來愈擁堵,愈來愈多的城市開始經過大數據技術, 對城市實行智能化管理。
2018年, 杭州採用AI智慧城市,平均通行速度提升15%,監控攝像頭日報警次數高達500次,識別準確率超過92%,AI智慧城市通報佔全體95%以上,在中國城市交通堵塞排行榜, 杭州從中國第5名降至57名。
金融風控
風險是金融機構業務固有特性,與金融機構相伴而生。金融機構盈利的來源就是承擔風險的風險溢價。
金融機構中常見的六種風險:市場風險、信用風險、流動性風險、操做風險、聲譽風險及法律風險。其中最主要的是市場風險和信用風險。
線上信貸流程,經過後臺大數據系統進行反欺詐和信用評估:
電商行業
用戶在電商的購物網站數據經過實時大數據分析以後, 經過大屏彙總展現, 好比天貓的雙11購物活動,經過大屏, 將全國上億買家的訂單數據可視化,實時性的動態展現,包含總覽數據,流式TopN數據,多維區域統計數據等,極大的加強了對海量數據的可讀性。
TopN排行:
區域統計:
本文由mirson創做分享,如需進一步交流,請加QQ羣:19310171或訪問www.softart.cn