多來源數據採集、處理的數據流程

數據平臺數據處理流程圖 web

  1. 數據準備:
    主要分爲幾個來源:FTP數據來源,合做方推送的數據,從攜程對外開放的API接口獲取數據,酒店管理系統日誌數據以及在線旅行社網站的數據源。
  2. 數據接入:
    針對數據多來源的特性開發針對特定場景的數據接入方式。
    a.FTP來源的數據:採用shel腳本開發,包括檢查數據是否準備就緒、開始下載、解密解包、lzop壓縮、put方式上傳文件到HDFS
    b.合做方推送的數據:搭建簡單的web服務,接受攜程推送的請求,利用Nginx完成請求負載,並利用Nginx記錄請求中的數據,寫入文件。後續經過日誌收集系統獲取數據(其實能夠從合做方直接將數據推送Kafka的)
    c.合做方API接口數據:開發程序造成生產者消費者模式,生產者將任務寫入隊列,消費者從隊列中獲取任務並利用線程池併發從合做方API接口獲取數據
    d.PMS日誌數據:主要由開源Flume組件完成
    e.網站數據:利用爬蟲抓取網站數據

3.數據存儲:
分爲實時和離線數據存儲兩種方式,分別經過Kafka和HDFS進行存儲
4.數據處理:
在數據處理環節,主要利用MapReduce和Spark進行數據處理任務的開發。
五、數據查詢:
將Hive定義在數據查詢這一流程,用戶在使用數據平臺過程當中,經過Hive對數據進行查詢。併發

多來源數據採集、處理的數據流程

相關文章
相關標籤/搜索