關於多源統一數據接入的思考

統一數據接入 數據接入就是對於不同的數據來源、不同的合作伙伴,完成數據採集、數據傳輸、數據處理、數據緩存到行業統一的數據平臺的過程。 大數據接入處理面臨的問題 數據接入的三個階段 前期 非結構化數據----(word,excel,圖片,pdf,掃描件,視頻) 1.文本文件----(txt,csv)----utf-8 (踩過的坑-gbk編碼和數據中換行符觸發spark2.2 加載文件的bug(mul
相關文章
相關標籤/搜索