kafka實時數據流寫入HDFS

    一、摘要   impala作爲實時數據分析引擎,其源數據時效性要求不同,主要分爲離線數據分析和實時數據分析。離線數據分析應用場景下,可以利用hive離線加載數據。實時數據分析則依靠kafka(高吞吐量的消息發佈訂閱系統)。 二、kafka介紹    kafka是一種高吞吐量的分佈式發佈訂閱消息系統,它可以處理消費者規模的網站中的所有動作流數據。這種動作(網頁瀏覽,搜索和其他用戶的行動)是在
相關文章
相關標籤/搜索