開源大數據週刊-第56期

摘要:
阿里雲E-Mapreduce實踐: 使用hadoop restful api實現對集羣信息的統計 資訊 全球因Hadoop服務器配置不當致使的數據泄露或達5120TB 網絡犯罪分子近期開始針對配置不當的 Hadoop Clusters 與 CouchDB 服務器展開攻擊活動。

阿里雲E-Mapreduce實踐:

  • 使用hadoop restful api實現對集羣信息的統計
    本文根據hadoop/spark的RESTful API,實現了對集羣基本信息的統計功能,包括HDFS文件系統、job狀況、資源隊列狀況的統計。這些API只提供了基礎的數據,具體的統計與分析,還須要基於這些基礎數據作一些簡單的開發。

資訊

技術

  • 比較Apache Hadoop生態系統中不一樣的文件格式和存儲引擎的性能

    這篇文章提出了在Apache Hadoop生態系統中對比一些當前流行的數據格式和可用的存儲引擎的性能:Apache Avro,Apache Parquet,Apache HBase和Apache Kudu空間效率,提取性能,分析掃描以及隨機數據查找等領域。這有助於理解它們中的每個如何(什麼時候)改善你的大數據工做負載的處理能力。服務器

  • Apache Flink 1.3.0正式發佈及其新功能介紹

    2017年06月01日兒童節 Apache Flink 社區正式發佈了 1.3.0 版本。此版本經歷了四個月的開發,共解決了680個issues。Apache Flink 1.3.0 是 1.x.y 版本線上的第四個主要版本,其 API 和其餘 1.x.y 使用 @Public 註釋的API是兼容的。restful

  • 擁有數據再也不重要,懂得利用纔是王道

    大數據時代,手握海量數據已經是企業常態。如何充分利用數據並對加以挖掘和利用纔是贏在將來的王道。在與數百家企業協做的過程當中,英特爾總結了如何經過人工智能、機器學習以及數據挖掘幫助企業經過數據得到真正回報的最佳實踐。網絡

  • Spark Shuffle過程分析:Map階段處理流程

    本文結合具體代碼,詳細分析了Spark Shuffle過程當中Map階段處理流程。機器學習

相關文章
相關標籤/搜索