開源大數據週刊-第56期

時間 2019-11-29

標籤開源數據週刊简体版

原文原文鏈接

摘要：

阿里雲E-Mapreduce實踐: 使用hadoop restful api實現對集羣信息的統計資訊全球因Hadoop服務器配置不當致使的數據泄露或達5120TB 網絡犯罪分子近期開始針對配置不當的 Hadoop Clusters 與 CouchDB 服務器展開攻擊活動。

阿里雲E-Mapreduce實踐:

使用hadoop restful api實現對集羣信息的統計
本文根據hadoop/spark的RESTful API，實現了對集羣基本信息的統計功能，包括HDFS文件系統、job狀況、資源隊列狀況的統計。這些API只提供了基礎的數據，具體的統計與分析，還須要基於這些基礎數據作一些簡單的開發。

全球因Hadoop服務器配置不當致使的數據泄露或達5120TB
網絡犯罪分子近期開始針對配置不當的 Hadoop Clusters 與 CouchDB 服務器展開攻擊活動。目前全球因Hadoop分佈式文件系統（HDFS）配置不當致使的數據泄露或達 5,120 TB。html
數夢工場7.5億A輪融資三個維度構建「新型互聯網」
6月8日，數夢工場戰略暨A輪發佈會在杭州舉行。數夢工場已得到來自光大實業資本、阿里巴巴等機構的7.5億元投資，目前公司估值超過10億美圓。api

比較Apache Hadoop生態系統中不一樣的文件格式和存儲引擎的性能
這篇文章提出了在Apache Hadoop生態系統中對比一些當前流行的數據格式和可用的存儲引擎的性能：Apache Avro，Apache Parquet，Apache HBase和Apache Kudu空間效率，提取性能，分析掃描以及隨機數據查找等領域。這有助於理解它們中的每個如何(什麼時候)改善你的大數據工做負載的處理能力。服務器
Apache Flink 1.3.0正式發佈及其新功能介紹
2017年06月01日兒童節 Apache Flink 社區正式發佈了 1.3.0 版本。此版本經歷了四個月的開發，共解決了680個issues。Apache Flink 1.3.0 是 1.x.y 版本線上的第四個主要版本，其 API 和其餘 1.x.y 使用 @Public 註釋的API是兼容的。restful
擁有數據再也不重要，懂得利用纔是王道
大數據時代，手握海量數據已經是企業常態。如何充分利用數據並對加以挖掘和利用纔是贏在將來的王道。在與數百家企業協做的過程當中，英特爾總結了如何經過人工智能、機器學習以及數據挖掘幫助企業經過數據得到真正回報的最佳實踐。網絡
Spark Shuffle過程分析：Map階段處理流程
本文結合具體代碼，詳細分析了Spark Shuffle過程當中Map階段處理流程。機器學習