校招準備-大數據工具

時間 2019-12-07

標籤準備數據工具简体版

原文原文鏈接

學習計劃1:spark,spark數據處理,預處理,機器學習,分佈式機器學習算法等相關

學習計劃2:hadoop系列 hbase,pig,yarn,HDFS 流計算學習

學習計劃3:ETL相關知識學習

未完待續java

-------------------------linux

spark學習計劃:git

各類零散的點github

1.scala學習算法

2.hadoop基礎,mapreduce原理和實現應用(找一個log分析的實例?)mr2框架已經逐步被替代,HDFS ;yarn; hbase,hive,sqoop 等技術棧,看看有什麼能夠補上的嗎 sql

3.spark適用環境, mr框架的缺點是啥,爲何spark能更好的完成一些任務, shell

spark core, RDD,spark任務調度,spark sql, spark streaming, MLlib, 數據庫

4.apache

------------------------------

阿里巴巴18春招實習生描述

數據研發工程師 ::: 數據庫技術,Hadoop,Linux,元數據管理,ETL技術,分佈式技術

若是你想參與阿里大數據的採集、存儲、處理，經過分佈式大數據平臺加工數據，支持業務管理決策
若是你想參與阿里大數據體系的設計、開發、維護，經過數據倉庫、元數據、質量體系有效的管理和組織幾百P的數據
若是你想參與阿里大數據產品的研發，經過對數據的理解，發揮你的商業sense，發掘數據價值，探索大數據商業化
若是你想接觸世界領先的大數據處理與應用的技術和平臺，得到大數據浪潮之巔的各種大牛的指導緩存

熟悉一門數據處理語言，如SQL、JAVA、Python、Perl等，熟悉unix或者linux操做

有參與過數據處理、分析、挖掘等相關項目更好

對Hadoop、Hive、Hbase等分佈式平臺有必定的理解更好

算法工程師-機器學習

咱們專一於大數據之上的機器學習算法研究與應用，若是你瞭解機器學習、深度學習、強化學習、遷移學習、主動學習、特徵提取與稀疏學習、等級學習等

負責機器學習、深度學習領域的技術研發工做，包括但不限於神經元網絡模型設計與優化、強化學習、遷移學習、主動學習、維度下降、核方法、譜方法、特徵提取與稀疏學習、等級學習、推薦、隨機優化等的算法和系統研發等

負責機器學習尤爲是深度學習前沿問題的探索與研究，結合將來實際應用場景，提供全面的技術解決方案

負責提供分佈式的算法實現的解決方案，大幅提高算法計算規模和性能

負責提供大數據分析建模方案，沉澱行業解決方案，協助拓展業務邊界

-----------------------

hadoop系 (學習如何使用/原理)

Hadoop/Yarn/Zookeeper

Spark/Spark SQL/Spark Streaming

Storm/Flink/Beam

ETL

ETL早期做爲數據倉庫的關鍵環節，負責將分佈的、異構數據源中的數據如關係數據、平面數據文件等抽取到臨時中間層後進行清洗、轉換、集成，最後加載到數據倉庫（Data Warehouse）或數據集市（Data Mart）中，成爲聯機分析處理（On-Line Analytical Processing，OLAP）、數據挖掘（Data Mining）的基礎。

來描述將數據歷來源端通過抽取（extract）、交互轉換（transform）、加載（load）至目的端的過程。ETL一詞較經常使用在數據倉庫，但其對象並不限於數據倉庫。

ETL是構建數據倉庫的重要一環，用戶從數據源抽取出所需的數據，通過數據清洗,最終按照預先定義好的數據倉庫模型，將數據加載到數據倉庫中去。

寫shell,搭hadoop/hive/hbase 寫複雜邏輯的sql

負責數據的抽取，轉化和傳輸，通常這個部門在企業裏面負責數據的轉化，之前數據倉庫時代是 SQL 爲主和 ETL 工具爲輔。如今非結構性質的系統好比說 Hadoop 等等，他們腳本語言的能力須要很強。

數據etl過程,數據建模,定時任務的分配,hadoop集羣維護

總之就是須要把數據各類導入導出,各類收集處理,

大數據查詢

Presto/Kylin/Druid/Impala, 推薦一本書: 《Druid實時大數據分析》

調度 airflow, azkaban, kubernetes, mesos 等

中間件

消息中間件 kafka/ rocketMQ, see: https://github.com/apache/incubator-rocketmq

緩存中間件 memcached

BI工程師

通常是作數據可視化，報表開發，經常使用工具（如BO Cognos MSTR等），也有基於js（如echarts hicharts等）的Web開發

數據倉庫工程師：

數據倉庫，英文名稱爲Data Warehouse，可簡寫爲DW或DWH。數據倉庫，是爲企業全部級別的決策制定過程，提供全部類型數據支持的戰略集合。它是單個數據存儲，出於分析性報告和決策支持目的而建立。爲須要業務智能的企業，提供指導業務流程改進、監視時間、成本、質量以及控制。

傳統的數據倉庫概念，職責大體能夠分爲兩種，一是業務分析（BA）和數據建模（Data Modeling），主要作需求分析，業務理解，數據倉庫表結構和字段邏輯設計；一是流程（ETL）開發，具體工做以下

===================

spark一份課程的目錄

做者：匿名用戶
連接：https://www.zhihu.com/question/31427697/answer/202371651
來源：知乎
著做權歸做者全部。商業轉載請聯繫做者得到受權，非商業轉載請註明出處。

第一階段 Spark內核深度剖析第00節課-課程特點和學習方式第一節課-Spark概述（四大特性）第二節課-Spark入門第三節課-什麼是RDD？第四節課-spark架構第五節課-linux環境準備（虛擬機，linux）第六節課-hadoop環境準備第七節課-spark環境準備第八節課-spark開發環境搭建（java，scala）第八節課-補充-maven打包第九節課-spark任務提交第十節課--Historyserver配置第十一節課--RDD的建立方式第十二節課--Transformation和action原理剖析第十三節課--map，filter，flatMap算子演示（java版）第十四節課--groupByKey,reduceByKey,sortByKey算子演示（java版）第十五節課--join，cogroup,union算在演示（java版本）第十六節課--Intersection，Distinct，Cartesian算子演示（java版本）第十七節課--mapPartition，reparation，coalesce算子演示（java版）第十八節課--sample，aggregateByke算子演示（java版本）第十九節課--mapPartitionsWithIndex,repartitionAndSortWithinPartitions算子演示（java）第二十節課--action算子演示（java版）第二十一節課--map,filter,flatMap,groupByKey,reduceByKey,sortByKey算子演示（scala) 第二十二節課--join,cogroup,union,intersection,distinct,cartesian算子演示（scala) 第二十三節課--mapPartitions,reparition,coalesce,sample,aggregateByKey算子演示(scala) 第二十四節課-mapPartitionsWithIndex,repartitionAndSortWithinPartitions算子演示(scala) 第二十五節課-RDD持久化（tachyon）第二十六節課--共享變量（廣播變量，累加變量）第二十七節課-Spark on YARN模式（cluster,client）第二十八節課-窄依賴和寬依賴第二十九節課--Shuffle原理剖析第三十節課--stage劃分原理剖析第三十一節課-Spark任務調度第三十二節課--綜合案例一TopN（scala）第三十三節課--綜合案例二日誌分析上(scala) 第三十三節課--綜合案例二日誌分析下(scala) 第三十四節課--spark2內核新特性第二階段 Spark調優第三十五節課-Spark調優概述第三十六節課-開發調優(1) 第三十七節課-開發調優(2) 第三十八節課-開發調優(3) 第三十九節課-開發調優(4) 第四十節課-開發調優(5) 第四十一節課-開發調優(6) 第四十二節課-開發調優(7) 第四十三節課-開發調優(8) 第四十四節課-開發調優(9) 第四十五節課-數據本地化第四十六節課-數據傾斜原理第四十七節課-數據傾斜解決方案一第四十八節課-數據傾斜解決方案二第四十九節課-數據傾斜解決方案三第五十節課-數據傾斜解決方案四第五十一節課-數據傾斜解決方案五第五十二節課-數據傾斜解決方案六第五十三節課-數據傾斜解決方案七第五十四節課-shuffle調優第五十五節課-Spark資源模型第五十六節課-資源調優第五十七節課-Spark JVM調優(1) 第五十八節課-Spark JVM調優(2) 第五十九節課-Spark JVM調優(3) 第六十節課-Spark JVM調優(4) 第六十一節課-Spark JVM調優(5) 第六十二節課-spark調優總結第三階段 SparkSQL精講第六十三節課-SparkSQL前世此生第六十四節課-Dataframe使用第六十五節課-Reflection方式將RDD轉換成Dataframe 第六十六節課-Programmatically方式將RDD轉換成DataFrame 第六十七節課-DataFreme VS RDD 第六十八節課-數據源之數據load和save 第六十九節課-數據源之parquetfile操做第七十節課-數據源之JSON數據第七十一節-課數據源之JDBC 第七十二節課-數據源之Hive table-hive環境搭建第七十三節課-數據源之Hive table-spark環境集成第七十四節課-數據源之Hive table-使用第七十五節課-數據源之HBase環境準備第七十六節課-數據源之HBase 第七十七節課-Thriftserver使用第七十八節課-UDF開發第七十九節課-UADF開發第八十節課-開窗函數第八十一節課-groupBy和agg函數使用第八十二節課-綜合案例一（日誌分析）第八十三節課-綜合案例二(用戶行爲分析)-1 第八十四節課-綜合案例二(用戶行爲分析)-2 第八十五節課-綜合案例二(用戶行爲分析)-3 第八十六節課-綜合案例二(用戶行爲分析)-4 第八十七節課-綜合案例二(用戶行爲分析)-5 第四階段 SparkStreaming精講第八十八節課-Spark Streaming工做原理第八十九節課-Spark Streaming入門案例第九十節課-Spark Streaming HDFS WordCount例子演示第九十一節課-Spark Streaming之updateStateByKey 第九十二節課-Spark Streaming之mapWithState 第九十三節課-Spark Streaming之transform 第九十四節課-Spark Streaming之window操做第九十五節課-Spark Streaming之foreachRDD 第九十六節課-Spark Streaming之flume原理介紹第九十七節課-Spark Streaming之flume搭建第九十八節課-Spark Streaming之flume集成第九十九節課-Spark Streaming之kafka原理介紹第一百節課-Spark Streaming之kafka集成第一百零一節課-Spark Streaming之kafka集羣部署第一百零二節課-Spark Streaming之綜合案例TopN實時統計第一百零三節課-Spark Streaming之Driver HA配置第五階段 Spark2新特性第一百零四節課-Spark2新特性之 Spark2設計目標-更容易、更快速、更智能第一百零五節課-Spark2 新特性之SparkSQL變化之 SparkSession 第一百零六節課-Spark2新特性之whole-stage code generation和vectorization技術剖析第一百零七節課-Spark2 新特性之RDD，DataFream 和DataSet關係第一百零八節課-Spark2 新特性之DataSet Transformation演示（1）第一百零九節課-Spark2 新特性之DataSet Action演示（2）第一百一十節課-Spark2 新特性之DataSet 基本操做演示（3）第一百一十一節課-Spark2 新特性之DataSet[untyped ] 基本操做演示（4）第一百一十二節課-Spark2 新特性之DataSet其它功能演示（5）第一百一十三節課-Spark2 新特性之 Structured Streaming設計目標第一百一十四節課-Spark2 新特性之 Structured Streaming原理剖析第一百一十五節課-Spark2 新特性之 Structured Streaming 案例演示

相關標籤/搜索

每日一句

每一个你不满意的现在，都有一个你没有努力的曾经。