學習計劃1:spark,spark數據處理,預處理,機器學習,分佈式機器學習算法等相關
學習計劃2:hadoop系列 hbase,pig,yarn,HDFS 流計算學習
學習計劃3:ETL相關知識學習
未完待續java
-------------------------linux
spark學習計劃:git
各類零散的點github
1.scala學習算法
2.hadoop基礎,mapreduce原理和實現應用(找一個log分析的實例?)mr2框架已經逐步被替代,HDFS ;yarn; hbase,hive,sqoop 等技術棧,看看有什麼能夠補上的嗎 sql
3.spark適用環境, mr框架的缺點是啥,爲何spark能更好的完成一些任務, shell
spark core, RDD,spark任務調度,spark sql, spark streaming, MLlib, 數據庫
4.apache
------------------------------
阿里巴巴18春招實習生描述
數據研發工程師 ::: 數據庫技術,Hadoop,Linux,元數據管理,ETL技術,分佈式技術
若是你想參與阿里大數據的採集、存儲、處理,經過分佈式大數據平臺加工數據,支持業務管理決策
若是你想參與阿里大數據體系的設計、開發、維護,經過數據倉庫、元數據、質量體系有效的管理和組織幾百P的數據
若是你想參與阿里大數據產品的研發,經過對數據的理解,發揮你的商業sense,發掘數據價值,探索大數據商業化
若是你想接觸世界領先的大數據處理與應用的技術和平臺,得到大數據浪潮之巔的各種大牛的指導緩存
熟悉一門數據處理語言,如SQL、JAVA、Python、Perl等,熟悉unix或者linux操做
有參與過數據處理、分析、挖掘等相關項目更好
對Hadoop、Hive、Hbase等分佈式平臺有必定的理解更好
算法工程師-機器學習
咱們專一於大數據之上的機器學習算法研究與應用,若是你瞭解機器學習、深度學習、強化學習、遷移學習、主動學習、特徵提取與稀疏學習、等級學習等
負責機器學習、深度學習領域的技術研發工做,包括但不限於神經元網絡模型設計與優化、強化學習、遷移學習、主動學習、維度下降、核方法、譜方法、特徵提取與稀疏學習、等級學習、推薦、隨機優化等的算法和系統研發等
負責機器學習尤爲是深度學習前沿問題的探索與研究,結合將來實際應用場景,提供全面的技術解決方案
負責提供分佈式的算法實現的解決方案,大幅提高算法計算規模和性能
負責提供大數據分析建模方案,沉澱行業解決方案,協助拓展業務邊界
-----------------------
hadoop系 (學習如何使用/原理)
Hadoop/Yarn/Zookeeper
Spark/Spark SQL/Spark Streaming
Storm/Flink/Beam
ETL
ETL早期做爲數據倉庫的關鍵環節
來描述將數據歷來源端通過抽取(extract)、交互轉換(transform)、加載(load)至目的端的過程。ETL一詞較經常使用在
數據倉庫,但其對象並不限於數據倉庫。
ETL是構建數據倉庫的重要一環,用戶從
數據源抽取出所需的數據,通過
數據清洗,最終按照預先定義好的數據倉庫模型,將數據加載到數據倉庫中去。
寫shell,搭hadoop/hive/hbase 寫複雜邏輯的sql
負責數據的抽取,轉化和傳輸,通常這個部門在企業裏面負責數據的轉化,之前數據倉庫時代是 SQL 爲主和 ETL 工具爲輔。如今非結構性質的系統好比說 Hadoop 等等,他們腳本語言的能力須要很強。
數據etl過程,數據建模,定時任務的分配,hadoop集羣維護
總之就是須要把數據各類導入導出,各類收集處理,
大數據查詢
Presto/Kylin/Druid/Impala, 推薦一本書: 《Druid實時大數據分析》
調度 airflow, azkaban, kubernetes, mesos 等
中間件
消息中間件 kafka/ rocketMQ, see: https://github.com/apache/incubator-rocketmq
緩存中間件 memcached
BI工程師
通常是作數據可視化,報表開發,經常使用工具(如BO Cognos MSTR等),也有基於js(如echarts hicharts等)的Web開發
數據倉庫工程師:
數據倉庫,英文名稱爲Data Warehouse,可簡寫爲DW或DWH。數據倉庫,是爲企業全部級別的決策制定過程,提供全部類型數據支持的戰略集合。它是單個數據存儲,出於分析性報告和決策支持目的而建立。 爲須要業務智能的企業,提供指導業務流程改進、監視時間、成本、質量以及控制。
傳統的數據倉庫概念,職責大體能夠分爲兩種,一是業務分析(BA)和數據建模(Data Modeling),主要作需求分析,業務理解,數據倉庫表結構和字段邏輯設計;一是流程(ETL)開發,具體工做以下
===================
spark一份課程的目錄
做者:匿名用戶
連接:https://www.zhihu.com/question/31427697/answer/202371651
來源:知乎
著做權歸做者全部。商業轉載請聯繫做者得到受權,非商業轉載請註明出處。
第一階段 Spark內核深度剖析 第00節課-課程特點和學習方式 第一節課-Spark概述(四大特性) 第二節課-Spark入門 第三節課-什麼是RDD? 第四節課-spark架構 第五節課-linux環境準備(虛擬機,linux) 第六節課-hadoop環境準備 第七節課-spark環境準備 第八節課-spark開發環境搭建(java,scala) 第八節課-補充-maven打包 第九節課-spark任務提交 第十節課--Historyserver配置 第十一節課--RDD的建立方式 第十二節課--Transformation和action原理剖析 第十三節課--map,filter,flatMap算子演示(java版) 第十四節課--groupByKey,reduceByKey,sortByKey算子演示(java版) 第十五節課--join,cogroup,union算在演示(java版本) 第十六節課--Intersection,Distinct,Cartesian算子演示(java版本) 第十七節課--mapPartition,reparation,coalesce算子演示(java版) 第十八節課--sample,aggregateByke算子演示(java版本) 第十九節課--mapPartitionsWithIndex,repartitionAndSortWithinPartitions算子演示(java) 第二十節課--action算子演示(java版) 第二十一節課--map,filter,flatMap,groupByKey,reduceByKey,sortByKey算子演示(scala) 第二十二節課--join,cogroup,union,intersection,distinct,cartesian算子演示(scala) 第二十三節課--mapPartitions,reparition,coalesce,sample,aggregateByKey算子演示(scala) 第二十四節課-mapPartitionsWithIndex,repartitionAndSortWithinPartitions算子演示(scala) 第二十五節課-RDD持久化(tachyon) 第二十六節課--共享變量(廣播變量,累加變量) 第二十七節課-Spark on YARN模式(cluster,client) 第二十八節課-窄依賴和寬依賴 第二十九節課--Shuffle原理剖析 第三十節課--stage劃分原理剖析 第三十一節課-Spark任務調度 第三十二節課--綜合案例一TopN(scala) 第三十三節課--綜合案例二日誌分析上(scala) 第三十三節課--綜合案例二日誌分析下(scala) 第三十四節課--spark2內核新特性 第二階段 Spark調優 第三十五節課-Spark調優概述 第三十六節課-開發調優(1) 第三十七節課-開發調優(2) 第三十八節課-開發調優(3) 第三十九節課-開發調優(4) 第四十節課-開發調優(5) 第四十一節課-開發調優(6) 第四十二節課-開發調優(7) 第四十三節課-開發調優(8) 第四十四節課-開發調優(9) 第四十五節課-數據本地化 第四十六節課-數據傾斜原理 第四十七節課-數據傾斜解決方案一 第四十八節課-數據傾斜解決方案二 第四十九節課-數據傾斜解決方案三 第五十節課-數據傾斜解決方案四 第五十一節課-數據傾斜解決方案五 第五十二節課-數據傾斜解決方案六 第五十三節課-數據傾斜解決方案七 第五十四節課-shuffle調優 第五十五節課-Spark資源模型 第五十六節課-資源調優 第五十七節課-Spark JVM調優(1) 第五十八節課-Spark JVM調優(2) 第五十九節課-Spark JVM調優(3) 第六十節課-Spark JVM調優(4) 第六十一節課-Spark JVM調優(5) 第六十二節課-spark調優總結 第三階段 SparkSQL精講 第六十三節課-SparkSQL前世此生 第六十四節課-Dataframe使用 第六十五節課-Reflection方式將RDD轉換成Dataframe 第六十六節課-Programmatically方式將RDD轉換成DataFrame 第六十七節課-DataFreme VS RDD 第六十八節課-數據源之數據load和save 第六十九節課-數據源之parquetfile操做 第七十節課-數據源之JSON數據 第七十一節-課數據源之JDBC 第七十二節課-數據源之Hive table-hive環境搭建 第七十三節課-數據源之Hive table-spark環境集成 第七十四節課-數據源之Hive table-使用 第七十五節課-數據源之HBase環境準備 第七十六節課-數據源之HBase 第七十七節課-Thriftserver使用 第七十八節課-UDF開發 第七十九節課-UADF開發 第八十節課-開窗函數 第八十一節課-groupBy和agg函數使用 第八十二節課-綜合案例一(日誌分析) 第八十三節課-綜合案例二(用戶行爲分析)-1 第八十四節課-綜合案例二(用戶行爲分析)-2 第八十五節課-綜合案例二(用戶行爲分析)-3 第八十六節課-綜合案例二(用戶行爲分析)-4 第八十七節課-綜合案例二(用戶行爲分析)-5 第四階段 SparkStreaming精講 第八十八節課-Spark Streaming工做原理 第八十九節課-Spark Streaming入門案例 第九十節課-Spark Streaming HDFS WordCount例子演示 第九十一節課-Spark Streaming之updateStateByKey 第九十二節課-Spark Streaming之mapWithState 第九十三節課-Spark Streaming之transform 第九十四節課-Spark Streaming之window操做 第九十五節課-Spark Streaming之foreachRDD 第九十六節課-Spark Streaming之flume原理介紹 第九十七節課-Spark Streaming之flume搭建 第九十八節課-Spark Streaming之flume集成 第九十九節課-Spark Streaming之kafka原理介紹 第一百節課-Spark Streaming之kafka集成 第一百零一節課-Spark Streaming之kafka集羣部署 第一百零二節課-Spark Streaming之綜合案例TopN實時統計 第一百零三節課-Spark Streaming之Driver HA配置 第五階段 Spark2新特性 第一百零四節課-Spark2新特性之 Spark2設計目標-更容易、更快速、更智能 第一百零五節課-Spark2 新特性之SparkSQL變化之 SparkSession 第一百零六節課-Spark2新特性之whole-stage code generation和vectorization技術剖析 第一百零七節課-Spark2 新特性之RDD,DataFream 和DataSet關係 第一百零八節課-Spark2 新特性之DataSet Transformation演示(1) 第一百零九節課-Spark2 新特性之DataSet Action演示(2) 第一百一十節課-Spark2 新特性之DataSet 基本操做演示(3) 第一百一十一節課-Spark2 新特性之DataSet[untyped ] 基本操做演示(4) 第一百一十二節課-Spark2 新特性之DataSet其它功能演示(5) 第一百一十三節課-Spark2 新特性之 Structured Streaming設計目標 第一百一十四節課-Spark2 新特性之 Structured Streaming原理剖析 第一百一十五節課-Spark2 新特性之 Structured Streaming 案例演示