首先咱們能夠看看大數據崗位的能力要求php
一 大數據工程師崗位要求html
公司A:java
公司B:linux
二 在面試崗位前,咱們必然要經歷崗位考覈,而考覈的內容主要以數據結構和算法爲主。nginx
基礎算法學習網站以下:面試
https://leetcode.com算法
三. 接下來是技能要求,mongodb
1.首先是基礎編程能力:shell
推薦看Oracle的Java tutorial
https://docs.oracle.com/javase/tutorial/index.html
2.熟悉Linux shell系統:
https://www.learnshell.org/en/Hello%2C_World%21
http://linuxcommand.org/lc3_lts0010.php
https://www.geeksforgeeks.org/introduction-linux-shell-shell-scripting/
3.掌握Mysql數據庫的使用及其經常使用SQL命令以及瞭解非關係型數據庫MongoDB的使用:
https://university.mongodb.com
https://docs.mongodb.com/guides/
4.Hadoop及其生態系統:
大數據學習基石Hadoop、數據串行化系統與技術、數據的統計分析、分佈式集羣、流行的隊列、數據遷移、大數據平臺分析
重點掌握基本模塊例:HDFS、MapReduce、Yarn、Common
http://hadoop.apache.org/docs/stable/hadoop-project-dist/hadoop-common/SingleCluster.html
Hadoop家族其它組件舉例:
Hadoop 生態系統
1) Hadoop:分佈式存儲、分佈式計算、資源調度和任務管理、hdfs、mapreduce、yarn、common
2) Nutch:開源的搜索引擎
3) Hbase/Cassandra:基於google的 bigtable開源的列式存儲的非關係型數據庫
http://hbase.apache.org/book.html#arch.overview
4) Hive:基於SQL的分佈式計算引擎
https://cwiki.apache.org/confluence/display/Hive/LanguageManual
Pig:基於Pig Latin腳本的計算框架
http://pig.apache.org/docs/r0.15.0/start.html
http://pig.apache.org/docs/r0.15.0/basic.html
5) Thrift/Avro:RPC框架、用於網絡通訊
6) Lucene:索引檢索工具包
7) BigTop:項目測試、打包、部署
8) Oozie/Azakban:大數據工做流框架
9) Chukwa/Scribe/Flume:數據收集框架
10) Whirr:部署爲雲服務的類庫
11) Sqoop:數據遷移工具
12) Zookeeper:分佈式協調服務框架
13)HAMA:圖計算框架
14)Mahout:機器學習框架
5.服務器的基礎配置知識(偏向運維)
6.數據結果的可視化
https://echarts.baidu.com/download-theme.html
https://plot.ly
四.學習大數據分析(碩士學習課程舉例)
重點以下課程:
Data Analysis
Data Science Programming
Data Mining
Machine Learning
Parallel and Distrubuted Computing
Big Data Application
學習與應用網站:
https://www.kaggle.com/learn/overview
五:爬蟲知識
https://docs.scrapy.org/en/latest/intro/tutorial.html
https://study.163.com/course/introduction.htm?courseId=1003666043#/courseDetail?tab=1