大數據工程師技能圖譜算法
大數據通用處理平臺shell
Spark編程
Flink數組
Hadoop安全
分佈式存儲網絡
HDFS數據結構
資源調度架構
Yarnapp
Mesosdom
數據分析/數據倉庫(SQL類)
Pig
Hive
kylin
Spark SQL,
Spark DataFrame
Impala
Phoenix
ELK
ElasticSearch
Logstash
Kibana
消息隊列
Kafka(純日誌類,大吞吐量)
RocketMQ
ZeroMQ
ActiveMQ
RabbitMQ
流式計算
Storm/JStorm
Spark Streaming
日誌收集
Scribe
Flume
編程語言
Java
Python
R
Ruby
數據分析挖掘
MATLAB
SPSS
SAS
數據可視化
R
D3.js
ECharts
Excle
機器學習
機器學習基礎
聚類
時間序列
推薦系統
迴歸分析
文本挖掘
決策樹
支持向量機
貝葉斯分類
神經網絡
機器學習工具
Mahout
Spark Mlib
TensorFlow (Google 系)
Amazon Machine Learning
DMTK (微軟分佈式機器學習工具)
算法
數據結構
棧,隊列,鏈表
散列表
二叉樹,紅黑樹,B樹
圖
經常使用算法
排序
插入排序
桶排序
堆排序
快速排序
最大子數組
最長公共子序列
最小生成樹
最短路徑
矩陣的存儲和運算
分佈式一致性
paxos
raft
gossip
雲計算
雲服務
SaaS
PaaS
IaaS
Openstack
Docker
Hadoop 家族技能圖譜
Hadoop
Zookeeper
Avro
Chukwa
Ambari
Whirr
Bigtop
HCatalog
Hue
HBase
Pig
Sqoop
Cassandra
Hama
Flume
Giraph
Oozie
Crunch
Hive
Mahout
Hive 技能圖譜
Hive介紹
Hive系統架構
MetaStore
Derby
MySQL
HDFS
/user/hive/warehouse
MapReduce
Hive配置文件
hive-env.sh
hive-site.xml
hive-log4j.properties
Hive命令行
hive-config
hive shell
quit,exit
reset
set
add,list,delete FILES
! <命令>
dfs <命令>
HQL
source FILES
hive service
hive-service cli
hive-service hiveserver
hive-service metastore
hive-service hwi
hive-service jar
HiveQL
語法關鍵字
show databases
show PARTITIONS
show tables
create table
load data(local) inpath
Select*from
desc,alert,drop
limit,as,case when then,union
like,group by,having
order by,sort by
cluster by
數據類型
簡單類型
tinyint,smallint,int,bigint
float,double
boolean
string
timestamp
binary
複雜類型
arry
map
struct
表
內部表
外部表
HDFS
HBase
Cassandra
DynamoDB
表查詢
單表查詢
lnner joins
Outer joins
Semi joins
Map joins
子查詢
視圖
數據表設計
每日一表
每日一表分區
按桶分散數據
Hive優化
表分區Partitions
表存儲桶buckets
表壓縮
索引
bitmap indexes
執行計劃
控制Mapper.Reduce數量
訪問方式
Hive Shell
Java JDBC API
Thrift Client
RHive
自定義函數
自定義函數UDF
自定義聚合函數UADF
Hive安全
認證
hive.files.umask.value
hive.metastore.authorization.storage.checks
hive.metastore.execute.setugi
受權
hive.security.authorization.enabled
hive.security.authorization.createtable.owner.grants
hive.security.authorization.createtable.user.grants
權限模型
User
Group
Role
Web控制檯
hwi:9999
軟件集成
Zookeeper
Thrift
Ooize
HCatalog
AWS
Hive案例
Mahout 技能圖譜
Mahou介紹
推薦
協同過濾
基於用戶協同過濾
基於物品協同過濾
類似度矩陣
歐氏距離
Pearson距離
餘弦距離cosine
Spearman’s rank correlation coefficient
Tanimoto coefficient
log-likelihood
近鄰算法
按值取近鄰
按比例取近鄰
推薦算法
UserBasedRecommender
ItemBasedRecommender
SlopeOneRecommender
SVDRecommender
KnnltemBasedRecommender
TreeClusteringRecommender
算法檢驗
全查率Recall
準查率Precision
數據模型
UserID,ltemID,PreferenceValue
UserID,ItemID
Hadoop集羣部署
聚類
數據模型
DenseVector
RandomAccessSparseVector
SequentialAccessSpareVector
距離算法
歐式距離
歐式平方距離
馬氏距離
餘弦距離
Tanimoto距離
帶權重距離
標準化距離
normalization
聚類算法
k-means
Canopy
Fuzzy k-means
Dirichlet
Topic moseling on LDA
Hadoop集羣部署
分類
系統模塊
訓練營
測試營
分類算法
訓練過程
創建分類器
驗證模塊
真實數據
調整參數
執行分類過程
預測結果
檢驗結果
自動構建
工做流
訓練模型
定義目標變量
歷史數據
定義預測變量
分類算法
經過學習算法訓練分類器
驗證模型
運行測試集
參數調優
生產環境
啓動模型對真實數據計算
分類模型
分類算法
Stochastic gradient descent(SGD)
Online_ogisticRession
CrossFoldLearner
Adaptivel_ogisticRegression
Support vector machine(SVM)
Naive Bayes
Complemetary naive Bayes
Random forests