01 Linux 之門程序員
02 文件操做面試
03 權限管理算法
04 軟件安裝編程
05 實戰經驗安全
01 文本工具數據結構
02 grep 的使用框架
03 grep 家族機器學習
04 sed 的使用分佈式
05 綜合案例函數式編程
01 Shell 分析
02 文件探索
03 內容探索
04 交差並補
05 其餘經常使用的命令
06 批量操做
07 結語
01 提升效率
02 光標移動
03 文本編輯
04 命令搜索
05 Emacs 入門
06 Emacs 思惟
01 開源生萬物
02 有錢就換Mac
03 程序員需求
04 非程序員需求
05 一入Mac 誤終身
01 離線安裝
02 Host 與SSH 配置
03 sudo 與JDK 環境
04 準備Hadoop 包
05 開啓HTTP 與配置源
06 安裝ambari-server
07 後續服務安裝
08 結語
01 第一語言
02 數據結構
03 文件讀寫
04 使用模塊
05 函數式編程
06 一道面試題
07 興趣驅動
01 新舊交替
02 基礎變化
03 編碼問題
04 其餘變化
05 2to3 腳本
06 PySpark 配置
07 喜新厭舊
01 Anaconda
02 安裝與配置
03 pip 與源
04 IPython 與Jupyter
05 結語
01 緣起
02 調試與開發
03 排版與格式化
04 輔助工具
05 實用推薦
01 numpy 的使用
02 索引與切片
03 變形與統計
04 矩陣運算
05 實用方法
06 結語
01 PCA 介紹
02 數據均值化
03 協方差矩陣
04 特徵值與向量
05 數據映射降維
06 sklearn 實現
01 Hadoop
02 HDFS
03 角色與管理
04 文件操做
05 結語
01 map 與reduce 函數
02 分而治之
03 Hello,World
04 Streaming 接口
01 引言
02 Hive 接口
03 分區建表
04 分區機制
05 數據導入
06 Hive-QL
07 結語
01 排序與分佈式
02 多表插入與mapjoin
03 加載map-reduce 腳本
04 使用第三方UDF
05 實戰經驗
06 生成惟一ID
01 理論基礎
02 Shell 操做
03 關聯Hive 表
04 數據導入
05 實用經驗
01 SQL 與NOSQL
02 從MySQL 導入HDFS
03 增量導入
04 映射到Hive
05 導入Hive 表
06 從HDFS 導出到MySQL
07 從Hive 導出到MySQL
01 SQL 工具
02 基礎操做
03 查詢套路
04 join 查詢
05 union 與exists
06 實戰經驗
01 快刀
02 一二三要點
03 一個示例
04 應用與統計
05 斬亂麻
01 數據爲框
02 加載數據
03 行列索引
04 行列操做
05 合併聚合
06 迭代數據
07 結語
01 心潮澎湃
02 基本使用
03 SQL 與可視化
04 安裝Zeppelin
05 配置Zeppelin
06 數據安全
07 使用心得
01 MySQL 聚合
02 Spark 聚合
03 非聚合字段
04 Hive 實現
05 group_concat
06 Hive 窗口函數
07 DataFrame 窗口
08 結語
01 引言
02 MySQL 版本
03 awk 版本
04 Python 版本
05 Hive 版本
06 map-reduce 版本
07 Spark 版本
08 結語
0x51 酸酸甜甜,Orange
01 可視化學習
02 數據探索
03 模型與評估
04 組件介紹
05 與Python 進行整合
06 結語
01 sklearn 介紹
02 數據預處理
03 建模與預測
04 模型評估
05 模型持久化
06 三個層次
01 特徵工程
02 獨熱編碼
03 sklearn 示例
04 標準化與歸一化
05 sklearn 與Spark 實現
06 結語
01 描述性統計
02 Pandas 實現
03 方差與協方差
04 Spark-RDD 實現
05 DataFrame 實現
06 Spark-SQL 實現
07 結語
01 測試與訓練
02 評價指標
03 交叉驗證
04 驗證數據
05 OOB 數據
01 天然語言
02 中文分詞
03 詞袋模型
04 詞頻統計
05 TF-IDF
06 結語
01 樸素的思想
02 算法介紹
03 分類與迴歸
04 k 與半徑
05 優化計算
06 實例應用
01 算法描述
02 創建模型
03 理解模型
04 距離與類似性
05 降維與可視化
06 無監督學習
01 樸素思想
02 機率公式
03 三種實現
04 sklearn 示例
05 樸素卻不傻
01 緣起
02 Orange 演示
03 scikit-learn 模擬
04 熵與基尼指數
05 決策過程分析
06 Spark 模擬
07 結語
01 樹與森林
02 到處隨機
03 sklearn 示例
04 MLlib 示例
05 特色與應用
01 深度學習
02 特徵學習
03 自動編碼器
04 Keras 代碼
05 抗噪編碼器
01 全棧框架
02 環境搭建
03 分佈式部署
04 示例分析
05 兩類算子
06 map 與reduce
07 AMPLab 的野心
01 算子之道
02 獲取數據
03 過濾與排序
04 聚合數據
05 join 鏈接
06 union 與zip
07 讀寫文件
08 結語
01 SQL 工具
02 命令行CLI
03 讀Hive 數據
04 將結果寫入Hive
05 讀寫MySQL 數據
06 讀寫三種文件
01 DataFrame
02 生成數據框
03 合併與join
04 select 操做
05 SQL 操做
06 自定義UDF
07 三角之戀
01 Spark 與Scala
02 Scala REPL
03 編譯Scala
04 sbt 編譯
05 示例分析
06 編譯提交
01 城市套路深
02 算法與特徵工程
03 管道工做流
04 OneHotEncoder 示例
05 ML 迴歸實戰
06 特徵處理與算法
07 擬合與評估
01 機器學習
02 語言領域
03 Python 數據生態
04 相關資料
05 書籍推薦
06 性感的職業
01 七大技能
02 SQL 與NoSQL 技能
03 Linux 工具集
04 Python 或者R 語言生態
05 Hadoop 與Spark 生態
06 機率、統計與線性代數
07 機器學習與深度學習
08 業務及雜項
09 結語
01 計算生態
02 離線計算
03 交互分析
04 實時處理
05 算法挖掘
06 發行版本
07 其餘工具
01 數據是寶
02 一分爲二
03 迴歸統一
04 聚少成多
05 你中有我
06 從小看大
07 大事化小
08 少便是多
01 一技之長
02 數據分析相關
03 Python 相關
04 Hadoop 相關
05 Spark 相關
06 模型相關
07 算法相關
08 一輩子之用
01 知識做譜
02 理論基礎
03 Python
04 分析與可視化
05 大數據
06 ETL 與特徵工程
07 機器學習與深度學習
08 工具與庫
09 全棧爲用