淺談pandas，pyspark 的大數據ETL實踐經驗

時間 2019-12-06

標籤淺談 pandas pyspark 數據 etl 實踐經驗简体版

原文原文鏈接

文章大綱 0.序言 1. 數據接入 2. 髒數據的清洗 2.1 文件轉碼 2.2 指定列名 2.3 pyspark dataframe 新增一列並賦值 2.4 時間格式處理與正則匹配 3. 缺失值的處理 4. 數據質量覈查與基本的數據統計 4.1 統一單位 4.1.1 年齡 4.1.2 日期 4.1.3 數字 4.2 去重操做 4.3 聚合操做與統計 4.4 Top 指標獲取 5.數據導入導出參

>>阅读原文<<