淺談pandas,pyspark 的大數據ETL實踐經驗

文章大綱 0.序言 1. 數據接入 2. 髒數據的清洗 2.1 文件轉碼 2.2 指定列名 2.3 pyspark dataframe 新增一列並賦值 2.4 時間格式處理與正則匹配 3. 缺失值的處理 4. 數據質量覈查與基本的數據統計 4.1 統一單位 4.1.1 年齡 4.1.2 日期 4.1.3 數字 4.2 去重操做 4.3 聚合操做與統計 4.4 Top 指標獲取 5.數據導入導出 參
相關文章
相關標籤/搜索