第二篇：使用Spark對MovieLens的特徵進行提取

時間 2020-12-30

原文原文鏈接

閱讀目錄前言類別特徵提取派生特徵提取文本特徵提取歸一化特徵回到頂部前言在對數據進行了初步探索後，想必讀者對MovieLens數據集有了感性認識。而在數據挖掘/推薦引擎運行前，往往需要對數據預處理。預處理的重要性不言而喻，甚至比數據挖掘/推薦系統本身還重要。然而完整的數據預處理工作會涉及到：缺失值，異常值，口徑統一，去重，特徵提取等等等等，可以單寫一本書