利用Python+PowerBi進行拉勾網杭州站的數據採集及可視化分析之數據清洗篇

我對數據清洗的理解是: 1、確認數據有效性  2,清除異常數據 3,優化數據結構 非常粗糙的理解哈〜  1是因爲如果數據無效,爬下來都是錯的......後面的也沒事意義 2是可能需要的去重啊,多餘的介詞啊,符號啊,也應該洗一洗 3方便細分。 上一篇利用Python的+ PowerBi拉進行網勾杭州站網站的數據採集及可視化分析之爬蟲篇  中,我已經完成了爬蟲。 大概是爬下了7萬多條數據。 1,確認數
相關文章
相關標籤/搜索