這些年,在數據挖掘項目中踩的「坑」

數據挖掘項目是一個涉及的環節也比較多,並且高度依賴數據的項目。因此在其中一個過程當中遇到點坑,簡直太正常不過了。
需求不明確是第一大坑。需求不明確會把後面的分析方向徹底帶溝溝裏面去,也容易被迫接受一些不可能完成的挖掘目標和商業目標。不過這種通常只會發生在一個公司剛開始有這個崗位的時候,隨着項目的增長,後面你們廣泛就知道數據挖掘的極限了,也知道數據挖掘任務所存在的風險了,便不會提出不可能完成的目標了。說一個曾經被帶溝溝裏去的需求。有一次接到領導說作一個需求,要找出影響用戶忠誠度的關鍵因子,而後我吭哧吭哧的提取數要求,等數據,寫分析報告,確認了幾個關鍵因子,而後去見客戶才發現人家提的是影響高端用戶粘性的因子。範圍都不對,大受打擊。此處避坑方式,能夠去接觸一線客戶的時候,不要退縮,必定要了解他們的真實想法,不要被口口相傳後帶歪了,而後白乾了。
數據自己質量問題是第二大坑。大部分生產系統收集的數據都不是專門爲作挖掘而作的,基本都是爲直接盈利而存在的,因此也就只有直接影響到市場營銷的指標最可靠。別的輔助指標,只能說質量實在通常。咱們提出的上百個指標,真正能用的有20來個就不錯了。除了數據在記錄的時候可能發生的錯誤問題,還多是數據精度/偏倚和準確率,數據不一致,數據遺漏,數據離羣點,數據重複等問題。沒別的避坑方式,只能是儘量多的瞭解系統的基礎數據,蒐集各方信息,在想法設法的提升數據質量的基礎上發散思惟生成更多分析維度,而後盡人事知天命!
取數過程當中發生的數據問題是第三大坑。尤爲記得剛畢業那年,仍是個小透明的時候。有一次作一個甲方的挖掘項目,由於次日要交付(取數週期長耽誤了工期),一夥人拿着亂七八糟的數據分析到凌晨3點,結果發現一個關鍵ID都弄錯了,致使所有數據都無法用。那種想死的心情,那種想殺人的心情。也給咱們一個血的教訓,千萬不要由於信任某我的或者項目時間緊而放棄認真檢查數據。數據有問題就只能打回去重整,就算是時間緊也沒辦法。不過話說回來,原本從各個數據倉庫取數就是個又雜又累的苦活,好一點的取數人員只是犯的傻逼錯誤少一些。有些邏輯上考慮不全是正常的。並且他們對於數據的指標含義什麼的,不像咱們這麼敏感,他們也是要在短期內完成任務。因此此處的避坑方式其實也很簡單,那就是檢查數據!檢查數據!檢查數據!!!
若是說前面的三大坑還算是能夠填滿的,那麼接下來要說的超級大坑靠咱們普通小輩基本填不滿的。那就是可否獲得實權人物的支持。說到底,數據挖掘到如今爲止,還只是個錦上添花的事業。對於廣大身處各類生產問題沒法自拔的一線人員和實權領導,是不會有時間和精力來作這些錦上添花的事情的。所以項目常常由於這樣或那樣的問題延期或者拒絕上線。總的來講,數據挖掘的理論和技術都發展的比較成熟了。可是受現階段採集數據和系統建設的影響,要真正達到高級應用階段還有一段距離。如今更多的是停留在數據分析和數據可視化階段。
作項目就是這樣,克服困難完成任務纔是重點。處理問題才能體現咱們的價值嘛。若是項目順利什麼問題都沒有不就變成了搞科研了嗎?數據分析

相關文章
相關標籤/搜索