1. 決定目標:在獲取數據以前,數據價值鏈的第一步要先決定目標:業務部門要決定數據科學團隊的目標。這些目標一般須要進行大量的數據收集和分析。由於咱們正在研究那些驅動決策的數據,因此須要一個可衡量的方式,判斷業務是否正向着目標前進。數據分析過程當中,關鍵權值或性能指標必須及早發現。 數據庫
2. 肯定業務手段:應該經過業務的改變,來提升關鍵指標和達到業務目標。若是沒有什麼能夠改變的,不管收集和分析多少數據都不可能有進步。在項目中儘早肯定目標、指標和業務手段能爲項目指明方向,避免無心義的數據分析。例如,目標是提升客戶滯留度,其中一個指標能夠是客戶更新他們訂閱的百分比,業務手段能夠是更新頁面的設計,提醒郵件的時間和內容以及特別的促銷活動。 架構
3. 數據收集:數據收集要儘可能廣撒網。更多的數據—-特別是更多的不一樣來源的數據—-使得數據科學家能找到數據之間更好的相關性,創建更好的模型,找到更多的可行性看法。大數據經濟意味着我的記錄每每是無用的,擁有可供分析的每一條記錄才能提供真正的價值。公司經過檢測它們的網站來密切跟蹤用戶的點擊及鼠標移動,商店經過在產品上附加RFID來跟蹤用戶的移動,教練經過在運動員身上附加傳感器來跟蹤他們的行動方式。 機器學習
4. 數據清洗:數據分析的第一步是提升數據質量。數據科學家要糾正拼寫錯誤,處理缺失數據以及清除無心義的信息。這是數據價值鏈中最關鍵的步驟。垃圾數據,即便是經過最好的分析,也將產生錯誤的結果,並誤導業務自己。不止一個公司很驚訝地發現,他們很大一部分客戶住在紐約的斯克內克塔迪,而該小鎮的人口不到70000人。然而,斯克內克塔迪的郵政編碼是12345,因爲客戶每每不肯將他們的真實信息填入在線表單,因此這個郵政編碼會不成比例地出如今幾乎每個客戶的檔案數據庫中。直接分析這些數據將致使錯誤的結論,除非數據分析師採起措施來驗證和清洗數據。尤其重要的是,這一步將規模化執行,由於連續數據價值鏈要求傳入的數據會當即被清洗,且清洗頻率很是高。這一般意味着此過程將自動執行,但這並不意味着人沒法參與其中。 oop
5. 數據建模:數據科學家構建模型,關聯數據與業務成果,提出關於在第一步中肯定的業務手段變化的建議。數據科學家獨一無二的專業知識是業務成功的關鍵所在,就體如今這一步—-關聯數據,創建模型,預測業務成果。數據科學家必須有良好的統計學和機器學習背景,才能構建出科學、精確的模型,避免毫無心義的相關性及一些模型的陷阱。這些模型依賴於現有的數據,但對於將來的預測是無用的。但只有統計學背景是不夠的,數據科學家還須要很好地瞭解業務,這樣他們才能判斷數學模型的結果是否有意義,以及是否具備相關性。 性能
6. 培養一個數據科學團隊:數據科學家是出了名的難僱用,因此最好本身構建一個數據科學團隊,讓團隊中那些在統計學方面有高級學位的人專一於數據建模和預測,而其餘人—-合格的基礎架構工程師,軟件開發人員和ETL專家—-構建必要的數據收集基礎設施,數據管道和數據產品,使得結果數據可以從模型中輸出,並以報告和表格的形式在業務中進行展現。這些團隊一般使用相似Hadoop的大規模數據分析平臺自動化數據收集和分析工做,並做爲一個產品運行整個過程。 學習
7. 優化和重複:數據價值鏈是一個可重複的過程,可以對業務和數據價值鏈自己產生連續的改進。基於模型的結果,業務將根據驅動手段作出改變,數據科學團隊將評估結果。在結果的基礎上,企業能夠決定下一步計劃,而數據科學團隊繼續進行數據收集、數據清理和數據建模。企業重複這個過程越快,就會越早修正發展方向,越快獲得數據價值。理想狀況下,屢次迭代後,模型將產生準確的預測,業務將達到預約的目標,結果數據價值鏈將用於監測和報告,同時團隊中的每一個人將開始解決下一個業務挑戰。 大數據
英文出處:analyticsweek優化
轉載自:伯樂在線網站