數據集與問題

時間 2019-12-23

標籤數據問題简体版

原文原文鏈接

當處理有時間序的數據時，很容易把時間結構去掉或者簡單地把它看成分類或者數值數據。算法

一個容易忽略的點就是創建預測性的模型的時候參考了將來的數據點。必定要注意不能把將來的數據用來建模。由於過後諸葛亮是百分之百正確的，回顧比預測要容易太多。在構建預測模型時，一般會把一個時間節點以前的數據做爲訓練數據，驗證數據從那個時間節點向後，測試數據在驗證數據後面直到如今。這樣你的算法纔不會由於用了將來的數據而變的過擬合測試

此例中加入了新的 POI，而咱們沒有任何人的財務信息，這就帶來了一個微妙的問題，即算法可能會注意到咱們缺乏他們的財務信息，並將這一點做爲他們是 POI 的線索。換個角度來看，爲咱們的兩個類生成數據的方式如今有所不一樣 - 非 POI 的人全都來自財務電子表格，以後手動加入了許多 POI。這種不一樣可能會誘使咱們覺得咱們的表現優於實際情況 - 假設你使用 POI 檢測器來肯定某個未見過的新人是不是 POI，並且該人不在電子表格上。而後，他們的全部財務數據都將包含「NaN」，但該人極有可能不是 POI（世界上非 POI 的人比 POI 多得多，即便在安然也是如此）- 然而你可能會無心中將他們標識爲 POI！大數據

這就是說，在生成或增大數據集時，若是數據來自不一樣類的不一樣來源，你應格外當心。它很容易會形成咱們在此展現的誤差或錯誤類型。可經過多種方法處理此問題。舉例而言，若是僅使用了電子郵件數據，則你無需擔憂此問題（在這種狀況下，財務數據中的差別並不重要，由於並未使用財務特徵）。還能夠經過更復雜的方法來估計這些誤差可能會對你的最終答案形成多大影響，不過此話題超出了本課程的範圍。方法

目前的結論就是，要很是當心地對待引入來自不一樣來源（具體取決於類）的特徵這個問題！引入此類特徵經常會意外地帶來誤差和錯誤。數據