想法網絡
相比於數量有限的「有機」數據,我將分析、測評合成數據是否能實現改進。機器學習
動機學習
我對合成數據的有效性持懷疑態度——預測模型只能與用於訓練數據的數據集同樣好。這種懷疑論點燃了我心裏的想法,即經過客觀調查來研究這些直覺。測試
需具有的知識神經網絡
本文的讀者應該處於對機器學習相關理論理解的中間水平,而且應該已經熟悉如下主題以便充分理解本文:方法
基本統計知識,例如「標準差」一詞的含義統計
熟悉神經網絡,SVM和決策樹(若是您只熟悉其中的一個或兩個,那可能就好了)數據
瞭解基本的機器學習術語,例如「訓練/測試/驗證集」的含義集合
合成數據的背景術語
生成合成數據的兩種經常使用方法是:
根據某些分佈或分佈集合繪製值
個體爲本模型的建模
在這項研究中,咱們將檢查第一類。爲了鞏固這個想法,讓咱們從一個例子開始吧!
想象一下,在只考慮大小和體重的狀況下,你試圖肯定一隻動物是老鼠,青蛙仍是鴿子。但你只有一個數據集,每種動物只有兩個數據。所以不幸的是,咱們沒法用如此小的數據集訓練出好的模型!
這個問題的答案是經過估計這些特徵的分佈來合成更多數據。讓咱們從青蛙的例子開始
參考這篇維基百科的文章(只考慮成年青蛙):