資源|一文解讀合成數據在機器學習技術下的表現

想法網絡

相比於數量有限的「有機」數據,我將分析、測評合成數據是否能實現改進。機器學習

動機學習

我對合成數據的有效性持懷疑態度——預測模型只能與用於訓練數據的數據集同樣好。這種懷疑論點燃了我心裏的想法,即經過客觀調查來研究這些直覺。測試

需具有的知識神經網絡

本文的讀者應該處於對機器學習相關理論理解的中間水平,而且應該已經熟悉如下主題以便充分理解本文:方法

  • 基本統計知識,例如「標準差」一詞的含義統計

  • 熟悉神經網絡,SVM和決策樹(若是您只熟悉其中的一個或兩個,那可能就好了)數據

  • 瞭解基本的機器學習術語,例如「訓練/測試/驗證集」的含義集合

合成數據的背景術語

生成合成數據的兩種經常使用方法是:

  • 根據某些分佈或分佈集合繪製值

  • 個體爲本模型的建模

在這項研究中,咱們將檢查第一類。爲了鞏固這個想法,讓咱們從一個例子開始吧!

想象一下,在只考慮大小和體重的狀況下,你試圖肯定一隻動物是老鼠,青蛙仍是鴿子。但你只有一個數據集,每種動物只有兩個數據。所以不幸的是,咱們沒法用如此小的數據集訓練出好的模型!

這個問題的答案是經過估計這些特徵的分佈來合成更多數據。讓咱們從青蛙的例子開始

參考這篇維基百科的文章(只考慮成年青蛙):

相關文章
相關標籤/搜索