論文地址網絡
數據集:函數
Dataset | Usage | Des | image resolution | Joints | Images |
---|---|---|---|---|---|
Yotube2D | Training | Real-world | 256 × 256 | 21 | 47125 |
GANeratedHands | Training | Synthetic | 256 × 256 | 21 | 141449 |
STB | Test | Real-world | 640 × 480 | 21 | 6000 |
RHD | Test | Synthetic | 320 × 320 | 21 | 2727 |
Top-to-Down方式,先用mobilenetv2-SSD檢測,以後使用指數平均進行跟蹤,最後使用heatmap估計函數進行姿態估計google
網絡部分未用特殊操做,上圖 \((b)\) 下采樣直接使用並行的conv+pooling(在全部階段使用),上圖 \((c)\) 上採樣直接resize(等於雙線性插值,在encoder部分使用),decoder部分的上採樣使用三次deconvolution編碼
滑動平均的方式改爲指數平均spa
\(P_{k}\) 當前bbox的位置,這裏怎麼編碼怎麼來(\(c_x\ c_y\ w\ h\) 或 \(\ x_{min}\ y_{min}\ x_{max}\ y_{max}\)),\(n\) 表示加權平均的數量。code
不清楚做者有沒有把 \(NSRM-Net\) 等網絡使用youtube2D+GANeratedHands進行訓練,若是直接按照原始論文進行比較結果無心義,公認的STB數據集太簡單很容易過擬合,RHD數據集和實際數據差異有點大,Onehand數據數量較少(實際使用有點不乾淨)。ip
[x] 關於做者給出的上\下采用具體有沒有效果,論文未給數據對比。get
[x] 做者說思路和media-pipe比較相似,我的感受google的創新主要在於使用heatmap進行弱監督pip