FastHand

FastHand: Fast Hand Pose Estimation From A Monocular Camera

論文地址網絡

數據集函數

Dataset Usage Des image resolution Joints Images
Yotube2D Training Real-world 256 × 256 21 47125
GANeratedHands Training Synthetic 256 × 256 21 141449
STB Test Real-world 640 × 480 21 6000
RHD Test Synthetic 320 × 320 21 2727
  • 網絡部分

Top-to-Down方式,先用mobilenetv2-SSD檢測,以後使用指數平均進行跟蹤,最後使用heatmap估計函數進行姿態估計google

網絡部分未用特殊操做,上圖 \((b)\) 下采樣直接使用並行的conv+pooling(在全部階段使用),上圖 \((c)\) 上採樣直接resize(等於雙線性插值,在encoder部分使用),decoder部分的上採樣使用三次deconvolution編碼

  • 跟蹤部分

滑動平均的方式改爲指數平均spa

\[P_{cur} = \sum_{k=0}^{n}{P_{k} \times \frac{e^{-k}}{\sum_{j=0}^{n}{e^{-j}}}} \]

\(P_{k}\) 當前bbox的位置,這裏怎麼編碼怎麼來(\(c_x\ c_y\ w\ h\)\(\ x_{min}\ y_{min}\ x_{max}\ y_{max}\)),\(n\) 表示加權平均的數量。code

  • 比較結果

不清楚做者有沒有把 \(NSRM-Net\) 等網絡使用youtube2D+GANeratedHands進行訓練,若是直接按照原始論文進行比較結果無心義,公認的STB數據集太簡單很容易過擬合,RHD數據集和實際數據差異有點大,Onehand數據數量較少(實際使用有點不乾淨)。ip

  • 我的觀點
  • [x] 當前關鍵點估計網絡基本都會使用hourglass結構
  • [x] 按照下圖劃分,其實做者就是使用了兩層hourglass
  • [x] 關於做者給出的上\下采用具體有沒有效果,論文未給數據對比。get

    • 好比yolov5使用的focus結構下采樣
    • 好比pixelshuffle的上採樣
    • 等等
  • [x] 做者說思路和media-pipe比較相似,我的感受google的創新主要在於使用heatmap進行弱監督pip

相關文章
相關標籤/搜索
本站公眾號
   歡迎關注本站公眾號,獲取更多信息