視覺場景中的「雙耳效應」:解決跨模態信號的定位問題

全文共2538字,預計學習時長8分鐘 圖源:unsplash 本文是對於論文《在視覺場景中定位聲源方法》的總結,研究視覺場景和識別聲源之間的對應關係是計算機視覺基礎領域的新問題。這篇文章提出了視覺線索與聲源定位的一種新方法。   視覺場景由豐富的聲音信息組成,這些信息包含各種中間線索,有助於定義特定場景中的聲音來源。如圖所示,發動機和人所在的空間會產生相應聲音,這些區域的輸出結果所對應的熱圖具有更
相關文章
相關標籤/搜索