視頻描述(Video Captioning)調研

Video Analysis 相關領域介紹之Video Captioning(視頻to文字描述)
http://blog.csdn.net/wzmsltw/article/details/71192385html

 

基於視頻圖像的信息:包括簡單的用CNN(VGGNet, ResNet等)提取圖像(spatial)特徵,
用action recognition的模型(如C3D)提取視頻動態(spatial+temporal)特徵ide

先驗特徵:好比視頻的類別,這種特徵能提供很強的先驗信息學習

基於文本的特徵:此處基於文本的特徵是指先從視頻中提取一些文本的描述,再將這些描述做爲特徵,來進行video captioning。
這類特徵我看到過兩類,一類是先對單幀視頻進行image captioning,將image captioning的結果做爲video captioning的輸入特徵,
另一類是作video tagging,將獲得的標籤做爲特徵。編碼

基於聲音的特徵:對聲音進行編碼,包括BOAW(Bag-of-Audio-Words)和FV(Fisher Vector)等spa


多模態概念
Multimodal Deep Learning(多模態深度學習)未完待續
http://blog.csdn.net/s2010241013/article/details/51731657.net

 

計算機視覺中的詞袋模型(Bow,Bag-of-words)
http://www.cnblogs.com/YiXiaoZhou/p/5999357.html
BoW起始能夠理解爲一種直方圖統計,開始是用於天然語言處理和信息檢索中的一種簡單的文檔表示方法。
和histogram 相似,BoW也只是統計頻率信息,並無序列信息。
而和histogram不一樣的是,histogram通常統計的某個區間的頻數,BoW是選擇words字典,而後統計字典中每一個單詞出現的次數。
BoW出如今CV中,如圖像分類、圖像檢索等。其大概過程首先提取圖像集特徵的集合,
而後經過聚類的方法聚出若干類,將這些類做爲dictionary,即至關於words,
最後每一個圖像統計字典中words出現的頻數做爲輸出向量,就能夠用於後續的分類、檢索等操做。視頻

BOAW(Bag-of-Audio-Words)受到文本詞袋啓發 音頻處理
http://dynadmic-lab.com/tag/bag-of-audio-words/
FV Fisher Vector 圖像啓發 音頻處理
http://blog.csdn.net/garfielder007/article/details/50768125
GMM、fisher vector、SIFT與HOG特徵資料
http://blog.csdn.net/asd8705/article/details/50285641htm


ICCV2015的」Sequence to Sequence – Video to Text」blog


CVPR2017上的「Weakly Supervised Dense Video Captioning」文檔


Video Analysis 相關領域介紹之Video Captioning(視頻to文字描述)
https://zhuanlan.zhihu.com/p/26730181

Video Analysis相關領域解讀之Action Recognition(行爲識別)
https://zhuanlan.zhihu.com/p/26460437

Video Analysis 相關領域解讀之Temporal Action Detection(時序行爲檢測)
https://zhuanlan.zhihu.com/p/26603387

知乎專欄很牛掰https://zhuanlan.zhihu.com/wzmsltw

相關文章
相關標籤/搜索