計算機多媒體

一   基礎篇
1.1   圖形、圖像和視頻
圖形(graphic):和圖像與視頻不一樣,有一種說法是圖形就是天然界 的客觀世界不存在的圖案。對於計算機中的圖形研究,有專門的計算機圖形學,主要的研究對象是點、線、面等抽象事物。目前所謂的計算機顯卡3d技術支持,主 要就是圖形技術相關的範疇。關於圖形方面的開發,好象opengl是其中比較有名的3d圖形庫。

圖像(image):和圖形相反,圖像 能夠定位爲天然界中客觀存在的圖案。圖像處理和咱們有關係的大體是圖像濾波處理和圖像壓縮。目前用得最多的靜止圖像壓縮算法就是jpeg了,你們應該都很 熟悉。而對圖像的其餘處理,通常稱之爲對圖像進行濾波,圖像處理方面,photoshop軟件不少人應該都很熟悉,它圖像處理的功能十分強大。在視頻行 業,主要是關注消隔行濾波器、去除攝像頭白噪聲濾波器、去除塊效應(deblock)濾波器等。

視頻(video):視頻個人理解就是連續的圖像,被稱爲視頻。對視頻圖像的處理,核心是壓縮,其餘的就是採集、傳輸、顯示和錄像了。視頻圖像若是不壓縮的話,傳輸和錄像的成本都過高了。

1.2   視頻的採集、壓縮、傳輸、解碼顯示和存儲
視頻採集最重要的設備就是攝像頭了,它將天然界中的客觀場景轉化爲模擬的電信號輸出。若是是數字視頻應用系統,還須要專門的設備或者器件完成圖像信號的模 擬 到數字轉換,這也是攝像頭很難直接接入pc機的緣由。早期的接入方式是經過pc上用戶本身配的採集卡來完成,這種方式如今也有,如今有專門經過usb接口 接入pc機的usb攝像頭,它是在攝像頭內完成了模擬到數字的轉換,輸出數字信號到usb接口。
視頻的壓縮是視頻處理的核心,按照是否實時性可 以分爲非實時壓縮和實時壓縮。實時性與否,區別其實很大,通常來講,製做dvd等影片能夠算做非實時性壓縮,此時,算法的選擇應該是要提升壓縮算法效率, 而不是性能,由於,即便一天完成一部影片的壓縮的話,大多數時候,問題可能也不大。而對於相似網上直播這樣的應用,則屬於實時性壓縮應用了,此時在算法選 擇上,算法的性能多是第一位的。目前看,實時性壓縮的應用更普遍些。關於視頻壓縮部分,詳細的介紹咱們放在後面的章節進行介紹。
視頻的傳輸分 爲兩種,一種是模擬視頻的傳輸,也就是攝像頭電信號進行遠距離傳輸,這種主要是在傳統的視頻監控系統中應用,它的成本比較高,傳輸距離也有限制,並且隨着 距離的增大,會出現信號衰減和信道噪聲等問題;另外一種傳輸是和互聯網技術結合起來,先把數字視頻信號壓縮後獲得碼流數據,而後經過網絡傳輸到遠端。隨着互 聯網的高速發展,後一種應用方式愈來愈廣泛,最先期應該算是視頻會議系統,如今的應用就更多了,最新的好比手機上網觀看視頻等。其實,抽象看,互聯網它其 實就是一個信息平臺,而在這個信息平臺上,傳輸的信息至關大比例就是多媒體數據。能夠想象,從此隨着互聯網帶寬的不斷提升,視頻的應用將愈來愈廣。
對 於互聯網傳輸過來的視頻信息,首先是要進行解碼,而後纔是顯示。解碼的芯片有必定的性能要求,比編碼器低些,可是畢竟是視頻數據處理,通用的芯片(不支持 mmx等多媒體指令)可能會比較吃力。顯示設備主要有電視、監視器和顯示器,他們的信號接口是不同的,電視監視器是模擬的電信號,顯示器的輸入應該是數 字信號。另外多說一句,如今的顯卡彷佛廣泛支持電視輸出。

1.3   視頻相關行業介紹
以視頻技術爲基礎,結合其餘領域的技術突破,知足了人們各類各樣的需求,造成了不少視頻相關的行業。這些行業之中,咱們來了解一下以下四個方向。
1.3.1   多媒體消費類應用
多 媒體消費類應用在技術上主要是視頻壓縮技術和媒體存儲技術的結合,主要的產品形式是vcd(早期)和dvd,偏向消費類的家庭應用。這幾年隨着dvd光驅 的普及,在pc上觀看dvd也逐步流行起來。該行業的視頻壓縮屬於非實時壓縮,追求的是高清晰度,通常的分辨率都是d1(720*576),並且,它的音 頻品質也要求很高,採樣頻率和採樣精度都很是高。dvd的視頻壓縮算法是mpeg-2,而它的音頻是lpcm、dolbyac三、mp3或者aac。
dvd的存儲技術表現形態就是dvd光盤,目前市面上經常使用的dvd光盤最大容量可達4.7gb。目前dvd技術最發達的是日本,他們的專利最多,技術也最領先,基本上處於壟斷地位了。
中國也有本身的dvd標準,叫作evd,這個公司好久前就在努力的推廣他們的標準了,不過客觀的評價,進展不能算很樂觀,還須要努力。
多媒體技術在家庭中的應用,這幾年也出現了一些很好的亮點,好比家用電視支持網絡和媒體功能、電視支持錄像功能等,不過整體評價,這些都還遠遠沒有普及,還須要進一步發展。我的更看好以機頂盒這樣的方式來知足多媒體需求。

1.3.2   視頻會議
視頻會議能夠說是視頻技術應用最古老的行業了,之因此這麼說,是由於第一個視頻壓縮標準h.261就是爲了視頻會議而制定的。
視頻會議行業是實時音視頻壓縮技術和網絡通訊技術結合的產物。目前視頻會議系統的發展,除了知足人們基本的語音和圖像信息交流外,還包括了強大的數據信息共享、開展協同工做等功能。
視 頻會議系統主要包括的產品有:語音輸入輸出設備(mic、音箱等)、攝像頭、電視、視頻會議終端、mcu等。視頻會議專用的攝像頭日本索尼公司市場佔有率 無可爭議的是第一。而視頻會議終端和mcu市場目前排第一的是美國的polycom公司,polycom的音頻技術很是強大,它在中低端市場優點很明顯, 而挪威的泰德(tandberg)在高端市場則作得更好一些。視頻會議系統對音視頻技術和網絡技術要求都比較高。從實際應用來講,相對視頻,視頻會議系統 對音頻要求更高一些。隨着如今視頻技術的發展和網絡帶寬的不斷改善,人們對視頻的要求也愈來愈高,不過,音頻方面的處理始終是關鍵,好比回聲消除技術等。

1.3.3   視頻監控
根據目前比較流行的劃分方法,視頻監控行業已歷經三代。第一代被稱爲cctv監控,也就是一個攝像 頭加一個監視器組成一個最簡單的視頻監控系統,不少時候還只是黑白的監控畫面,目前採用第一代監控系統的客戶已經不多了,不過在一些很小的便利店、超市, 咱們仍是能夠看到這樣的監控系統。第二代視頻監控系統典型的產品形態是板卡和dvr,即便到如今,這種監控系統也還很流行,在第二代監控系統中表現最好的 企業是杭州海康,他們幾乎壟斷了板卡市場,dvr市場佔有率也連續幾年排名第一了,第二代監控系統核心是實時視頻壓縮技術,把攝像頭拍攝下來的畫面進行壓 縮和存儲到本地硬盤。目前,視頻監控行業已經發展到了第三代,也就是遠程視頻監控,它把網絡技術和視頻壓縮技術結合起來,不過和視頻會議系統不一樣的是,監 控行業對音頻的要求不高,可是,對圖像的要求卻高不少,從傳統的要求來講,視頻監控不只要求圖像可以更清晰,對幀率的要求也很高,這也是從監控的安全考慮 的需求。
遠程監控系統的主要產品是視頻服務器(ipvs, 也有產商叫dvs)和網絡攝像機(ip   camera),這兩種產品都具有實時壓縮和網絡傳輸的功能,功能上的區別是ip   camera自帶攝像頭,而ipvs須要用戶本身配攝像頭,固然,ipvs在知足監控市場的需求上,比ip   camera更強大一些,通常來講,圖像的壓縮效果也更好些,並且,它通常還支持所謂的報警輸入輸出接口,固然,在價格上,網絡攝像機有比較大的優點。

1.3.4   流媒體行業
流媒體也是網絡技術和視頻壓縮技術結合的產物,它的具體應用形式不少,好比網上直播、手機流媒體、iptv(網絡電視)等等,都是比較新的東西,再好比如今網絡上流行的所謂播客,我也把它歸類爲流媒體行業。
流媒體應用,對編碼器的要求多是最高的了,這是由於每臺流媒體服務器都會有不少用戶來鏈接訪問媒體數據,壓縮率若是提升的話,同等圖像質量下,同等圖像帶寬能夠支持更多的用戶,這點很重要,流媒體行業應用的最大瓶頸就是服務器支持的用戶數了。
爲 瞭解決服務器的這一瓶頸,最近幾年出現了一種叫作p2p的網絡傳輸技術,它號稱是用戶越多,用戶欣賞視頻會越流暢,而須要的服務器仍然只是一臺。這個技術 最成功的產品案例就是skype軟件了,好像是2005年它被ebay以26億美圓成功收購,這即便到如今,也被稱爲一個互聯網歷史上不可複製的奇蹟。除 了skype,其餘應用p2p技術的直播軟件還有pplive等,如今也都比較流行。
iptv算是流媒體在家庭的一個應用形式,前兩年在國內也 很火過一陣子。個人感受,單純從技術上評價,iptv也還有點早了,如今可能還不太成熟,個人理由有以下幾點:目前家庭用戶上網主要的帶寬仍是2兆或者以 下,在這個帶寬下,目前主流的壓縮技術,壓縮出來的效果可能和有線電視比還相差很明顯,要想進一步提升,可能還須要h.264的普及應用。若是要升級到 h.264的話,也就是說目前的iptv機頂盒在技術上還不夠成熟,並不能一步到位解決問題。因此,感受iptv在技術上要可行,可能還須要再等3-5年 吧。

1.3.5   視訊行業
所謂的視訊行業,就是視頻和通信技術結合的行業,上面所說的視頻會議、遠程視頻監控和流媒體行業都屬於視訊行業的範疇。
還有一個頗有影響的產品,就是ip電話,這個產品你們應該都很熟悉了,幾年前也有過一段時間的炒做,如今看好像也還沒普及,和iptv相似,我的也是感受仍是有點早了,可能再過幾年會有機會起來。它應該算是視頻會議的家庭應用產品形態吧。html

二   知識篇
2.1   音視頻協議、通信協議介紹
2.1.1   兩大標準制定組織
這裏的標準,主要指的是音視頻壓縮標準。兩大組織分別是國際標準化組織(iso)和國際電信聯盟(itu),相信it行業的從業者沒據說過這兩個行業的人不多。
在音視頻壓縮標準方面,mpeg系列的協議是iso制定的標準,而h系列的協議則是itu制定的標準。

2.1.2   視頻協議
目前主要的視頻壓縮協議有:h.26一、h.26三、h.264和mpeg-一、mpeg-2和mpeg-4。第一個視頻壓縮標準是h.261,它的算法 現 在來看,很是簡單,可是,它的不少視頻壓縮的思想,一直影響到如今最新的壓縮標準h.264。h.264單看名字,感受是itu組織制定的,其實它還有一 個名字叫mpeg-4   part   10,翻譯過來叫mpeg-4   第十部分,這是由於h.264是iso和itu組織共同制定的,版權共享。其實,一直以來,h系列的標準制定者和mpeg系列的標準制定者基本上就是同一 羣人,並且,這兩個系列的算法思想基本上都差很少,惟一有一點不一樣的協議是mpeg-4,它在它的高級profile中提出了小波變換等算法來實現視頻壓 縮,從實際發展看,我的感受不是很成功,採用小波變換的商用codec不多,這可能和這些算法的達不到實時性有關係。
從應用的角度看,mpeg 系列在消費類應用更廣些,你們也更熟悉些,咱們熟悉的vcd格式視頻主要是mpeg-1,dvd的視頻則是mpeg-2,早期你們看的電影在電腦上存盤文 件格式都是*.mpg,基本上也都是mpeg作的壓縮了。在行業上,國內的監控行業,也是從mpeg-1到mpeg-2,到前兩三年的mpeg-4,再到 最近的h.264。而h系列的標準,用得最多的是視頻會議,從h.261到h.263,再到h.263+、h.263++等,再到如今的h.264。
從技術角度說,h系列的協議對網絡的支持更好些,這點mpeg系列要差一些,可是,mpeg它每一代都比h系列同一代的協議要出得晚些,算法也相對更先進 些,所以,它用來作存儲協議是很合適的,這也就是爲何普通消費類產品用戶不多瞭解到h系列協議的緣由。
h.264是兩大組織最新的算法成果,它在算法層面應該說是很是先進了,有人評價,h.264是視頻壓縮技術的一個里程碑,在可預見的5到10年內,出現新的視頻壓縮協議可能性很小,除非壓縮理論有重大突破。
中國也有本身的視頻壓縮協議,叫作avs,搞了好多年了,不過搞得不是很好。從市場分析,消費類電子、視頻會議和流媒體行業,如今要再想進去可能很困難 了。不過最近據說avs又有點火起來了,有消息稱,iptv指定要支持avs,這多是它的最後機會了吧。
除了上面說的協議,還有不少公司也有本身的壓縮算法,不過基本上都是不公開的了,他們這些算法也都很是好,不過和開發人員關係倒不是很大了,典型的是微軟 的wmv、realplay公司的rm和rmvb等,他們的使用者也不少,並且他們都偏向流媒體應用。

2.1.3   音頻協議
音 頻協議也分兩大類,itu組織的主要是用於視頻會議的g系列協議,包括g.7十一、g.72二、g.72三、g.72六、g.72八、g.729等。這些 協議主要有兩大特色,第一是比較關注語音壓縮,畢竟開會主要是要聽人講話;對音樂的壓縮效果可能就不是太好了;第二是壓縮率都比較大,碼率都比較低,典型 的g.723支持5.9k/s這樣的碼率,並且語音音質還很不錯。iso的音頻可能更爲人熟知一些,最流行的就是mp3,它的全稱是mpeg-1   audio   layer   3,意思是mpeg-1的音頻第三層;另外,最新的音頻算法被稱爲aac(也稱爲mp4),它定義在mpeg-2或mpeg-4的音頻部分。他們的特色是 音質好,支持多聲道,高採樣精度和採樣頻率,尤爲對音樂的壓縮效果比g系列要好太多。固然,這也是由於它們的應用領域側重點不一樣形成的。
一樣的,不少大公司也有本身的語音壓縮標準,效果也很是好。不過都是他們本身的知識產權和算法,通用市場用的仍是少。

2.1.4   上層通信協議
在視頻會議系統中,目前最流行的有h.323和sip協議,在流媒體應用中,isma   rtsp應用得比較多,它屬於開源項目,而不少流媒體產商有本身的流媒體傳輸協議,好比微軟的mms等。
h.323 主要用於視頻會議,被稱爲協議簇,咱們前面提到的h系列視頻壓縮協議和g系列音頻壓縮協議都屬於它的子協議。除了音視頻編解碼器外;它還定義了各類數據應 用,包括t.120、t.8四、t.434等;另外還包括h.245控制信道、h.225.0呼叫信令信道以及ras信道。詳細的h.323的知識,這裏 就不深刻介紹了。
sip是由ietf提出來的一個應用控制(信令)協議。正如名字所隱含的--用於發起會話。它可用來建立、修改以及終結多個參與者參加的多媒體會話進程。參與會話的成員能夠經過組播方式、單播連網或者二者結合的形式進行通訊。
h.323 和sip分別是通訊領域與因特網兩大陣營推出的建議。   h.323企圖把ip電話看成是衆所周知的傳統電話,只是傳輸方式發生了改變,由電路交換變成了分組交換。而sip協議側重於將ip電話做爲因特網上的一 個應用,較其實應用(如ftp,e-mail等)增長了信令和qos的要求,它們支持的業務基本相同,也都利用rtp做爲媒體傳輸的協議。但h.323是 一個相對複雜的協議。
rtsp主要用於流媒體傳輸,它的英文全稱是real   time   streaming   protocol。典型的應用就是網絡電視的應用,由客戶向服務器進行點播,若是在監控行業應用的話,建議當用戶進行遠程回放錄像時,可採用rtsp協 議。
 
 
2.2   音視頻基本概念介紹
2.2.1   視頻的基本概念
rgb和yuv
rgb指的是紅綠藍,應用仍是很普遍的,好比顯示器顯示,bmp文件格式中的像素值等;而yuv主要指亮度和兩個色差信號,被稱爲luminance和 chrominance他們的轉化關係能夠本身去查一下,咱們視頻裏面基本上都是用yuv格式。

yuv格式
yuv 文件格式又分不少種,若是算上存儲格式,就更多了,好比yuv44四、yuv42二、yuv4十一、yuv420等等,視頻壓縮用到的是420格式,這是 由於人眼對亮度更敏感些,對色度相對要差些。另外要注意幾個英文單詞的意思,好比:packet、planar、interlace、 progressive等。

幀率
每秒鐘圖像的刷新速度。pal制式的電視,幀率是25幀每秒,ntsc制式的電視幀率是29.97幀每秒。咱們經常使用的電腦也有刷新率,通常來講,電腦的刷新率要在75赫茲以上,人眼纔不會以爲閃。

隔行掃描(interlace)和逐行掃描(progressive)
通常的電視上都是隔行掃描,而顯示器都是逐行掃描。這裏有一個場的概念,隔行掃描是一幀等於兩場,而逐行掃描則是一幀就是一場。

碼率
它的單位是   bit   per   second,通常全部描述帶寬的概念,單位都是bit,描述存儲容量的單位通常都是大b,也就是byte(字節)。

分辨率
圖 像的分辨率指的是它的像素數,通常用得最多的是cif,也就是352*288,4cif天然就是指704*576,而d1的分辨率嚴格意義上是 720*576,大小來講和4cif差很少了。固然如今還有不少高清的分辨率,這些我不是太瞭解,你們感興趣能夠查一下。另外,國外不少時候,對cif的 高度取240,這是由於他們的幀率比咱們高(29.97hz),天然,高度要小一些了。

實時與非實時
主要用來形容編碼器,它含有兩個意思,一個是要保證幀率,也就是每秒25幀,另外一個是「live」的意思,意味着直播,所謂的「實況轉播」的「實」。

延時
也是形容編碼器的一個重要指標,通常來講,200ms到300ms人的感受不會很明顯,到了500毫秒的話,仍是能夠很明顯感受到的。

音視頻同步
做爲視頻會議的應用,通常要求作到所謂的「脣同步」。基本的保證音視頻同步的手段就是時間戳(time   stamp)。

複合視頻和s-video
ntsc 和pal彩色視頻信號是這樣構成的--首先有一個基本的黑白視頻信號,而後在每一個水平同步脈衝以後,加入一個顏色脈衝和一個亮度信號。由於彩色信號是由多 種數據「疊加」起來的,故稱之爲「複合視頻」。s-video則是一種信號質量更高的視頻接口,它取消了信號疊加的方法,可有效避免一些無謂的質量損失。 它的   功能是將rgb三原色和亮度進行分離處理。

ntsc、pal和secam
基帶視頻是一種簡單的模擬信號,由視頻模 擬數據和視頻同步數據構成,用於接收端正確地顯示圖像。信號的細節取決於應用的視頻標準或者「制式」--ntsc(美國全國電視標準委員 會,national   television   standards   committee)、pal(逐行倒相,phase   alternate   line)以及secam(順序傳送與存儲彩色電視系統,法國採用的一種電視制式,sequential   couleur   avec   memoire)。
中國的電視信號通常都是pal,而美日則是ntsc。這2個制式的幀率,圖像尺寸都有所不一樣。

線數
咱們在買攝像頭的時候,常常會提到一個叫線數的概念,它其實就是分辨率中的高(height)。舉個例子:pal制式的d1圖像,線數就是576。

亮度、飽和度和對比度
英文名分別是:brightness、saturation和   contrast。這是三個表示圖像的重要指標。

2.2.2   音頻的基本概念
採樣率
音 頻的採樣率其實相似視頻的幀率,意思是每秒鐘採樣的次數。g.711的採樣率是8k(人的語音大概就在這個頻率範圍之內),而mp3支持的典型採樣率是   44.1khz(超過人耳響應頻率的2倍多一點——奈奎斯特定理)。很明顯,mp3壓縮的原始聲音要比g.711好多了。

採樣精度
就是每一個採樣進行模數轉換時的量化係數。g.711是8bit採樣精度,而mp3典型的是16bit。

回聲消除
視 頻會議應用中的音頻最大問題。回聲產生的緣由很複雜,通常認爲,在互聯網中的語音傳輸,延時來源有三個:壓縮延遲、分組傳輸延遲和處理延遲。語音壓縮延遲 是產生回聲的主要延遲,例如在g.723.1標準中,壓縮一幀(30ms)的最大延遲是37.5ms。分組傳輸延遲也是一個很重要的來源,測試代表,端到 端的最大傳輸延遲可達250ms以上。處理延遲是指語音包的封裝時延及其緩衝時延等。

2.3   視訊產品簡介
這一節,咱們對採起一些視訊行業中的產品進行簡單介紹,但願對你們有用。

2.3.1   mp4
這是最近兩年開始流行的新產品,它的定義其實業有些混亂。目前流行的說法是:只要和視頻沾邊的便攜式播放器,都叫mp4。不過下面的圖更能說明問題。
 

2.3.2   光端機
一種完成電——光信號轉換的設備。主要用於模擬遠程視頻監控系統,它可將遠端的攝像頭模擬信號轉換成光信號傳送到監控中心,配合監控中心的dvr使用。

2.3.3   視頻會議mcu
它是視頻會議的核心設備之一。當參與視頻會議的終端超過2個時,就必須經過mcu來召開會議。
mcu的基本功能是媒體流轉發和混音,並進行會議管理,隨着視頻會議的發展,mcu支持的功能也愈來愈多,好比:混屏、遠程攝像頭控制等功能。算法

相關文章
相關標籤/搜索