分享兩篇來自科學松鼠會的科普性文章:html
一、壓縮感知與單像素相機(陶哲軒,Terence Tao)算法
原文連接:http://songshuhui.net/archives/11006安全
二、填補空白:用數學方法將低分辨率圖像變成高分辨率圖像(Jordan Ellenberg)網絡
原文連接:http://songshuhui.net/archives/38054wordpress
英文名:Fill in the Blanks: Using Math to Turn Lo-Res Datasets Into Hi-Res Samples函數
英文連接:http://songshuhui.net/archives/35169工具
木遙按:這是數學家陶哲軒在他本身的blog上寫的一篇科普文章,討論的是近年來在應用數學領域裏最熱門的話題之一:壓縮感知(compressed sensing)。所謂壓縮感知,最核心的概念在於試圖從原理上下降對一個信號進行測量的成本。好比說,一個信號包含一千個數據,那麼按照傳統的信號處理理論,至少須要作一千次測量才能完整的復原這個信號。這就至關因而說,須要有一千個方程才能精確地解出一千個未知數來。可是壓縮感知的想法是假定信號具備某種特色(好比文中所描述得在小波域上係數稀疏的特色),那麼就能夠只作三百次測量就完整地復原這個信號(這就至關於只經過三百個方程解出一千個未知數)。可想而知,這件事情包含了許多重要的數學理論和普遍的應用前景,所以在最近三四年裏吸引了大量注意力,獲得了很是蓬勃的發展。陶哲軒自己是這個領域的奠定人之一(能夠參考《陶哲軒:長大的神童》一文),所以這篇文章的權威性毋庸諱言。另外,這也是比較少見的由一流數學家直接撰寫的關於本身前沿工做的普及性文章。須要說明的是,這篇文章是雖然是寫給非數學專業的讀者,可是也並很差懂,也許具備一些理工科背景會更容易理解一些。性能
【做者 Terence Tao;譯者 山寨盲流,他的更多譯做在這,那;校對 木遙】測試
最近有很多人問我究竟"壓縮感知"是什麼意思(特別是隨着最近這個概念名聲大噪),所謂「單像素相機」又是怎樣工做的(又怎麼能在某些場合比傳統相機有優點呢)。這個課題已經有了大量文獻,不過對於這麼一個相對比較新的領域,尚未一篇優秀的非技術性介紹。因此筆者在此小作嘗試,但願可以對非數學專業的讀者有所幫助。優化
具體而言我將主要討論攝像應用,儘管壓縮傳感做爲測量技術應用於比成像普遍得多的領域(例如天文學,核磁共振,統計選取,等等),我將在帖子結尾簡單談談這些領域。
相機的用途,天然是記錄圖像。爲了簡化論述,咱們把圖像假設成一個長方形陣列,好比說一個1024x2048像素的陣列(這樣就總共是二百萬像素)。爲了省略彩色的問題(這個比較次要),咱們就假設只須要黑白圖像,那麼每一個像素就能夠用一個整型的灰度值來計量其亮度(例如用八位整型數表示0到255,16位表示0到65535)。
接下來,按照最最簡化的說法,傳統相機會測量每個像素的亮度(在上述例子中就是二百萬個測量值),結果獲得的圖片文件就比較大(用8位灰度值就是2MB,16位灰度就是4MB)。數學上就認爲這個文件是用超高維矢量值描繪的(在本例中就是約二百萬維)。
在我開始講「壓縮感知」這個新故事以前,必須先快速回顧一下「老式壓縮」的舊故事。(已經瞭解圖像壓縮算法的讀者能夠跳過這幾段。)
上述的圖片會佔掉相機的不少存儲空間(上傳到計算機裏還佔磁盤空間),在各類介質之間傳輸的時候也要浪費時間。因而,相機帶有顯著壓縮圖像的功能就瓜熟蒂落了(一般能從2MB那麼大壓縮到十分之一——200KB的一小坨)。關鍵是儘管「全部圖片」所構成的空間要佔用2MB的「自由度」或者說「熵」,由「有意義的圖片」所構成的空間其實要小得多,尤爲是若是人們願意下降一點圖像質量的話。(實際上,若是一我的真的利用全部的自由度隨機生成一幅圖片,他不大可能獲得什麼有意義的圖像,而是獲得至關於電視熒屏上的靜電雪花那樣的隨機噪聲之類。)
怎麼樣壓縮圖像?方式多種多樣,其中有些很是先進,不過我來試試用一種不過高科技的(並且也不太精確的)說法來描述一下這些先進技術。圖像一般都含有大片無細節部分--好比在風景照裏面,將近一半的畫面均可能被單色的天空背景佔據。咱們假設提取一個大方塊,比方說100x100像素,其中徹底是同一顏色的——假設是全白的吧。無壓縮時,這個方塊要佔10000字節存儲空間(按照8位灰度算);可是咱們能夠只記錄這個方塊的維度和座標,還有填充整個方塊的單一顏色;這樣總共也只要記錄四五個字節,省下了可觀的空間。不過在現實中,壓縮效果沒有這麼好,由於表面看來沒有細節的地方實際上是有着細微的色差的。因此,給定一個無細節方塊,咱們記錄其平均色值,就把圖片中這一塊區域抽象成了單色色塊,只留下微小的殘餘偏差。接下來就能夠繼續選取更多色彩可見的方塊,抽象成單色色塊。最後剩下的是亮度(色彩強度)很小的,肉眼沒法察覺的細節。因而就能夠拋棄這些剩餘的細節,只須要記錄那些「可見」色塊的大小,位置和亮度。往後則能夠反向操做,重建出比原始圖像質量稍低一些,佔空間卻小得多的複製圖片。
其實上述的算法並不適合處理顏色劇烈變更的狀況,因此在實際應用中不頗有效。事實上,更好的辦法不是用均勻色塊,而是用「不均勻」的色塊——比方說右半邊色彩強度平均值大於左半邊這樣的色塊。這種狀況能夠用(二維)Haar小波系統來描述。後來人們又發現一種"更平滑的"小波系統更可以避免偏差,不過這都是技術細節,咱們就不深刻討論了。然而全部這些系統的原理都是相同的:把原始圖像表示爲不一樣「小波(相似於上文中的色塊)」的線性疊加,記錄顯著的(高強度的)小波的係數,放棄掉(或者用閾值排除掉)剩下的小波係數。這種「小波係數硬閾值」壓縮算法沒有實際應用的算法(好比JPEG 2000標準中所定義的)那麼精細,不過多少也能描述壓縮的廣泛原理。
整體來說(也是很是簡化的說法),原始的1024x2048圖像可能含有兩百萬自由度,想要用小波來表示這個圖像的人須要兩百萬個不一樣小波才能完美重建。可是典型的有意義的圖像,從小波理論的角度看來是很是稀疏的,也就是可壓縮的:可能只須要十萬個小波就已經足夠獲取圖像全部的可見細節了,其他一百九十萬小波只貢獻不多量的,大多數觀測者基本看不見的「隨機噪聲」。(這也不是永遠適用:含有大量紋理的圖像--好比毛髮、毛皮的圖像——用小波算法特別難壓縮,也是圖像壓縮算法的一大挑戰。不過這是另外一個故事了。)
接下來呢,若是咱們(或者不如說是相機)事先知道兩百萬小波係數裏面哪十萬個是重要的,那就能夠只計量這十萬個係數,別的就無論了。(在圖像上設置一種合適的「過濾器」或叫「濾鏡」,而後計量過濾出來的每一個像素的色彩強度,是一種可行的係數計量方法。)可是,相機是不會知道哪一個係數是重要的,因此它只好計量所有兩百萬個像素,把整個圖像轉換成基本小波,找出須要留下的那十萬個主導基本小波,再刪掉其他的。(這固然只是真正的圖像壓縮算法的一個草圖,不過爲了便於討論咱們仍是就這麼用吧。)
那麼,現在的數碼相機固然已經很強大了,沒什麼問題幹嘛還要改進?事實上,上述的算法,須要收集大量數據,可是隻須要存儲一部分,在消費攝影中是沒有問題的。尤爲是隨着數據存儲變得很廉價,如今拍一大堆徹底不壓縮的照片也無所謂。並且,儘管出了名地耗電,壓縮所需的運算過程仍然算得上輕鬆。可是,在非消費領域的某些應用中,這種數據收集方式並不可行,特別是在傳感器網絡中。若是打算用上千個傳感器來收集數據,而這些傳感器須要在固定地點呆上幾個月那麼長的時間,那麼就須要儘量地便宜和節能的傳感器——這首先就排除了那些有強大運算能力的傳感器(然而——這也至關重要——咱們在接收處理數據的接收端仍然須要現代科技提供的奢侈的運算能力)。在這類應用中,數據收集方式越「傻瓜」越好(並且這樣的系統也須要很強壯,好比說,可以忍受10%的傳感器丟失或者各類噪聲和數據缺損)。
這就是壓縮傳感的用武之地了。其理論依據是:若是隻須要10萬個份量就能夠重建絕大部分的圖像,那何須還要作全部的200萬次測量,只作10萬次不就夠了嗎?(在實際應用中,咱們會留一個安全餘量,好比說測量30萬像素,以應付可能遭遇的全部問題,從干擾到量化噪聲,以及恢復算法的故障。)這樣基本上能使節能上一個數量級,這對消費攝影沒什麼意義,對傳感器網絡而言卻有實實在在的好處。
不過,正像我前面說的,相機本身不會預先知道兩百萬小波係數中須要記錄哪十萬個。要是相機選取了另外10萬(或者30萬),反而把圖片中全部有用的信息都扔掉了怎麼辦?
解決的辦法簡單可是不太直觀。就是用非小波的算法來作30萬個測量——儘管我前面確實講太小波算法是觀察和壓縮圖像的最佳手段。實際上最好的測量其實應該是(僞)隨機測量——好比說隨機生成30萬個「濾鏡」圖像並測量真實圖像與每一個濾鏡的相關程度。這樣,圖像與濾鏡之間的這些測量結果(也就是「相關性」)頗有多是很是小很是隨機的。可是——這是關鍵所在——構成圖像的2百萬種可能的小波函數會在這些隨機的濾鏡的測量下生成本身特有的「特徵」,它們每個都會與某一些濾鏡成正相關,與另外一些濾鏡成負相關,可是與更多的濾鏡不相關。但是(在極大的機率下)2百萬個特徵都各不相同;更有甚者,其中任意十萬個的線性組合仍然是各不相同的(以線性代數的觀點來看,這是由於一個30萬維線性子空間中任意兩個10萬維的子空間極有可能互不相交)。所以,基本上是有可能從這30萬個隨機數據中恢復圖像的(至少是恢復圖像中的10萬個主要細節)。簡而言之,咱們是在討論一個哈希函數的線性代數版本。
然而這種方式仍然存在兩個技術問題。首先是噪聲問題:10萬個小波係數的疊加並不能徹底表明整幅圖像,另190萬個係數也有少量貢獻。這些小小貢獻有可能會干擾那10萬個小波的特徵,這就是所謂的「失真」問題。第二個問題是如何運用獲得的30萬測量數據來重建圖像。
咱們先來關注後一個問題。若是咱們知道了2百萬小波中哪10萬個是有用的,那就能夠使用標準的線性代數方法(高斯消除法,最小二乘法等等)來重建信號。(這正是線性編碼最大的優勢之一——它們比非線性編碼更容易求逆。大多數哈希變換其實是不可能求逆的——這在密碼學上是一大優點,在信號恢復中卻不是。)但是,就像前面說的那樣,咱們事前並不知道哪些小波是有用的。怎麼找出來呢?一個單純的最小二乘近似法會得出牽扯到所有2百萬係數的可怕結果,生成的圖像也含有大量顆粒噪點。要否則也能夠代之以一種強力搜索,爲每一組可能的10萬關鍵係數都作一次線性代數處理,不過這樣作的耗時很是恐怖(總共要考慮大約10的17萬次方個組合!),並且這種強力搜索一般是NP完備的(其中有些特例是所謂的「子集合加總」問題)。不過還好,仍是有兩種可行的手段來恢復數據:
• 匹配追蹤:找到一個其標記看上去與收集到的數據相關的小波;在數據中去除這個標記的全部印跡;不斷重複直到咱們能用小波標記「解釋」收集到的全部數據。
• 基追蹤(又名L1模最小化):在全部與錄得數據匹配的小波組合中,找到一個「最稀疏的」,也就是其中全部係數的絕對值總和越小越好。(這種最小化的結果趨向於迫使絕大多數係數都消失了。)這種最小化算法能夠利用單純形法之類的凸規劃算法,在合理的時間內計算出來。
須要注意到的是,這類圖像恢復算法仍是須要至關的運算能力的(不過也還不是太變態),不過在傳感器網絡這樣的應用中這不成問題,由於圖像恢復是在接收端(這端有辦法鏈接到強大的計算機)而不是傳感器端(這端就沒辦法了)進行的。
如今已經有嚴密的結果顯示,對原始圖像設定不一樣的壓縮率或稀疏性,這兩種算法完美或近似完美地重建圖像的成功率都很高。匹配追蹤法一般比較快,而基追蹤算法在考慮到噪聲時則顯得比較準確。這些算法確切的適用範圍問題在今天仍然是很是熱門的研究領域。(說來遺憾,目前尚未出現對P不等於NP問題的應用;若是一個重建問題(在考慮到測量矩陣時)是NP完備的,那它恰好就不能用上述算法解決。)
因爲壓縮傳感仍是一個至關新的領域(尤爲是嚴密的數學結果剛剛出現),如今就指望這個技術應用到實用的傳感器上還爲時尚早。不過已經有概念驗證模型出現了,其中最著名的是Rice大學研製的單像素相機。
最後必須提到的是,壓縮傳感技術是一種抽象的數學概念,而不是具體的操做方案,它能夠應用到成像之外的許多領域。如下只是其中幾個例子:
• 磁共振成像(MRI)。在醫學上,磁共振的工做原理是作許屢次(但次數還是有限的)測量(基本上就是對人體圖像進行離散拉東變換(也叫X光變換)),再對數據進行加工來生成圖像(在這裏就是人體內水的密度分佈圖像)。因爲測量次數必須不少,整個過程對患者來講太過漫長。壓縮傳感技術能夠顯著減小測量次數,加快成像(甚至有可能作到實時成像,也就是核磁共振的視頻而非靜態圖像)。此外咱們還能夠以測量次數換圖像質量,用與原來同樣的測量次數能夠獲得好得多的圖像分辨率。
• 天文學。許多天文現象(如脈衝星)具備多種頻率震盪特性,使其在頻域上是高度稀疏也就是可壓縮的。壓縮傳感技術將使咱們可以在時域內測量這些現象(即記錄望遠鏡數據)並可以精確重建原始信號,即便原始數據不完整或者干擾嚴重(緣由多是天氣不佳,上機時間不夠,或者就是由於地球自傳使咱們得不到全時序的數據)。
• 線性編碼。壓縮傳感技術提供了一個簡單的方法,讓多個傳送者能夠將其信號帶糾錯地合併傳送,這樣即便輸出信號的一大部分丟失或毀壞,仍然能夠恢復出原始信號。例如,能夠用任意一種線性編碼把1000比特信息編碼進一個3000比特的流;那麼,即便其中300位被(惡意)毀壞,原始信息也能徹底無損失地完美重建。這是由於壓縮傳感技術能夠把破壞動做自己看做一個稀疏的信號(只集中在3000比特中的300位)。
許多這種應用都還只停留在理論階段,但是這種算法可以影響測量和信號處理中如此之多的領域,其潛力實在是振奮人心。筆者本身最有成就感的就是能看到本身在純數學領域的工做(例如估算傅立葉子式的行列式或單數值)最終具有造福現實世界的前景。
紅豬按(by 木遙)
壓縮感知是近年來極爲熱門的研究前沿,在若干應用領域中都引發矚目。關於這個題目,松鼠會已經翻譯了兩篇文章,一篇來自於壓縮感知技術最初的研究者陶哲軒(連接),一篇來自威斯康辛大學的數學家艾倫伯格(本文正文)。這兩篇文章都是普及性的,可是因爲做者是專業的研究人員,因此事實上行文仍然偏於晦澀。所以我不揣冒昧,在這裏附上一個多此一舉的導讀,以幫助更多的讀者更好了解這個新穎的研究領域在理論和實踐上的意義。
壓縮感知從字面上看起來,好像是數據壓縮的意思,而實則出於徹底不一樣的考慮。經典的數據壓縮技術,不管是音頻壓縮(例如 mp3),圖像壓縮(例如 jpeg),視頻壓縮(mpeg),仍是通常的編碼壓縮(zip),都是從數據自己的特性出發,尋找並剔除數據中隱含的冗餘度,從而達到壓縮的目的。這樣的壓縮有兩個特色:第1、它是發生在數據已經被完整採集到以後;第2、它自己須要複雜的算法來完成。相較而言,解碼過程反而通常來講在計算上比較簡單,以音頻壓縮爲例,壓制一個 mp3 文件的計算量遠大於播放(即解壓縮)一個 mp3 文件的計算量。
稍加思量就會發現,這種壓縮和解壓縮的不對稱性正好同人們的需求是相反的。在大多數狀況下,採集並處理數據的設備,每每是廉價、省電、計算能力較低的便攜設備,例如傻瓜相機、或者錄音筆、或者遙控監視器等等。而負責處理(即解壓縮)信息的過程卻反而每每在大型計算機上進行,它有更高的計算能力,也經常沒有便攜和省電的要求。也就是說,咱們是在用廉價節能的設備來處理複雜的計算任務,而用大型高效的設備處理相對簡單的計算任務。這一矛盾在某些狀況下甚至會更爲尖銳,例如在野外做業或者軍事做業的場合,採集數據的設備每每曝露在天然環境之中,隨時可能失去能源供給或者甚至部分喪失性能,在這種狀況下,傳統的數據採集-壓縮-傳輸-解壓縮的模式就基本上失效了。
壓縮感知的概念就是爲了解決這樣的矛盾而產生的。既然採集數據以後反正要壓縮掉其中的冗餘度,而這個壓縮過程又相對來講比較困難,那麼咱們爲何不直接「採集」壓縮後的數據?這樣採集的任務要輕得多,並且還省去了壓縮的麻煩。這就是所謂的「壓縮感知」,也就是說,直接感知壓縮了的信息。
但是這看起來是不可能的事情。由於壓縮後的數據並非壓縮前的數據的一個子集,並非說,原本有照相機的感光器上有一千萬個像素,扔掉其中八百萬個,剩下的兩百萬個採集到的就是壓縮後的圖像,──這樣只能採集到不完整的一小塊圖像,有些信息被永遠的丟失了並且不可能被恢復。若是要想採集不多一部分數據而且期望從這些少許數據中「解壓縮」出大量信息,就須要保證:第一:這些少許的採集到的數據包含了原信號的全局信息,第二:存在一種算法可以從這些少許的數據中還原出原先的信息來。
有趣的是,在某些特定的場合,上述第一件事情是自動獲得知足的。最典型的例子就是醫學圖像成像,例如斷層掃描(CT)技術和核磁共振(MRI)技術。對這兩種技術稍有了解的人都知道,這兩種成像技術中,儀器所採集到的都不是直接的圖像像素,而是圖像經歷過全局傅立葉變換後的數據。也就是說,每個單獨的數據都在某種程度上包含了全圖像的信息。在這種狀況下,去掉一部分採集到的數據並不會致使一部分圖像信息永久的丟失(它們仍舊被包含在其它數據裏)。這正是咱們想要的狀況。
上述第二件事就要歸功於陶哲軒和坎戴的工做了。他們的工做指出,若是假定信號(不管是圖像仍是聲音仍是其餘別的種類的信號)知足某種特定的「稀疏性」,那麼從這些少許的測量數據中,確實有可能還原出原始的較大的信號來,其中所須要的計算部分是一個複雜的迭代優化過程,即所謂的「L1-最小化」算法。
把上述兩件事情放在一塊兒,咱們就能看到這種模式的優勢所在。它意味着:咱們能夠在採集數據的時候只簡單採集一部分數據(「壓縮感知」),而後把複雜的部分交給數據還原的這一端來作,正好匹配了咱們指望的格局。在醫學圖像領域裏,這個方案特別有好處,由於採集數據的過程每每是對病人帶來很大麻煩甚至身體傷害的過程。以 X 光斷層掃描爲例,衆所周知 X 光輻射會對病人形成身體損害,而「壓縮感知」就意味着咱們能夠用比經典方法少得多的輻射劑量來進行數據採集,這在醫學上的意義是不言而喻的。
這一思路能夠擴展到不少領域。在大量的實際問題中,咱們傾向於儘可能少地採集數據,或者因爲客觀條件所限不得不採集不完整的數據。若是這些數據和咱們所但願重建的信息之間有某種全局性的變換關係,而且咱們預先知道那些信息知足某種稀疏性條件,就總能夠試着用相似的方式從比較少的數據中還原出比較多的信號來。到今天爲止,這樣的研究已經拓展地很是普遍了。
可是一樣須要說明的是,這樣的作法在不一樣的應用領域裏並不總能知足上面所描述的兩個條件。有的時候,第一個條件(也就是說測量到的數據包含信號的全局信息)沒法獲得知足,例如最傳統的攝影問題,每一個感光元件所感知到的都只是一小塊圖像而不是什麼全局信息,這是由照相機的物理性質決定的。爲了解決這個問題,美國 Rice 大學的一部分科學家正在試圖開發一種新的攝影裝置(被稱爲「單像素照相機」),爭取用盡可能少的感光元件實現儘可能高分辨率的攝影。有的時候,第二個條件(也就是說有數學方法保證可以從不完整的數據中還原出信號)沒法獲得知足。這種時候,實踐就走在了理論前面。人們已經能夠在算法上事先不少數據重建的過程,可是相應的理論分析卻成爲了留在數學家面前的課題。
可是不管如何,壓縮感知所表明的基本思路:從儘可能少的數據中提取儘可能多的信息,毫無疑問是一種有着極大理論和應用前景的想法。它是傳統信息論的一個延伸,可是又超越了傳統的壓縮理論,成爲了一門嶄新的子分支。它從誕生之日起到如今不過五年時間,其影響卻已經席捲了大半個應用科學。
譯者:Armeny 原文 校對:擬南芥、剃刀、木遙
擴展閱讀:數字圖像的壓縮與恢復/奧卡姆剃刀
2009年早春,斯坦福大學露西爾·帕卡德兒童醫院的一組醫生把一名兩歲男孩送進磁共振成像[f1] 掃描儀。這個將被我稱爲布賴斯的男孩身處巨洞般的金屬儀器中,看上去是那麼弱小無助。他被施以全身麻醉,一根彎彎曲曲的管子從他的咽喉聯接到掃描儀傍的呼吸機上。十個月前, 布賴斯接受了肝臟移植術,來自捐獻者的部分肝臟取代了他本身的已壞死的肝臟。他的康復狀況一度不錯。可是,最近的實驗室測試結果使人擔心,他的身體出現了問題——可能一條或者所有的兩條膽管被堵住了。
帕卡德醫院的兒童放射科醫生施里亞斯·瓦薩納瓦拉須要高精度的掃描結果來告訴他問題出在哪,可是這將意味着他的小病人在掃描過程當中不得不保持絕對靜止。哪怕布賴斯只是呼吸了一次,成像結果都會變得模糊。要避免上述狀況,就須要進行足夠深的麻醉讓病人中止呼吸。進行一次標準的磁共振成像檢測須要兩分鐘時間,但若是麻醉師真的讓布賴斯在這麼長時間裏中止呼吸,那麼帶來的問題將遠遠超過他肝臟的小毛病。
不過,瓦薩納瓦拉和他的電子工程師同事邁克爾·勒斯蒂格打算使用一種快得多的新掃描方法,名曰「壓縮感知」。這種技術多是當今應用數學界最熱門的話題了。將來,它可能會改變咱們尋找遙遠星系的方式。而如今,這種技術使得瓦薩納瓦拉和勒斯蒂格只須要40秒就能夠採集到精確重建布賴斯肝臟圖像所需的數據。
壓縮感知的發現純屬偶然。2004年2月,伊曼紐爾·坎迪斯正在本身的電腦上看着Shepp-Logan圖像(譯註:這是醫學圖像處理領域用來進行仿真測試的標準模擬圖像,由一些大大小小的橢圓模擬生物器官)打發時間。這幅一般被計算機科學家和工程師用於測試成像算法的標準圖像,看起來就像《第三類接觸》裏那個搞笑地將眉毛揚起的外星人。坎迪斯,斯坦福大學教授,曾在加州理工學院工做過,打算用一個嚴重失真的模型圖像做爲磁共振成像儀不能精確掃描而產生的非清晰圖像來進行實驗。他想到一種名爲L1(校對注:這裏雖然原文用的是小寫,可是在中文上下文中用小寫則極易同11混淆,而數學上這裏大小寫均可以用)範數極小化的數學技術可能有助於清除小部分斑痕。他按下一個鍵,算法運行起來了。
坎迪斯但願屏幕上的模型圖像變得稍微清晰一些。可是,他忽然發現用殘缺的數據渲染出來的圖像是那麼細膩完美,對每一個細節而言都是如此,這簡直就像變魔術同樣。太難以想象了,他認爲。「這就好像,你給了我十位銀行帳號的前三位,而後我可以猜出接下來的七位數字。」他說。他嘗試在不一樣類型的模型圖像上從新進行這個實驗,結果都很是好。
在博士後賈斯廷·龍伯格的幫助下,坎迪斯提出了一個粗略的理論。以後,他在黑板上向加州大學洛杉磯分校的同事陶哲軒介紹了本身的理論。坎迪斯在結束討論離開的時候以爲陶哲軒對此持懷疑態度,畢竟,圖像清晰度的提升也太離譜了。然而,次日晚上,陶哲軒給坎迪斯送去關於他們以前討論的問題的一疊筆記。這疊筆記爲他們共同發表的第一篇論文奠基了基礎。在隨後的兩年中,他們寫了更多文章。
上面介紹的是壓縮感知技術的開端,這個數學界的全新領域改變了人們處理大規模數據集的方式。僅僅六年時光,它爲上千篇論文提供了靈感,吸引了數百萬美圓的聯邦基金。2006年,坎迪斯在這一領域內的工做爲他贏得了獎金值50萬美圓的沃特曼獎,這是美國國家科學基金授予研究者的最高榮譽。其緣由是顯而易見的。想象一下,磁共振成像儀能夠在幾秒鐘的時間裏生成本來須要花費一個小時才能生成的圖像;軍用軟件截獲敵方通訊的能力獲得極大增強;傳感器可以解析遙遠星際的無線電波。忽然之間,數據的採集、操做以及解析都變得容易了。
壓縮感知的原理是這樣的:你有一張圖片,假設是總統的腎臟圖片,這不是關鍵。圖片由一百萬個像素構成。對傳統成像來講,你不得不進行一百萬次量度。而採用壓縮感知技術,你只須要量度一小部分,比如說從圖像的不一樣部分隨機抽取十萬個像素。從這裏開始,有大量的其實是無窮多的方式填充那剩餘的九十萬個像素點。
尋找那個惟一正確的表示方式的關鍵在於一種叫稀疏度的概念。所謂稀疏度,是描述圖像的複雜性或者其中所缺的一種數學方法。一幅由少數幾個簡單、可理解的元素(例如色塊或者波浪線構成的圖片)是稀疏的;滿屏隨機、散亂的點陣則不是稀疏的。原來在無限多的可能性中,最簡單、最稀疏的那幅圖像每每就是正解,至少很接近正解。
可是,怎樣進行數字運算,才能快速得到最稀疏的圖像呢?分析全部可能的狀況太費時間。然而,坎迪斯和陶哲軒知道最稀疏的圖像是用最少的成分構成的,而且,他們能夠用L1範數極小化技術迅速找到它。
這樣,在輸入不完整的圖像後,算法開始試着用大色塊來填充空白區。若是有一團綠色的像素點彙集在一塊兒,算法可能會用一個大的綠色矩形填充它們之間的空間;而若是是一團黃色的像素點,那麼就用黃色的矩形來填充。在不一樣顏色交錯散佈的區域,算法會使用愈來愈小的矩形或其餘形狀填充各類顏色之間的空間。算法會重複這樣的過程,最終,獲得一幅由最少的可能的色塊構成的圖像,它的一百萬像素都已被彩色填滿。
並不能絕對保證這樣的圖像就是最稀疏的,或者正是你所試圖重建的那個。可是坎迪斯和陶哲軒已經從數學上證實了,它的錯誤率是無窮小的。算法運行可能仍是須要幾個小時,可是,讓電腦多跑一個小時,總好過讓孩子在額外的一分鐘裏中止呼吸。
壓縮感知已經產生了使人驚歎的科學影響。這是由於每個有趣的信號都是稀疏的,只要你可以正肯定義它的稀疏性。例如,鋼琴和絃的樂音是一小組不超過五個純音符的組合。在所演奏的音頻中,只有少部分頻率包含有效的音樂信息,而其他大部分頻段是一片無聲地帶。所以,你能夠用壓縮感知技術從「欠採樣」的老舊唱片中重建出當時的樂章,而不用擔憂失去了由特定頻率構成的聲波的信息。只須要你手頭的材料,就能夠用L1範數極小化法以稀疏方式填補空白,從而得到與原音通常無二的旋律。
帶着建築師式的眼睛,頂着略顯蓬鬆的頭髮,坎迪斯散發着時尚極客的氣息。這個39歲的法國人語氣溫和,可是面對他認爲不達標的事情毫不妥協。「不,不,他說的沒有道理。」當我提到壓縮感知領域某個和他有些觀點有着細小差異的專家的工做時,他如是說,「不,不,不,不。那沒有道理,沒道理,是錯的。」
坎迪斯曾經預見,未來會有大量應用技術是以他的研究成果做爲理論基礎的。他舉例說道,在將來,這項技術不會僅僅用在磁共振成像儀上。例如,數碼相機收集了大量信息,而後壓縮圖像。可是,至少在壓縮感知技術可用的狀況下,壓縮是一種極大的浪費。若是你的相機記錄了大量的數據,卻在壓縮時丟棄了其中的90%,那麼爲何不在一開始就只記錄10%的數據從而節省電池電量和內存?對於您的孩子的數碼快照,費電可能沒什麼大不了,你只要插上電源爲相機充電就能夠了。「可是,當廢電池多到能夠環繞木星,」坎迪斯說,「結果就不是那麼簡單了」。一樣,若是你但願本身的相機可以拍攝萬億像素的照片而不是幾百萬像素,你就必須使用壓縮感知技術。
從信息的小樣本中收集有用數據的能力也引發了軍方的重視:好比,敵方通訊可能從一個頻率跳到另外一個頻率。可是,尚未一種硬件設備能以足夠快的速度掃描整個頻域。可是不管在什麼狀況下,對手的信號都是稀疏的,是由頻段內極少數的某種簡單信號構成的,出如今一些相對較小卻未知的頻段。這意味着壓縮感知能夠用來從「噼啵」聲中區分來自任意波段的敵人的交談。因此不出意外的,美國國防部先進計劃研究署正在支持壓縮感知技術的研究。
壓縮感知不只能夠用於解決如今的技術難題。未來,它還將幫助咱們處理已存儲的大量信息。天天,全世界都要產生數不清的數據,咱們但願這些數據安全、有效、可恢復地保存起來。目前,咱們大部分的視聽信息都是用複雜的壓縮格式存儲起來的。若是有一天,這種格式被淘汰了,你不得不進行痛苦的格式轉換。可是坎迪斯相信,在擁有壓縮感知技術的將來,對於採用高成本紅外技術拍攝的天文圖像,只須要拍攝到20%的像素就能夠了。由於咱們一開始就只記錄了極少部分的數據,因此不須要再進行壓縮。那麼咱們只須要逐步改進數據的解析算法,而不是數據的壓縮算法,就能夠精確地恢復出原始圖像了。
上面說的都是未來的事情。今天,壓縮感知技術已經改寫了咱們獲取醫學信息的方式。在GE醫療集團的參與下,威斯康辛大學的一個研究小組正在把壓縮感知技術與HYPR和VIPR技術結合,以提升特定種類磁共振掃描的速度,在某種狀況下能夠達到原來的幾千倍。(我是這所大學的教員,可是沒有參與這項研究。)GE醫療集團還在實驗一種新的方法,有但願利用壓縮感知技術大大改善對癌症病人代謝動力學的觀測。同時,帕卡德醫院應用了壓縮感知技術,使磁共振成像儀的圖像記錄速度提高爲傳統掃描儀的三倍。
這對於兩歲的布賴斯來講剛好夠用。瓦薩納瓦拉在控制室發出工做信號,麻醉師給男孩注射了一點鎮靜劑,而後關掉了呼吸機。男孩的呼吸馬上中止了。瓦薩納瓦拉開始掃描,而麻醉師監視着布賴斯的心率和血氧水平。40秒鐘以後,掃描結束,布賴斯沒有出現明顯的缺氧狀況。當天晚些時候,壓縮感知算法從粗略的掃描中生成了清晰的圖像,能讓瓦薩納瓦拉看清雙側膽管的堵塞狀況。一名介入放射科醫生將一根彎曲的導線依次插入雙側膽管中,輕輕清除淤塞,併爲男孩安裝了讓膽汁恰當流出的細小導管。正是數學與醫學的結合,才使得布賴斯的檢測結果又恢復了正常。
原文做者:
Jordan Ellenberg (ellenber@math.wisc.edu), 是威斯康辛大學的數學副教授。原文發表在《連線》雜誌三月號上。
數學怎樣得出那些顆粒:壓縮感知技術是一種從低分辨率樣本中重建高精度數據的數學工具。它能夠用來重現古老的音樂錄音、尋找敵人的無線電信號,並更加迅速地完成磁共振成像。這裏展現的是它如何處理照片。
[f1]堅持用‘磁共振’的緣由:1)MRI直譯就是磁共振成像;2)現代人談‘核’色變,而傳統‘核磁共振’中的‘核’其實指的是原子核。由於‘核磁共振’這個名字讓咱們在招募fMRI實驗被試時困難重重……趕明兒打算寫個磁共振成像原理給你們作科普,但願之後招被試容易些……