引用自:http://tech.sina.com.cn/mobile/n/2011-06-20/18371792199.shtmlhtml
這篇文章寫的深刻淺出,把異構計算的思想和行業趨勢描述的很是清楚,可貴一見的好文章。按捺不住轉一下。^_^程序員
相對於串行計算,並行計算能夠劃分紅時間並行和空間並行。時間並行即流水線技術,空間並行使用多個處理器執行併發計算,當前研究的主要是空間的並行問題。以程序和算法設計人員的角度看,並行計算又可分爲數據並行和任務並行。數據並行把大的任務化解成若干個相同的子任務,處理起來比任務並行簡單。算法
並行計算,解放不堪重負的處理器編程
空間上的並行致使兩類並行機的產生,按照麥克·弗萊因(Michael Flynn)的說法分爲單指令流多數據流(SIMD)和多指令流多數據流(MIMD),而經常使用的串行機也稱爲單指令流單數據流(SISD)。MIMD類的機器又可分爲常見的五類:並行向量處理機(PVP)、對稱多處理機(SMP)、大規模並行處理機(MPP)、工做站機羣(COW)、分佈式共享存儲處理機(DSM)。緩存
從天然哲學層面上來說:任何最爲複雜的事情,均可以被拆分紅若干個小問題去解決。這就是當今並行計算的哲學理論依據。然而在當今的雙路、四路、八路甚至多路處理器系統中,並行計算的概念早已獲得普遍應用。目前業界最爲普及的並行計算規範就是OpenMP。網絡
OpenMP:同構計算最爲普及的標準多線程
OpenMP(Open Multi-Processing)是由OpenMP Architecture Review Board牽頭提出的,並已被普遍接受的,用於共享內存並行系統的多線程程序設計的一套指導性註釋(Compiler Directive)。OpenMP支持的編程語言包括C語言、C++和Fortran;而支持OpenMP的編譯器包括Sun Studio和Intel Compiler,以及開放源碼的GCC和Open64編譯器。OpenMP提供了對並行算法的高層的抽象描述,程序員經過在源代碼中加入專用的pragma來指明本身的意圖,由此編譯器能夠自動將程序進行並行化,並在必要之處加入同步互斥以及通訊。當選擇忽略這些pragma,或者編譯器不支持OpenMP時,程序又可退化爲一般的程序(通常爲串行),代碼仍然能夠正常運做,只是不能利用多線程來加速程序執行。架構
OpenMP的特點併發
OpenMP提供的這種對於並行描述的高層抽象下降了並行編程的難度和複雜度,這樣程序員能夠把更多的精力投入到並行算法自己,而非其具體實現細節。對基於數據分集的多線程程序設計,OpenMP是一個很好的選擇。同時,使用OpenMP也提供了更強的靈活性,能夠較容易的適應不一樣的並行系統配置。線程粒度和負載平衡等是傳統多線程程序設計中的難題,但在OpenMP中,OpenMP庫從程序員手中接管了部分這兩方面的工做。框架
OpenMP的缺點
做爲高層抽象,OpenMP並不適合須要複雜的線程間同步和互斥的場合。OpenMP的另外一個缺點是不能在非共享內存系統(如計算機集羣)上使用。由此若是咱們想將不一樣類型的計算器、計算機聯和起來,協同工做。咱們就須要使用異構計算技術。
雙劍豈可合璧:什麼是異構計算?
異構計算(Heterogeneous computing)主要是指使用不一樣類型指令集和體系架構的計算單元組成系統的計算方式。常見的計算單元類別包括CPU、GPU等協處理器、DSP、ASIC、FPGA等。
異構計算近年來獲得更多關注,主要是由於經過提高CPU時鐘頻率和內核數量而提升計算能力的傳統方式遇到了散熱和能耗瓶頸。而與此同時,GPU等專用計算單元雖然工做頻率較低,具備更多的內核數和並行計算能力,整體性能-芯片面積比和性能-功耗比都很高,卻遠遠沒有獲得充分利用。
廣義上,不一樣計算平臺的各個層次上都存在異構現象,除硬件層的指令集、互聯方式、內存層次以外,軟件層中應用二進制接口、API、語言特性底層實現等的不一樣,對於上層應用和服務而言,都是異構的。
從實現的角度來講,異構計算就是制定出一系列的軟件與硬件的標準,讓不一樣類型的計算設備可以共享計算的過程和結果。同時不斷優化和加速計算的過程,使其具有更高的計算效能。
計算的發展歷程:從32bit到異構計算(上)
2003年之前,是32bit的時代。處理器製造廠商,不斷提高製造工藝技術,使用更精細的製程來製造處理器。同時也不斷提升處理器的時脈,如133MHz、166MHz、200MHz、300MHz……最終頻率提高到了3GHz後,就難做寸進了。到目前爲止咱們也不曾見到Intel和AMD發佈高於4GHz主頻的處理器產品。
2003年出現了x86-64,有時會簡稱爲「x64」,是64位微處理器架構及其相應指令集的一種,也是Intel x86架構的延伸產品。「x86-64」1999由AMD設計,AMD首次公開64位集以擴充給IA-32,稱爲x86-64(後來更名爲AMD64)。其後也爲英特爾所採用,現時英特爾稱之爲「Intel 64」,在以前曾使用過Clackamas Technology (CT)、IA-32e及EM64T。外界多使用"x86-64"或"x64"去稱呼此64位架構,從而保持中立,不偏袒任何廠商。
AMD64表明AMD放棄了跟隨Intel標準的一向做風,選擇了像把16位的Intel 8086擴充成32位的80386般,去把x86架構擴充成64位版本,且兼容原有標準。
AMD64架構在IA-32上新增了64位暫存器,併兼容早期的16位和32位軟件,可以使現有以x86爲對象的編譯器容易轉爲AMD64版本。除此以外,NX bit也是引人注目的特點之一。
很多人認爲,像DEC Alpha般的64位RISC芯片,最終會取代現有過期及多變的x86架構。但事實上,爲x86系統而設的應用軟件實在太龐大,成爲Alpha不能取代x86的主要緣由,AMD64能有效地把x86架構移至64位的環境,而且能兼容原有的x86應用程序。
計算的發展歷程:從32bit到異構計算(下)
2006年出現了雙核心多核心。多核心,也叫多微處理器核心是將兩個或更多的獨立處理器封裝在一塊兒的方案,一般在一個集成電路(IC)中。雙核心設備只有兩個獨立的微處理器。通常說來,多核心微處理器容許一個計算設備在不須要將多核心包括在獨立物理封裝時執行某些形式的線程級併發處理(Thread-Level Parallelism,TLP)這種形式的TLP一般被認爲是芯片級多處理。在遊戲中你必需要使用驅動程序來利用第二顆核心。
此後處理器製造廠商發現,利用多核心架構能夠在不提高處理器頻率的狀況下,繼續不斷提高處理器的效能。
2008年通用計算GPGPU
通用圖形處理器(General-purpose computing on graphics processing units,簡稱GPGPU),是一種利用處理圖形任務的圖形處理器來計算本來由中央處理器處理的通用計算任務。這些通用計算經常與圖形處理沒有任何關係。因爲現代圖形處理器強大的並行處理能力和可編程流水線,令流處理器能夠處理非圖形數據。特別在面對單指令流多數據流(SIMD),且數據處理的運算量遠大於數據調度和傳輸的須要時,通用圖形處理器在性能上大大超越了傳統的中央處理器應用程序。
3D顯示卡的性能從NVIDIA的GeForce256時代就頗受矚目,時間到了2008年,顯示卡的計算能力開始被用在實際的計算當中。而且其處理的速度也遠遠超越了傳統的x86處理器。
2010年CPU+GPU異構計算
對於GPGPU表現出的驚人計算能力叫人爲之折服,可是在顯卡進行計算的同時,處理器處於閒置狀態。由此處理器廠商也想參與到計算中來,他們但願CPU和GPU可以協同運算,完成那些對計算量有着苛刻要求的應用。同時也但願將計算機的處理能力再推上一個新的高峯。
異構計算要求CPU和GPU協同運算
天河星雲:異構計算大顯神威
國際TOP500組織TOP500.org在網站上公佈了最新全球超級計算機TOP500強排行榜,由國防科學技術大學研製,部署在國家超級計算天津中心,中國千萬億次超級計算機「天河一號」位居第一位,實測運算速度能夠達到每秒2570萬億次。
「天河一號」耗資6億元,鏈接了上萬個美國英特爾和Nvidia公司製造的CPU和GPU,屬異構混合架構。在過去一年裏,天河一號進行了大升級,目前的配置是14336顆英特爾六核至強X5670 2.93GHz CPU和7168顆Nvidia Tesla M2050 GPU和2048顆自主研發的八核飛騰FT-1000 CPU。處理內核數突破20萬顆,是去年24576顆的8.25倍。
排名第三的是曙光公司研製的「星雲」高性能計算機,其實測運算速度達到每秒1270萬億次。petaflop/s,千萬億次計算單位。星雲系統峯值爲每秒3000萬億次(3PFlops),實測Linpack值每秒1271萬億次(1.271PFlops),是中國第一臺、世界第三臺實測雙精度浮點計算超千萬億次的超級計算機。
星雲超級計算機採用自主設計的HPP體系結構,處理器是32nm工藝的六核至強X5650,而且採用了Nvidia Tesla C2050 GPU作協處理,由4640個計算單元組成。它採用了高效異構協同計算技術,系統包括了9280顆通用CPU和4640顆專用GPGPU組成。計算網絡採用了單向40Gbps QDR Infiniband技術,核心存儲採用了自主設計的Parastor高速I/O系統。
美國橡樹嶺國家實驗室的「美洲虎」超級計算機此前排名第一,在新榜單中,其排名下滑一位。「美洲虎」的實測運算速度可達每秒1750萬億次。有趣的是中國的兩套系統和東京工業大學的系統,所使用的都是NVIDIA的GPU通用計算加速方案。事實上,在Top 500強超級計算機榜單中,有28套系統採用的是圖形處理器做爲通用計算加速。有16套系統採用的是Cell處理器,其中有10套採用的是NVIDIA的芯片,有2套採用的是AMD的Radeon芯片。目前的Top 500強中有10大系統超越了千萬億次大關。這些超級計算機中有五套來自美國,而其餘則來自中國,日本,法國,德國。
迥異:不一樣計算架構的特色
上文提到的採用的異構計算架構都屬於大型計算機的範疇。對於我的計算機而言,尤爲是x86架構的計算機,異構計算的步伐則要慢許多。這是由於,不管是處理器仍是顯示卡,又或者其餘運算部件,都有其自身的架構和特性。他們是針對不一樣領域,面向不一樣應用所設計的芯片。因此他們在功能性方面千差萬別。要想將他們都統一塊兒來,除了須要制定共同的規範和標準以外,還要針對其計算的特色設計軟件。
舉例來講,CPU和GPU在進行計算時,就有許多不一樣。對於處理器來講,它是一顆通用處理器。它要應對各類類型的計算應用。不管是數學方面的,仍是邏輯方面的運算。咱們能夠看到,一顆比較常規的處理器其中的ALU計算單元僅僅佔據整個核心面積的25%之內。在處理器中,超過50%的核心面積用來製做Cache高速緩存,不管是L一、L2仍是片上的L3。而另外還有25%的核心面積用來做爲控制器。它控制着處理管線的運做,控制着各類分支預測,讓多核心處理器能夠更有效率。
而咱們再反觀GPU,其結構要簡單的多。GPU的任務是加速3D像素的計算。所以咱們在顯卡中能夠看到數以百計的流處理器單元或者是CUDA核心。而在整個計算過程當中,GPU承擔的邏輯計算任務很是小。同時它有着更寬的顯存帶寬,有着更高速的顯存。因此在GPU芯片中,也就無需更大容量的片上緩存機制。
經過上文的分析,咱們能夠看到CPU的在處理時,適合做全部工做,各個方面都比較平均。邏輯處理能力要比GPU快,可是對於數學計算方面,其速度不如具備海量處理核心的GPU快。而GPU方面,數學計算性能強大,大規模並行處理機制強大,可是邏輯處理能力不足,僅僅能在某些計算領域應用。
Llano核心解析:一個真正的異構計算芯片
AMD前不久發佈的新一代Llano處理器,是一顆真正意義上的異構計算處理器。從這張這新架構圖中,咱們能夠看到Llano具有四個處理核心,每一顆核心具備不一樣類型的L1高速緩存。同時每個處理核心具有512KB X 2的容量爲1MB的L2高速緩存。由此在處理器的部分,構成了4MB的二級緩存。
在整個芯片接近50%的面積上,是GPU的部分。一顆處理芯片同時包含了CPU和GPU的部分,這能夠說是很是典型的異構計算架構。同時,在芯片的兩邊咱們也能夠看到高度集成的4個PCIe總線控制器,還有一個128bit位寬的DDR3內存控制器。
這樣的異構計算芯片能夠充分發揮不一樣計算部件的優點。當須要進行較多邏輯計算時,可使用CPU部分完成。當須要大量的浮點運算時,能夠借用GPU的浮點運算處理管線來完成。同時若是處理器的某些核心正處於空閒,也可讓其加入到計算中來。因而可知異構計算不只僅是須要統一塊兒不一樣類型的計算部件,同時也須要有針對性的讓更適合的硬件做適用的計算工做。
新的計算架構須要全新的軟件標準
對於異構計算來講,更重要的軟件。雖然如今咱們看到許多計算機中都應用了GPGPU的通用計算,使用顯卡來進行大規模的並行計算任務,可是在這個過程當中,處理器就被閒置了。例如許多轉碼程序在運行的時候,僅僅是顯卡在跑,而處理器並未參與到轉碼加速中來。將異構的運算部件,所有有效的調用起來,這是一件困難的編程工做。
以下圖所示,傳統意義上的多路處理器計算時,僅僅使用的是處理器的並行計算。並未讓GPU加入到其中。而如今咱們常說的GPGPU通用計算,包括NVIDIA的CUDA和AMD的Stream在計算的時候,也僅僅是GPU在跑,處理器是閒置的。
除了應用軟件以外,曾經咱們耳熟能詳的評測軟件,也並未對異構計算做出優化。不管是PCmark仍是3Dmark,在這些軟體進行測試的時候,會將CPU和GPU利用不一樣的測試項目分別進行測試。並無將它們合併在一塊兒,進行有效的異構計算。
Sysmark僅僅是創建許多計算任務,而後讓系統來跑,這僅僅是針對的是處理器的部分。而Chinebench系列的軟體,僅僅是考察的CPU的渲染性能。對於多核心和超線程雖然有很好的支持,可是並未讓GPU加入測試。如你所見,目前針對x86或者臺式機平臺的異構計算軟件少之甚少,甚至連一款像樣的異構計算評測軟件都無有。
CUDA:在夾縫中掙扎求存
CUDA(Compute Unified Device Architecture,統一計算架構)是由NVIDIA所推出的一種集成技術,是該公司對於GPGPU的正式名稱。經過這個技術,用戶可利用NVIDIA的GeForce 8之後的GPU和較新的Quadro GPU進行計算。亦是首次能夠利用GPU做爲C-編譯器的開發環境。NVIDIA營銷的時候,每每將編譯器與架構混合推廣,形成混亂。實際上,CUDA架構能夠兼容OpenCL或者自家的C-編譯器。不管是CUDA C-語言或是OpenCL,指令最終都會被驅動程序轉換成PTX代碼,交由顯示核心計算。
以GeForce 8800 GTX爲例,其核心擁有128個內處理器。利用CUDA技術,就能夠將那些內處理器串通起來,成爲線程處理器去解決數據密集的計算。而各個內處理器可以交換、同步和共享數據。利用NVIDIA的C-編譯器,經過驅動程序,就能利用這些功能。亦能成爲流處理器,讓應用程序利用進行運算。GeForce 8800 GTX顯示卡的運算能力可達到520GFlops,若是建設SLI系統,就能夠達到1TFlops。
利用CUDA技術,配合適當的軟件(例如MediaCoder),就能夠利用顯示核心進行高清視頻編碼加速。視頻解碼方面,一樣能夠利用CUDA技術實現。此前,NVIDIA的顯示核心自己已集成PureVideo單元。但是,實現相關加速功能的一個微軟API-DXVA,偶爾會有加速失效問題。因此利用CoreAVC配合CUDA,變相在顯示核心上實現軟件解碼,解決兼容性問題。另外,配合適當的引擎,顯示核心就能夠計算光線跟蹤。NVIDIA就放出了自家的Optix實時光線跟蹤引擎,經過CUDA技術利用GPU計算光線跟蹤。
FireStream:慢慢淡出咱們的視野
Firestream,是AMD旗下的品牌系列之一。與Radeon(用於消費級顯卡)和FirePro(用於專業顯卡)不一樣,FireStream主要用於AMD的高性能計算卡系列。FireStream產品中的GPU不是用來做3D加速用途,而是利用GPU內置的流處理器變成一羣並行處理器,做爲浮點運算協處理器,協助中央處理器計算複雜的浮點運算程序,例如複雜的科學運算。Firestream的競爭對手是nVIDIA的Tesla系列高性能計算卡。
早在數年前,人們就意識到GPU不但能夠處理圖形數據,還能夠處理其餘數據。BionicFX就試過利用GeForce 6800處理音頻數據,ATI亦作過一樣的試驗。並且史丹佛大學的Folding@Home研究項目亦可利用Radeon X1900做運算加速;經過GPU來模擬蛋白質合成,進而找尋有關蛋白質的疾病。
第一個產品,FireStream 580,是建基於R580圖形芯片。它將是一塊採用R580顯核的特殊顯示卡,R580顯示核心中的48個獨立的像素處理器能帶來強大的浮點運算性能。該產品採用PCI Express x16做爲接口,流處理器的頻率是600 MHz,能夠同時運行512線程,並配備了1GB GDDR3存儲器,頻率是1300 MHz。並有可能使用多個核心併發處理數據。這個流處理器的功耗爲165瓦特。
FireStream 580
NVIDIA PhysX:最出色的GPGPU應用實例
PPU (Physics Processing Unit)
物理處理單元,即 PPU,是一種特別爲減輕 CPU 計算,尤爲是物理運算部分的處理器。這概念相似於對上10年間GPU。在現代 計算機中,GPU用於處理 矢量圖形,而且延伸到3D圖形。但GPU對物理處理無能爲力,故目前大部分物理處理都交給CPU處理,這無疑是加劇了CPU原本就不輕的負擔。
NVIDIA PhysX
PhysX 是一套由 AGEIA 設計的執行復雜的物理運算的PPU,又能夠表明一款物理引擎。AGEIA 聲稱,PhysX 將會使設計師在開發遊戲的過程當中,使用複雜的物理效果,而不須要像以往那樣,耗費漫長的時間開發一套物理引擎。以往使用了物理引擎,還會使一些配置較低的電腦,沒法流暢運行遊戲。AGEIA 更宣稱 PhysX 執行物理運算的效率,比當前的 CPU 與物理處理軟件的組合高出 100 倍。遊戲設計語言 Dark Basic Pro 將會支持 PhysX,並容許其用戶利用 PhysX 執行物理運算。在 2005年7月20日,索尼贊成在即將發售的 PlayStation 3 中使用 AGEIA 的 PhysX 和它的 SDK —— NovodeX 。現時,AGEIA公司己被NVIDIA收購,相關的顯卡亦能夠加速該物理引擎。
NVIDIA PhysX是一種功能強大的物理加速引擎,可在頂級PC和遊戲中實現實時的物理學計算。PhysX軟件被普遍應用於數百個遊戲中,軟件註冊用戶數量已超過20,000名。索尼的Playstation 三、微軟的Xbox 360、任天堂的Wii以及我的計算機均支持PhysX。
PhysX設計用途是利用具有數百個內核的強大處理器來進行硬件加速。加上GPU超強的並行處理能力,PhysX將使物理加速處理能力呈指數倍增加並將您的遊戲體驗提高至一個全新的水平,在遊戲中呈現豐富多彩、身臨其境的物理學遊戲環境。
OpenCL:無人能模仿 很難被超越
2008年6月的WWDC大會上,蘋果提出了OpenCL規範,旨在提供一個通用的開放API,在此基礎上開發GPU通用計算軟件。隨後,Khronos Group宣佈成立GPU通用計算開放行業標準工做組,以蘋果的提案爲基礎創立OpenCL行業規範。
OpenCL (Open Computing Language,開放計算語言) 是一個爲異構平臺編寫程序的框架,此異構平臺可由CPU,GPU或其餘類型的處理器組成。OpenCL由一門用於編寫kernels(在OpenCL設備上運行的函數)的語言(基於C99)和一組用於定義並控制平臺的API組成。OpenCL提供了基於任務分區和數據分區的並行計算機制。
OpenCL相似於另外兩個開放的工業標準OpenGL和OpenAL,這兩個標準分別用於三維圖形和計算機音頻方面。OpenCL擴展了GPU用於圖形生成以外的能力。OpenCL由非盈利性技術組織Khronos Group掌管。
OpenCL最初蘋果公司開發,擁有其商標權,並在與AMD,IBM,英特爾和nVIDIA技術團隊的合做之下初步完善。隨後,蘋果將這一草案提交至Khronos Group。2010年6月14日,OpenCL 1.1 發佈。
OpenCL:奠基了異構計算的基礎
雖然蘋果制定OpenCL的私心路人皆知,但願經過OpenGL來讓自家的Mac電腦能夠順利的使用兩個顯卡巨頭的產品作GPGPU運算。可是蘋果的這一舉措卻爲將來的x86平臺異構計算奠基了堅實的基礎。由於不管是CUDA仍是FireStream,不管是CUDA核心仍是流處理器,軟件開發人員均可以經過OpenCL來支持。
中國用戶能夠登陸英偉達中文官方網站上下載到最新的驅動程序,只要您下載的驅動是195.62版本或更高,就能夠在Geforce 8系列或更高級的顯卡中開啓OpenCL,在安裝好新版本的顯卡驅動程序並從新啓動後,OpenCL就自動開啓了。當有須要使用CPU來完成的工做如轉換視頻時,GPU代替CPU進行運算,以提升轉換速度。可是在3D遊戲中應該是不會調用OpenCL的,由於顯卡有本身的硬件加速功能以及物理引擎。
固然一樣,在NVIDIA的Quadro系列專業顯卡中,一樣可以使用OpenCL技術。只要您的顯卡可以達到CUDA的要求,就可以正常使用OpenCL,以得到優異的CPU運算效率。
在AMD-ATI的Stream技術中,已經爲平常使用、辦公、遊戲等提供物理加速。原理與OpenCL基本相同,可是,目前AMD-ATI尚未進行推廣,可是官方承諾,在往後會逐漸增多Stream支持的遊戲。可是Stream使用的顯卡平臺仍是比較高,而性能很是優異的顯卡無疑帶來更高昂的價格,咱們也一樣但願AMD可以作到像NVIDIA那樣,只須要支持DirectX10的顯卡就能開啓OpenCL,以方便更多的AMD-ATI用戶。Geforce 8系列以上的顯卡能完美支持DirectX10,因此官方將開啓OpenCL的顯卡最低定爲8系列。
DirectCompute:立足DX11,應用普遍
Microsoft DirectCompute是一個應用程序接口(API),容許Windows Vista或Windows 7平臺上運行的程序利用圖形處理器(GPU)進行通用計算,DirectCompute是Microsoft DirectX的一部分。雖然DirectCompute最初在DirectX 11 API中得以實現,但支持DX10的GPU能夠利用此API的一個子集進行通用計算,支持DX11的GPU則可使用完整的DirectCompute功能。
顯卡對DirectX的支持程度影響可用的DirectCompute版本:
DirectX 10:DirectCompute 4.0
DirectX 10.1:DirectCompute 4.1
DirectX 11:DirectCompute 5.0
AMD開始全面支持異構計算
相比OpenGL豐富的功能和體系化的SDK來講,DirectCompute僅僅是以一個簡單的API存於世上,顯然不能贏得更多廠商的關注。由此微軟又醞釀了C++ AMP……且看下文分解。
Llano:融聚今宵 真正的異構計算平臺
這是AMD近期發佈的最強Llano處理器,具備劃時代的意義,具有真正的異構計算架構。AMD A8-3850配備了四個主頻2.9GHz的CPU核心,不過遺憾的是A8-3850並不支持Turbo Core自動超頻。在GPU方面,A8-3850配備的是一顆完整功能的Radeon HD 6550D,該GPU核心配備了400個流處理器,核心頻率爲600MHz。
A8-3850 APU處理器,採用Llano核心
實際上A8-3850 APU處理器的集成GPU核心性能平均要比Core i5 2500K快58%左右。若是咱們只考慮在遊戲裏的峯值性能的話,在相似於《現代戰爭2》這樣的遊戲裏,最新Llano桌面APU的GPU在幀頻表現上是能夠達到Sandy Bridge兩倍的,這也再次證實了英特爾集成GPU在遊戲領域的尷尬。至於Llano的GPU性能,相信這纔是玩家們最喜聞樂見的。
雖然咱們也認爲Sandy Bridge在集成GPU性能方面是不錯的入門選擇,可是至少在2011年,Llano桌面APU仍然是懂行玩家最該作出的選擇。值得注意的在這些測試裏,測試方隨後還爲Core i5 2500K GPU安裝了最新的2372驅動程序,結果證實大部分的結果仍然沒有改變,不過在少數領域英特爾發掘出了更多的潛力。不管如何,在GPU測試裏,AMD的Llano桌面APU A8-3850發揮出了使人印象深入的性能。
Socket-FM1接口
C++ AMP:微軟發佈異構計算編程語言
自從AMD發佈了Llano處理器,異構計算就真正進入了尋常百姓的家中。雖然OpenCL做爲通用大規模並行計算的行業領軍標準,獲得了AMD、Intel、NVIDIA等芯片業巨頭和大量行業廠商的支持,但惟獨缺乏了微軟。
近日在AMD Fusion開發者峯會上,微軟終於拿出了本身的異構計算編程語言:「C++ AMP」,其中AMP三個字母是「accelerated massive parallelism」的縮寫,也就是加速大規模並行的意思。
微軟的「異構並行計算」
C++ AMP是微軟Visual Studio和C++編程語言的新擴展包,用於輔助開發人員充分適應如今和將來的高度並行和異構計算環境。它使用C++語言的句法,將捆綁在下個版本的Visual Studio中發佈,預計會在今年晚些時候放出測試版本。
爲了與OpenCL相抗衡,微軟宣佈C++ AMP標準將是一種開放的規範,容許其它編譯器集成和支持。這無疑是對OpenCL的最直接挑戰。
C++ AMP的威力:剛體模擬性能綻開(上)
爲了展現了C++ AMP的威力,微軟現場運行了一個「剛體模擬」程序。一個可執行文件可以在多臺計算機和設備上同時運行。這裏咱們能夠看到,Llano APU x86處理器能夠貢獻出3GFlops的計算量。Llano APU的顯示核心與處理核心協同工做,能夠提供500GFlops的計算量。另外,Llano APU和Radeon HD 5800能夠提供1000多GFlops的計算量,模擬4萬多個粒子。即便是AMD的E-350這樣的僅有18W的低功耗筆記本處理器也能夠提供16GFlops的計算量,可以模擬16000多個粒子。
E-350的CPU部分,能夠獲得3.2GFlops的計算量
僅僅能夠模擬4096多個剛體粒子
請注意這裏鼠標所指示的運算量
C++ AMP的威力:剛體模擬性能綻開(中)
模擬的剛體粒子數量增長到5120個
CPU與GPU核心,聯合運算,能夠提供60GFlops的運算量
下面加入更多剛體粒子
小貼士:什麼是剛體?
在任何力的做用下,體積和形狀都不發生改變的物體叫作剛體(Rigid body)。在物理學內,理想的剛體是一個固體的,尺寸值有限的,形變狀況能夠被忽略的物體。不論有否受力,在剛體內任意兩點的距離都不會改變。在運動中,剛體上任意一條直線在各個時刻的位置都保持平行。
C++ AMP的威力:剛體模擬性能綻開(下)
加入更多剛體粒子,模擬20160個
Llano APU能夠貢獻出500GFlops的計算量,這與AMD以前宣稱的我的超級計算機的口號屬實
剛體的模擬數量達到了40960個的時候,就須要極大的計算量才能保證穩定輸出30fps的幀率。下面這張圖,你能夠看到在聯合了兩臺臺式機以後,計算量接近1TFlops。
一觸即發:異構計算行業標準大戰
NVIDIA並未得到Intel關於x86架構的受權,就連開發x86的模擬器的自由都被封殺。無奈之下CUDA也僅僅是GPGPU的單獨運算。OpenCL是免費開放的,也是目前異構計算的惟一選擇。
而微軟的C++ AMP會與Windows緊密貼合起來。雖然也屬於開放性的標準,可是微軟對其將來方向的掌控,其執行應該更有效力。OpenCL有多家主力廠商支持,技術紛爭不斷,爲了自家產品的利益不免在新版本制定方面出現歧路。如今的局面就有點相似曾經OpenGL對決DirectX的時代,不知道此次微軟是否還可以全面勝出。
上面這張圖代表,若是你的計算量僅有630GFlops的話,你的幀數僅僅能維持在19fps左右。