[ZZ] Maxwell 架構

  http://digi.163.com/14/0218/23/9LDCTFON00162DSP.htmlhtml

 

 

【IT168 評測】隨着一句「娘娘,封神啦(寶雞口音)」,中國的觀衆迅速認識到了兩個極其出彩的相聲演員。若是說關鍵詞是引起關注的最大因素,那麼提到「GeForce」,各位想到的又是什麼?前端

步步爲營 NVIDIA發佈Maxwell架構產品!

相信很多讀者第一次真正認識到NVIDIA(如下簡稱NV)這個公司仍是從一款叫GeForce 256的顯卡開始,當年逆天的性能讓很多DIY玩家完全跪倒在NV的的「石榴裙」之下不肯爬起。雖然說這麼多年過去了,NV的產品愈來愈多,可是GeForce 256的做爲第一款GeForce產品,不只爲NV,也爲業界帶來了一場「綠色」革命!程序員

步步爲營 NVIDIA發佈Maxwell架構產品!

     1999年GeForce 256發佈至今已經15年了,15年的沉澱又帶來了什麼,GeForce系列的茁壯發展,架構的不斷改進和革新,一切都恍如昨日。而今天,一款從Fermi就被期待的架構,終於揭開了神祕的面紗,那就是今天的主角——全新Maxwell架構的產品GTX 750以及GTX 750 Ti!算法

步步爲營 NVIDIA發佈Maxwell架構產品!

    至於爲何這麼多人都在期待Maxwell架構的產品,下面的架構分析和回顧會爲各位一一揭曉。編程

Fermi架構解析回顧小程序

一、SP、SM緩存

從高層次上看,Fermi和GT200結構形似,並沒有太大不一樣,但往深處看就會發現絕大部分都已經進化。最核心的流處理器(Streaming Processor/SP)如今不但數量大增,還有了個新名字CUDA核心(CUDA Core),由此便可看出NVIDIA的轉型之意,不過咱們暫時仍是繼續沿用流處理器的說法。服務器

溫故而知新 Fermi/Kepler架構解析回顧!

全部流處理器如今都符合IEEE 754-2008浮點算法(Cypress也是如此)和完整的32位整數算法,然後者在過去只是模擬的,事實上僅能計算24-bit整數乘法;同時引入的還有積和熔加運算(Fused Multiply-Add/FMA),每循環操做數單精度512個、雙精度256個。全部一切都符合業界標準,計算結果不會產生意外誤差。網絡

雙精度浮點(FP64)性能大大提高,峯值執行率能夠達到單精度浮點(FP32)的1/2,而過去只有1/8,AMD如今也不過1/5,好比Radeon HD 5870分別爲單精度2.72TFlops、雙精度544GFlops。因爲最終核心頻率未定,因此暫時還不清楚Fermi的具體浮點運算能力(雙精度預計可達624GFlops)。多線程

G80/GT200都是8個流處理器構成一組SM(Streaming Multiprocessor),Fermi增長到了32個,最多16組,少於GT200的30組,但流處理器總量從240個增至512個,是G80的整整四倍。除了流處理器,每組SM還有4個特殊功能單元(Special Function UnitSFU),用於執行抽象數學和插值計算,G80/GT200均爲2個。同時MUL已被刪掉,因此不會再有單/雙指令執行計算率了。

至於SM之上的紋理處理器羣(Texture Processor Cluster/TPC),NVIDIA暫時沒有披露具體組成方式,並且ROP單元、紋理/像素填充率等其它圖形指標也未公佈。

二、緩存

GT200的每組SM都有16KB共享內存,由其中8個SP使用。注意它們不是緩存(cache),而是軟件管理的內存(memory),能夠寫入、讀取數據。爲了知足應用程序和通用計算的須要,Fermi引入了真正的緩存,每組SM擁有64KB可配置內存(合計1MB),可分紅16KB共享內存加48KB一級緩存,或者48KB共享內存加16KB一級緩存,可靈活知足不一樣類型程序的須要。

溫故而知新 Fermi/Kepler架構解析回顧!

GT200的每組TPC還有一個一級紋理緩存,不過當GPU出於計算模式的時候就沒什麼用了,故而Fermi並未在這方面進行加強。整個芯片擁有一個容量768KB的共享二級緩存,執行原子內存操做(AMO)的時候比GT200快5-20倍。

三、效率

CPU和GPU執行的都是被稱做線程的指令流。高端CPU如今每次最多隻能執行8個線程(Intel Core i7),而GPU的並行計算能力就強大多了:G80 12288個、GT200 30720個、Fermi 24576個。

爲何Fermi還不如GT200多?由於NVIDIA發現計算的瓶頸在於共享內存大小,而不是線程數,因此前者從16KB翻兩番達到64KB,後者則減小了20%,不過依然是G80的兩倍,並且每32個線程構成一組「Warp」。

在G80和GT200上,每一個時鐘週期只有一半Warp被送至SM,換言之SM須要兩個循環才能完整執行32個線程;同時SM分配邏輯和執行硬件緊密聯繫在一塊兒,向SFU發送線程的時候整個SM都必須等待這些線程執行完畢,嚴重影響總體效率。

Fermi解決了這個問題,在每一個SM前端都有兩個Warp調度器和兩個獨立分配單元,而且和SM其它部分徹底獨立,都可在一個時鐘循環裏選擇發送一半Warp,並且這些線程能夠來自不一樣的Warp。分配單元和執行硬件之間有一個完整的交叉開關(Crossbar),每一個單元均可以像SM內的任何單元分配線程(不過存在一些限制)。

溫故而知新 Fermi/Kepler架構解析回顧!

這種線程架構也不是沒有缺點,就是要求Warp的每一個線程都必須同時執行一樣的指令,不然會有部分單元空閒。每組SM每一個循環內能夠執行的不一樣操做數:FP32 32個、FP64 16個、INT 32個、SFU 4個、LD/ST 16個。

四、並行內核(Parallel Kernel)

在GPU編程術語中,內核是運行在GPU硬件上的一個功能或小程序。G80/GT200整個芯片每次只能執行一個內核,容易形成SM單元閒置。這在圖形運算中不是問題,通用計算上就不行了。Fermi的全局分配邏輯則能夠向整個系統發送多個並行內核,否則SP數量翻一番還多,更容易浪費。

應用程序在GPU和CUDA模式之間的切換時間也快得多了,NVIDIA宣稱是GT200的10倍。外部鏈接亦有改進,Fermi如今支持和CPU之間的並行傳輸,而以前都是串行的。

五、ECC支持

AMD Cypress能夠檢測內存總線上的錯誤,卻不能修正,而NVIDIA Fermi的寄存器文件、一級緩存、二級緩存、DRAM所有完整支持ECC錯誤校驗,這一樣是爲Tesla準備的,以前咱們也提到過。不少客戶此前就是由於Tesla沒有ECC才拒絕採納,由於他們的安裝量很是龐大,必須有ECC。

六、統一64-bit內存尋址

之前的架構裏多種不一樣載入指令,取決於內存類型:本地(每線程)、共享(每組線程)、全局(每內核)。這就和指針形成了麻煩,程序員不得不費勁清理。Fermi統一了尋址空間,簡化爲一種指令,內存地址取決於存儲位置:最低位是本地,而後是共享,剩下的是全局。這種統一尋址空間是支持C++的必需前提。

溫故而知新 Fermi/Kepler架構解析回顧!

GT80/GT200的尋址空間都是32-bit的,最多搭配4GB GDDR3顯存,而Fermi一舉支持64-bit尋址,即便實際尋址只有40-bit,支持顯存容量最多也可達驚人的1TB,目前實際配置最多6GB GDDR5——還是Tesla。

七、新的指令集架構(ISA)

下邊對開發人員來講是很是酷的:NVIDIA宣佈了一個名爲「Nexus」的插件,能夠在Visual Studio裏執行CUDA代碼的硬件調試,至關於把GPU當成CPU看待,難度大大下降。Fermi的指令集架構大大擴充,支持DX11和OpenCL責無旁貸,C++前邊也已經說過,如今又多了Visual Studio,固然還有C、Fortran、OpenGL 3.1/3.2。

Kepler架構解析回顧

Kepler GK110 性能卓越,效率極高  

Kepler GK110 由 71 億個晶體管組成,不只速度最快,並且仍是有史以來架構最複雜的微處理器。GK110 新加了許多注重計算性能創新功能,目的是要成爲英偉達 Tesla和HPC市場上的並行處理動力站。 

Kepler GK110 會提供超過每秒 1 萬億次雙精度浮點計算的吞吐量,DGEMM 效率大於80%,而以前的 Fermi 架構的效率是 60 65%。除了大大提升的性能以外,Kepler 架構在電源效率方面有 3 次巨大的飛躍,使 Fermi 的性能/功率比提升了 3 倍。  

溫故而知新 Fermi/Kepler架構解析回顧!

Kepler GK110 的如下新功能提升 GPU 的利用率,簡化了並行程序設計,並有助於 GPU 在各類計算環境中部署,不管是從我的工做站仍是到超級計算機:  

Dynamic Parallelism

可以讓 GPU 在無需 CPU 介入的狀況下,經過專用加速硬件路徑爲本身創造新的工做,對結果同步,並控制這項工做的調度。這種靈活性是爲了適應程序執行過程當中並行的數量和形式,編程人員能夠處理更多的各類並行工做,更有效的將 GPU 用爲計算用途。此功能容許結構較簡單,一但較複雜的任務方便有效地運行,能使較大部分的應用程序在整個 GPU 上運行。此外,程序可以更容易的建立,CPU 能爲其餘任務釋放。 

Hyper-Q

Hyper - Q 容許多個 CPU 核同時在單一 GPU 上啓動工做,從而大大提升了GPU 的利用率並削減了 CPU 空閒時間。Hyper Q 增長了主機和 Kepler GK110 GPU 之間的鏈接總數(工做隊列),容許 32 個併發、硬件管理的鏈接(與 Fermi 相比,Fermi 只容許單個鏈接)。Hyper - Q 是一種靈活的解決方案,容許來自多個 CUDA 流、多個消息傳遞接口(MPI)進程,甚至是進程內多個線程的單獨鏈接。之前遇到跨任務虛假串行化的應用程序,限制了 GPU 的利用率,而如今無需改變任何現有代碼性能就能大幅度提高。 

溫故而知新 Fermi/Kepler架構解析回顧!

Grid Management Unit

使 Dynamic Parallelism 可以使用先進、靈活的 GRID 管理和調度控制系統。新 GK110 Grid Management Unit (GMU) 管理並按優先順序在 GPU上執行的 Grid。GMU 能夠暫停新 GRID 和等待隊列的調度,並能停止 GRID,直到其可以執行時爲止,這爲 Dynamic Parallelism 這樣的強大運行提供了靈活性。GMU 確保CPU 和 GPU 產生的工做負載獲得妥善的管理和調度。

NVIDIA GPUDirect

可以使單個計算機內的 GPU 或位於網絡內不一樣服務器內的 GPU 直接交換數據,無需進入 CPU 系統內存。GPUDirect 中的 RDMA 功能容許第三方設備,例如 SSD、NIC、和 IB 適配器,直接訪問相同系統內多個 GPU 上的內存,大大下降 MPI 從 GPU 內存發送/接收信息的延遲。還下降了系統內存帶寬的要求並釋放其餘 CUDA 任務使用的 GPU DMA 引擎。Kepler GK110 還支持其餘的GPUDirect 功能,包括 Peer to Peer 和 GPUDirect for Video。 

Kepler 架構概述

Kepler GK110 專爲英偉達 Tesla打造,其目標是成爲世界上並行計算性能最高的微處理器。GK110 不只大大超過由 Fermi 提供的原始計算能力,並且很是節能,顯著減小電力消耗,同時產生的熱量更少。 

完整 Kepler GK110 實施包括 15 SMX 單元和六個 64 位內存控制器。不一樣的產品將使用GK110 不一樣的配置。例如,某些產品可能部署 13 或 14 個 SMX。在下面進一步討論的該架構的主要功能,包括: 

新 SMX 處理器架構

加強的內存子系統,在每一個層次提供額外的緩存能力,更多的帶寬,且徹底進行了從新設計,DRAM I/O 實施的速度大大加快。 

貫穿整個設計的硬件支持使其具備新的編程模型功能 

Kepler GK110 支持新 CUDA Compute Capability 3.5。

Kepler 架構的一個主要設計目標是提升電源效率。設計 Kepler 時,英偉達工程師應用從 Fermi中積累的經驗,以更好地優化 Kepler 、實現高效運行。臺積電的 28nm 製造工藝在下降功耗方面起着重要的做用,但許多 GPU 架構須要修改,以進一步下降功耗,同時保持出色的性能。 

溫故而知新 Fermi/Kepler架構解析回顧!

Kepler 每個硬件設備都通過設計和擦洗,以提供卓越的性能/功率比。出色性能/功率比的最佳案例是 Kepler GK110 新流式多處理器 (SMX) 中的設計,與最近 Kepler GK104 引入的 SMX 單元的許多方面相似,但計算算法包括更多雙精度單位。  

流式多處理器 (SMX) 架構 

Kepler GK110 的新 SMX 引入幾個架構創新,使其不只成爲有史以來最強大的多處理器,並且更具編程性,更節能。 SMX: 192 個單精度 CUDA 核、64 個雙精度單元、32 個特殊功能單元 (SFU) 和 32 個加載/存儲單元 (LD/ST)。  

SMX 處理核架構

每一個 Kepler GK110 SMX 單元具備 192 單精度CUDA 核,每一個核徹底由 浮點和整數算術邏輯單元組成。Kepler 徹底保留 Fermi 引入的 IEEE 754-2008 標準的單精度和雙精度算術,包括積和熔加 (FMA) 運算。 

Kepler GK110 SMX 的設計目標之一是大大提升 GPU 的雙精度性能,由於雙精度算術是許多HPC 應用的核心。Kepler GK110 的 SMX 還保留了特殊功能單元 (SFU) 以達到和上一代 GPU 相似的快速超越運算,所提供的 SFU 數量是 Fermi GF110 SM 的 8 倍。 

與 GK104 SMX 單元相似,GK110 SMX 單元內的核使用主 GPU 頻率而不是 2 倍的着色頻率。2x 着色頻率在 G80 Tesla 架構的 GPU 中引入,並用於以後全部的 Tesla 和 Fermi 架構的GPU。在更高時鐘頻率上運行執行單元使芯片使用較少許的執行單元達到特定目標的吞吐量,這實質上是一個面積優化,但速度更快的內核的時鐘邏輯更耗電。對於 Kepler,咱們的首要任務是的性能/功率比。雖然咱們作了不少面積和功耗方面的優化,可是咱們更傾向優化功耗,甚至以增長面積成本爲代價使大量處理核在能耗少、低 GPU 頻率狀況下運行。 

溫故而知新 Fermi/Kepler架構解析回顧!

Quad Warp Scheduler

SMX 以 32 個並行線程爲一組的形式調度進程,這 32 個並行線程叫作 Warp。而每一個 SMX 中擁有四組 Warp Scheduler 和八組 Instruction Dispatch 單元,容許四個 Warp 同時發出執行。Kepler 的 Quad Warp Scheduler 選擇四個 Warp,在每一個循環中能夠指派每 Warp 2 個獨立的指令。與 Fermi 不一樣,Fermi 不容許雙精度指令和部分其餘指令配對,而 Kepler GK110 容許雙精度指令和其餘特定沒有註冊文件讀取的指令配對 例如加載/存儲指令、紋理指令以及一些整數型指令。 

每一個 Kepler SMX 包含 4 組 Warp Scheduler,每組 Warp Scheduler 包含兩組 Instruction Dispatch 單元。單個 Warp Scheduler 單元如上所示。其中包括: 

a) 記錄長延遲操做(紋理和加載)的寄存器 

b) Warp 內調度決定(例如在合格的候選 Warp 中挑選出最佳 Warp 運行) 

c) 線程塊級調度(例如,GigaThread 引擎) 

然而,Fermi 的 scheduler 還包含複雜的硬件以防止數據在其自己數學數據路徑中的弊端。多端口寄存器記錄板會紀錄任何沒有有效數據的寄存器,依賴檢查塊針對記錄板分析多個徹底解碼的 Warp指令中寄存器的使用狀況過,肯定哪一個有資格發出。 

對於 Kepler,咱們認識到這一信息是肯定性的(數學管道延遲是不變量),所以,編譯器能夠提早肯定指令什麼時候準備發出,並在指令中提供此信息。這樣一來,咱們就能夠用硬件塊替換幾個複雜、耗電的塊,其中硬件塊提取出以前肯定的延遲信息並將其用於在 Warp 間調度階段屏蔽Warp,使其失去資格。  

新 ISA 編碼:每一個線程 255 個寄存器 

可由線程訪問的寄存器的數量在 GK110 中已經翻了兩番,容許線程最多訪問 255 個寄存器。因爲增長了每一個線程可用的寄存器數量,Fermi 中承受很大寄存器壓力或泄露行爲的代碼的速度能大大的提升。典型的例子是在 QUDA 庫中使用 CUDA 執行格點 QCD(量子色動力學)計算。基於 QUDA fp64 的算法因爲可以讓每一個線程使用更多寄存器並減小的本地內存泄漏,因此其性能提升了 5.3 倍。 

Shuffle 指令 

爲了進一步提升性能,Kepler 採用 Shuffle 指令,它容許線程在 Warp 中共享數據。此前,Warp 內線程之間的數據共享須要存儲和加載操做以經過共享內存傳遞數據。使用 Shuffle 指令,Warp 能夠讀取來自Warp 內其餘線程中任意排列的值。Shuffle 支持任意索引引用(即任何線程讀取任何其餘線程)。有用的 Shuffle 子集包括下一線程(由固定量彌補抵消)和 Warp 中線程間 XOR 「蝴蝶」式排列,也稱爲 CUDA 性。 

Shuffle 性能優於共享內存,所以存儲和加載操做可以一步完成。Shuffle 也能夠減小每一個線程塊所需共享內存的數量,由於數據在 Warp 級交換也不須要放置在共享內存中。在 FFT 的狀況下,須要共享一個 Warp 內的數據,經過使用 Shuffle 得到 6%的性能增益。 

紋理改進 

GPU 的專用硬件紋理單元對於須要取樣或過濾圖像數據的計算機程序來講是寶貴的資源。Kepler中的紋理吞吐量與 Fermi 相比有明顯提升,每一個 SMX 單元包含 16 紋理過濾單元,對比 FermiGF110 SM 提升了 4 倍。 

此外,Kepler 改變了管理紋理狀態的方法。在 Fermi 時代,爲讓 GPU 引用紋理,必須在固定大小綁定表中分配「槽」才能啓動 Grid。表中槽數量最終限制程序一次能夠讀取多少個獨特的紋理。最終,在 Fermi 中限制程序僅能夠同時訪問 128 紋理。 

溫故而知新 Fermi/Kepler架構解析回顧!

Kepler 中有無綁定紋理,不須要額外步驟:紋理狀態已保存爲內存中的對象,硬件按需獲取這些狀態對象,綁定表過期。這有效地消除了計算程序引用獨特紋理數量的任何限制。相反,程序能夠在任什麼時候間映射紋理和通紋理處理周圍,由於他們將任何其餘指針 

Kepler 內存子系統 L一、L二、ECC 

Kepler 的內存層次結構與 Fermi 相似。Kepler 架構支持統一內存加載和存儲的請求路徑,每一個SMX 多處理器有一個 L1 緩存。Kepler GK110 還使編譯器指示爲只讀數據增設一個新的緩存,以下所述。 

Kepler GK110 設計的初衷就是利用卓越的電源效率達到最大化計算性能和吞吐量。該架構有不少創新,如 SMX、Dynamic Parallelism 和 Hyper Q 使混合計算大大簡化和加快了編程,適用於更普遍的應用。Kepler GK110 GPU 將用於許多系統,從工做站到超級計算機,解決 HPC 中最嚴峻的挑戰。 

回顧了前面兩代架構以後,咱們如今就來看一下Maxwell帶來的改變。

效能更高冗餘少 全新Maxwell架構解析!
NVIDIA全新的RM

其實,Maxwell並無全面革新的技術改進,而是在以前Fermi和Kepler的基礎上作了不少的改進而得來的,因此,若是看到全架構圖,你會發現有改變,但不是翻天覆地的,由於不須要這樣的革新,就能作到性能的進步,這就是NVIDIA的力量!

效能更高冗餘少 全新Maxwell架構解析!
GM107架構圖

 Maxwell在流式多處理器方面採用了一種全新設計,可大幅提升每瓦特性能和每單位面積的性能。雖然KeplerSMX設計在這一代產品中已經至關高效,可是隨着它的發展,NVIDIA的GPU架構師顯然找到了讓架構效率再一次重大飛躍的方法。

MaxwellSM設計實現證實了這一點,控制邏輯分區、負荷均衡、時鐘門控粒度、編譯器調度、每時鐘週期發出指令條數等方面的改進以及其它諸多加強之處讓Maxwell SM(亦稱「SMM」)可以在效率上遠超Kepler SMX。全新的Maxwell SM架構可以在GM107中把SM的數量增至五個(GK107中僅有兩個),而芯片面積僅增長25%。

效能更高冗餘少 全新Maxwell架構解析!
Maxwell SM架構圖

GM 107 GPU包含一個GPC、五個Maxwell流式多處理器(SMM)以及兩個64位顯存控制器(共128位)。這就是這一芯片的完整實現形式,每組SMM單元又由4個小單元組成,每組32個CUDA核心,TMU單元又下降到8個,位寬維持128bit,所以CUDA核心總數爲640個,紋理單元40個,ROP單元爲16個,與GeForce GTX 750Ti中的芯片配置相同。

經過對比GK107和GM107 SM總數的相關指標可發現,GM107有五個SM,而前者只有兩個。GM107的峯值紋理性能比前者高25%,CUDA核心數量多1.7倍,着色器性能大約高2.3倍。

效能更高冗餘少 全新Maxwell架構解析!
全新的G-SYNC同步技術

效能更高冗餘少 全新Maxwell架構解析!
全新的G-SYNC同步技術核心重點

     G-SYNC的出現讓這種狀況完全改觀,本質上說G-SYNC能夠從根源上杜絕撕裂和卡頓,由於G-SYNC是在顯示器中加入一個芯片,讓顯示器遵從顯卡的命令肯定實時的刷新頻率。簡而言之就是顯卡渲染出一幀,顯示器就刷新一幀。這樣作的好處是不管場景渲染變化如何大,顯卡幀數如何波動,只要保持在必定的水平之上,咱們看到的都是連貫平滑的圖像。

效能更高冗餘少 全新Maxwell架構解析!
NVIDIA顯卡技術全覽

本次的首發咱們收到了公版卡以及其餘廠商送來的非公版顯卡,首先,仍是帶你們一塊兒來看下公版卡的狀況!

Maxwell架構GTX750Ti規格解析!
GTX750系列的定位

Maxwell架構GTX750Ti規格解析!

Maxwell架構GTX750Ti規格解析!

Maxwell架構GTX750/GTX750Ti規格解析!
GTX 750 Ti

NVIDIA GTX750Ti核心代號GM107-400,採用最新的Maxwell架構,擁有640個CUDA處理器,功耗僅爲60W,顯卡採用P2010公版PCB,配備了5CM的風扇及全鋁散熱器。

Maxwell架構GTX750/GTX750Ti規格解析!

Maxwell架構GTX750/GTX750Ti規格解析!

GTX750Ti配備了2GB/128Bit GDDR5顯存顆粒,主頻爲1020MHz,支持GPU Boost 2.0技術,能夠根據實時功耗與溫度智能超頻,顯存頻率爲5500MHz。

Maxwell架構GTX750/GTX750Ti規格解析!

輸出接口則是配備了雙DVI+mini HDMI的組合,徹底能夠知足主流用戶的需求。

除了原廠卡以外,做爲AIC廠商也紛紛在第一時間推出了相應的產品,其中包括了微星、索泰這樣的大廠!

首發廠商產品展現:微星、索泰等
微星

首發廠商產品展現:微星、索泰等
微星

首發廠商產品展現:微星、索泰等
影馳

首發廠商產品展現:微星、索泰等
影馳

首發廠商產品展現:微星、索泰等
影馳

首發廠商產品展現:微星、索泰等
七彩虹

首發廠商產品展現:微星、索泰等
七彩虹

介紹完各款顯卡,就讓咱們來實戰,看下R9 290X顯卡的表現如何!首先,仍是介紹一下本次測試的測試平臺。本次此時咱們選擇了常規的測試平臺,各方面信息請看下錶:

It168 顯卡測試平臺信息
硬件平臺信息
CPU Intel Core i7 4770K 4C8T OC=4.2GHz
主板 MSI Z87 XPOWER(Z87芯片組)
內存 Kingston DDR3-1600 4GB*2
顯卡

HD7770 1000/4500
GTX650Ti 928/5400
R7 260X 1100/6500
HD7850 860/4800
GTX650Ti BOOST 980/6008
GTX660 980/6008
HD7870 1000/4800
 R9 270X 1050/5600
HD7950 800/5000
GTX660Ti 915/6008
GTX760 980/6008
GTX750 1020/6008

GTX750Ti 1020/6008

硬盤 Kingston V300 240GB
電源 Antec 1000W
軟件平臺信息
系統軟件 Windows 7 64bit with sp1
NVIDIA 334.69 Beta
AMD Catalyst 14.1 beta
測試軟件

3DMark
3DMark11
GPU-Z 0.7.3
Unigine Valley
MSI Afterburner
《古墓麗影9》
《孤島危機3》
《孤島驚魂3》
《戰地3》
《失落星球2》
《狙擊精英2》
《地鐵 2033》
《異形VS鐵血戰士》
《光榮使命》

測試過程主要是以遊戲實測爲主,另外採用了幾個比較經常使用的軟件,3DMark,CPU-Z,也包括了超頻工做可能用到的MSI Afterburner等軟件。

測試平臺介紹及測試方法說明

測試平臺介紹及測試方法說明

 

測試說明

測試項目方面,咱們加入了很多近期推出的DX11測試軟件,例如3DMARK、Heaven 4.0以及Valley 1.0。而遊戲方面若遊戲有自帶或者第三方Benchamark軟件則使用,若沒有的則使用FRAPS監查幀數變化最平均值,務求儘可能得到最準確的數據;因爲測試對象爲旗艦級顯卡,咱們直接採用1920*1200高分辨率進行性能測試,因此部分要求強度相對較低的遊戲,開啓4xAA或者8xAA全屏抗鋸齒的方式進行測試。

vga.it168.com
幀數與遊戲流暢度的關係
< 30 FPS 很是有限的流暢度
30-40 FPS 平均值恰好達標的流暢度
40-60 FPS 較好的流暢度
> 60 FPS 最佳的流暢度

關於FPS:

衡量一塊顯卡的性能咱們一般都會用到FPS這個單位,幀數這個數字越大表明着顯卡的每秒渲染能力越強,數值越高表明着用戶在遊戲中將得到體驗效果越流暢。

一般一個遊戲的FPS數值是經過測試數值求平均值得到,這樣的測試一般能夠展示真實遊戲中場景與體驗的一個預先錄製片斷。這個錄製的片斷將會被應用在每款測試的顯卡上,測試的前提是每款顯卡都採用相同的畫質設置,這樣才能保證得到客觀真實的測試結果。

*假如一款顯卡在測試中平均幀數低於30FPS,那就意味着沒法順暢的玩該款遊戲。 *達到大約30~40FPS左右,咱們將能夠較爲流暢的運行遊戲,固然也會有片刻停頓的情況。總的來講,仍是可以得到較好的遊戲享受。在這個分辨率下得到匹配的最佳分辨率。 *當一款顯卡的平均幀數能夠達到或者超越60FPS,那就是說咱們能夠放心地享受遊戲帶來的快感,而且打開全部能夠打開的畫質設置。 *超越100FPS的顯卡?或許這是一款怪獸級的顯卡有或者是在一款至關老的遊戲纔會遇到的狀況。

既然針對平臺不一樣,測試項目天然也相去甚遠。三大平臺除了PC追求極致性能外,筆記本和平板都受限於電池和移動因素,性能不是很高,所以以前的3Dmark11雖然有三檔可選,依然不能準確衡量移動設備的真實性能。

獨立顯卡基準性能:3DMark

而此次Futuremark爲移動平臺量身定作了專有測試方案,新一代3DMark三個場景的畫面精細程度以及對配置的要求可謂天差地別。Fire Strike、Cloud Gate、Ice Storm三大場景,他們分別對應當前最熱門的三大類型的電腦——臺式電腦、筆記本電腦和平板電腦。

3D基準性能測試:3DMark

3D基準性能測試:3DMark

 

時至今日依然沒有任何一個測試軟件或者遊戲可以取代3DMark在遊戲玩家心目中的地位,由於3DMark的魅力就在於它所帶來的不只僅是驚豔的畫面,更重要的是向廣大玩家提供了一種權威、系統、公正的衡量顯卡性能的方式。

核芯顯卡基準性能:3DMark 11

3DMark 11的特點與亮點:

一、原生支持DirectX 11:基於原生DX11引擎,全面使用DX11 API的全部新特性,包括曲面細分、計算着色器、多線程。

二、原生支持64bit,保留32bit:原生64位編譯程序,獨立的32位、64位可執行文件,並支持兼容模式。

三、全新測試場景:總計六個測試場景,包括四個圖形測試(實際上是兩個場景)、一個物理測試、一個綜合測試,全面衡量GPU、CPU性能。

四、拋棄PhysX,使用Bullet物理引擎:拋棄封閉的NVIDIA PhysX而改用開源的Bullet專業物理庫,支持碰撞檢測、剛體、軟體,根據ZLib受權協議而無償使用。

3D基準性能測試:3DMark 11

對於現代顯卡測試而言,除了3DMark以外必不可少的項目就是來自俄羅斯的Unigine Heaven(天堂),尤以其高負載、高壓榨而知名。如今,新一代3DMark發佈以後,Unigine也奉上了全新的顯卡測試程序「Valley」(山谷)。

3D基準性能測試:Unigine Valley

Valley正是Heaven的開發團隊一手打造的,能夠在最大程度上榨乾GPU顯卡資源。此次場景來到了一個優美空靈的山谷,羣山環繞,鬱鬱蔥蔥,白雪皚皚,旭日初昇,並且擁有極致的細節,每一片花瓣、每一株小草都清晰可見。

Unigine Valley分爲基礎版、高級版、專業版三個版本,其中基礎版免費,支持測試預設、自定義設置、GPU監視、交互模式,不支持循環測試(也就是拷機模式)、命令行、CSV報告,對於普通用戶和通常評測足夠用了。

3D基準性能測試:Unigine Valley

《孤島危機3》支持大量的高端圖形選項以及高分辨率材質。在遊戲中,PC玩家將能看到一系列的選項,包括了遊戲效果、物品細節、粒子系統、後置處理、着色器、陰影、水體、各向異性過濾、材質分辨率、動態模糊以及天然光。技術主管Marco Corbetta表示之因此《孤島危機2》並不包含這麼多的選項,是由於開發主機板的開發組實在是搞的太慢了。

顯卡遊戲性能測試:《孤島危機3》

顯卡遊戲性能測試:《孤島危機3》

 

Square Enix證明了旗下經典做品《古墓麗影》系列將推出全新做品,官方表示,此次他們將帶領玩家回到勞拉最初的探險中,完總體驗她成爲一名偉大冒險家的精采過程。《古墓麗影9》將講述勞拉的首次冒險之旅,主角勞拉·克勞馥的年齡被設定在21歲,那時的她還只是一名剛出茅廬的新人,經驗欠缺。隨着遊戲劇情的發展,玩家將與勞拉共同成長,得到新的武器和道具並習得新技能。在冒險的小島上,玩家能夠在營地對道具進行組合,有些特定區域就須要特定道具和技能才能經過。島上的各個營地之間能夠快捷傳送,玩家無需長途跋涉。而除了勞拉外還將有其餘角色出如今島上。

獨立顯卡遊戲性能:Tomb Raider 9

回顧以往的做品,勞拉的標誌天然是雙槍,這次這部講述勞拉初次的生存冒險,將會採用弓箭做爲勞拉的標誌武器。在瀕臨日本的海域的一座小島,勞拉除了面對神祕的宗教威脅,還要面對如何生存,譬如拿起弓箭,射殺小動物以覓食,誰說勞拉不是一個謀殺者呢?可爲了生存,弱肉強食只是爲了可以生存。

顯卡遊戲性能測試:《古墓麗影9》

由EA DICE工做室開發的《戰地3》採用了最新的「寒霜2」引擎,完美支持DirectX 11,而且擁有強大的物理效果,最大的亮點仍是光照系統,其渲染的場景已近乎亂真的地步,視覺效果堪稱絕贊。遊戲還支持即時晝夜系統,爲玩家營造一個親臨現場的真實環境。

顯卡遊戲性能測試:《戰地3》

寒霜2引擎最大的特色即是支持大規模的破壞效果。因爲考慮到遊戲的畫面表現以及開發成本,DICE放棄了以只支持DX9的WINDOWS XP操做系統。另外因爲該引擎基於DX11研發,向下兼容DX10,於是遊戲只能運行於WINDOWS VISTA以上的的操做系統。

《戰地3》採用了ANT引擎製做人物的動做效果。在此以前,ANT引擎已在EA Sports旗下的《FIFA》等遊戲中獲得應用,不過在FPS遊戲中使用尚屬首次。相較於Havok等物理引擎,用ANT引擎能夠花費較少的精力製做出逼真的效果。舉例來講,戰士在下蹲時會先低頭俯身、放低槍口,而不是像之前的遊戲那樣頭、身、槍如木偶般同時發生位移。此外,ANT引擎也可讓電腦AI的行動更加合理。但這款大做目前並不能良好的兼容120Hz3D以及紅藍3D模式。

顯卡遊戲性能測試:《戰地3》

遊戲介紹:《地鐵2033》(Metro 2033)是俄羅斯工做室4A Games開發的一款新做,也是DX11遊戲的新成員。該遊戲的核心引擎是號稱自主全新研發的4A Engine,支持當今幾乎全部畫質技術,好比高分辨率紋理、GPU PhysX物理加速、硬件曲面細分、形態學抗鋸齒(MLAA)、並行計算景深、屏幕環境光遮蔽(SSAO)、次表面散射、視差貼圖、物體動態模糊等等。

顯卡遊戲性能測試:《地鐵 2033》

畫面設置:《地鐵2033》雖然支持PhysX,但對CPU軟件加速支持的也很好,所以使用A卡玩遊戲時並不會因PhysX效果而拖累性能。該遊戲因爲加入了太多的尖端技術致使要求很是BT,以致於咱們都不敢開啓抗鋸齒進行測試,只是將遊戲內置的效果調至最高。遊戲自帶Benchmark,這段畫戰鬥場景並非很宏大,但已經讓高端顯卡不堪重負了。

測試說明:若是說是CRYSIS發動了DX10時代的顯卡危機,那地鐵2033無疑是DX11時代的顯卡殺手!地鐵2033幾乎支持當時能夠採用的全部新技術,在畫面雕琢上大肆鋪張,全然不顧顯卡們的感覺,和CRYSIS一模一樣。然而CRYSIS靠着特效的堆積和不錯的優化,其驚豔絕倫的畫面和DX9C遊戲拉開了距離,終究賺足了眼球;而地鐵則沒有這麼好運了,畫面當然不差,BUG倒是不少,招來了大量的非議。

顯卡遊戲性能測試:《地鐵 2033》

《Aliens vs. Predator》同時登錄PC、X360和PS3,其中PC版由於支持DX11裏的細分曲面(Tessellation)、高清環境光遮蔽(HDAO)、計算着色器後期處理、真實陰影等技術而備受關注,是AMD大力推行的遊戲之一,可是這樣的主題不免讓本做有不少不和諧的地方,暴力血腥場面必然不會少!發行商世嘉在2009年11月就曾明志,表示不會爲了經過審查而放棄電子娛樂產品發行商的責任,由於遊戲要維持「異形大戰鐵血戰士」這一中心主題,不管畫面、玩法仍是故事線都不能偏離。

顯卡遊戲性能測試:《異形VS鐵血戰士》

畫面設置AVP原始版本並不支持AA,但升級至1.1版本以後,MSAA選項出如今了DX11加強特效當中,固然還支持Tessellation、HDAO、DirectCompute等招牌。該遊戲要求不算過高,因此筆者直接將特效調至最高進行測試。

顯卡遊戲性能測試:《異形VS鐵血戰士》

《狙擊精英》是2005年Reblion推出的一款以二戰爲背景的狙擊遊戲做品,一經推出後就得到英國獨立遊戲開發者協會的「最佳PC/主機遊戲」大獎,《狙擊精英V2》則是這款做品的續做,據遊戲開發商稱續做繼續秉承了遊戲潛入類狙擊的風格,較初代來講更加註重槍擊後的真實感,「咱們保證,新遊戲將是最真實的二戰狙擊類遊戲。不只僅在武器彈道上,還有在開槍以前那種緊張的氣氛,都會很真實的表現出來。」Rebellion的首席執行官傑森·科林斯雷(Jason Kingsley)如是說。

顯卡遊戲性能測試:《狙擊精英2》

遊戲的畫面在總體上至關的不錯,不管是從總體的質感,仍是畫面的流暢性看都達到了很高的水準,在光源的處理上也很是的到位。同時,遊戲依舊延續了初代精益求精的場景設計的理念,好比城市巷戰地圖中的斷壁殘垣以及黑煙沖天、山洞地圖中充滿着神祕氣息的導彈基地等都給筆者留下了深入的印像。

顯卡遊戲性能測試:《狙擊精英2》

在互聯網時代的今天,網絡日益融入人們的生活,愛網、用網成爲時尚,上網絡玩遊戲成爲青年喜好的娛樂方式之一。軍事遊戲在國外一些軍隊已發展多年、造成體系,並普遍應用於教育、訓練。我軍軍事遊戲目前尚處於起步階段,基層部隊平常娛樂多以小型益智類棋牌遊戲爲主,形式和功能都比較單一。

顯卡遊戲性能測試:《光榮使命》

一些部隊開展網上軍事遊戲對抗,使用的也大都是國外軍事遊戲的漢化版,遊戲內容和體現的價值理念、軍事思想,與我軍有很大差別,長期使用不利於部隊教育訓練,甚至可能誤導官兵。新研發的軍事遊戲《光榮使命》擁有徹底自主知識產權,填補了我軍軍事遊戲的空白。

顯卡遊戲性能測試:《光榮使命》

《孤島驚魂3》繼承着《孤島驚魂》系列的 純種血統 ,融合了系列前做的全部優勢,並有着新鮮的創做路線,不管是《孤島驚魂》系列的老玩家仍是新近加入的新手,均可以享受到它宏大的故事。」

獨立顯卡遊戲性能:《孤島驚魂 3》

在《孤島驚魂3》中,玩家將會扮演Jason Brody。在這個沒有法律、暴力纔是真王道的原始天堂中,玩家將決定整個故事的發展。玩家所做出的選擇,包括與誰戰鬥、與誰結盟都會影響到劇情。在遊戲中,玩家扮演的Jason Brody將在這我的性已經泯滅了的孤島上殺出一條血路。

顯卡遊戲性能測試:《孤島驚魂3》

接下來咱們來看一下這兩款顯卡的待機及滿載的溫度和功耗如何!

GTX750、GTX750Ti超頻及功耗、溫度測試

GTX750、GTX750Ti超頻及功耗、溫度測試

GTX750、GTX750Ti超頻及功耗、溫度測試

GTX750、GTX750Ti超頻及功耗、溫度測試

從上面的測試不難看出,全新架構下的GTX750系列,不只功耗控制的很好,並且溫度也很低,讓人對將來GM系列的核心的表現很是期待。

    下面咱們來看一下GTX750超頻後的表現,雖然公版卡沒有外接6pin供電口,可是因爲自己的功耗很低,所以,簡單的超頻也能知足PCI-E接口的供電需求!

到這裏,本次的測試也告一段落了,若是說公版卡並無發揮出Maxwell架構的徹底之處,那麼咱們彷佛多了一個期待非公版顯卡的表現的理由了,更不用說將來強大的GM110芯片了。從總體上來看,Maxwell帶來的能效比確實有大幅的提高,實在是讓人欣喜。

全文總結:能效翻倍 入門遊戲玩家首選

咱們要看到的是目前的GTX750系列依舊採用28nm工藝來製造,若是說完整版的GM110核心能到20nm製程,想必性能又會有大幅飛昇,對於將來的發展,老是讓人很期待。

全文總結:能效翻倍 入門遊戲玩家首選

截至到發稿時,咱們接到消息,GTX 750Ti的NVIDIA官方訂價爲人民幣999元,而GTX750訂價爲799元,這樣的價格以消費者的角度來講,彷佛並無到神器的地步,不過做爲全新架構的產品上市,價格虛高是業界一向的做風,若是筆者沒有預料錯誤的話,相信在幾個月內會有所下調,那時候非公版產品也全面上市並鋪貨,到時候必定會成爲新一代入門級遊戲利器的。

全文總結:能效翻倍 入門遊戲玩家首選

     再來講一下另外一個狀況,那就是在GTX750系列發佈、上市以前,AMD悄悄的發佈的R7 265,這款顯卡能夠當作是HD7850的馬甲版,至於AMD如此作的緣由除了是統一產品命名以外,更可能是應該仍是感到了來自NV的壓力,將來的競爭將會更加激烈。

全文總結:能效翻倍 入門遊戲玩家首選

 

    最後,出來性能以外,GTX750系列的功耗也成爲了不少消費者關注的重點,特別是網吧業主,一塊節電而性能又不錯的產品相信未來也會成爲很多網吧的標配,再配合NV獨家的GFE軟件,遊戲玩家應該會更加享受將來的體驗,那就和筆者一同起來更多新產品的帶來吧。

相關文章
相關標籤/搜索