格力RTX3080显卡阶梯测评：史诗飞跃

admin

2020-11-19 02:02:41

0次

从目前的游戏生态来看，具有实时光线跟踪屏幕一直是3A的发展方向，是将游戏画面的现实程度提升到一个新的水平的重要技术。它的出发点是第一个支持实时射线跟踪的英伟达图灵架构显卡。此外，有一个简单的方法来实现更好的游戏屏幕是以更高的分辨率运行。经过多年的推广“4K游戏”的概念，图灵显卡最终可以以4分辨率运行大部分3A。

然而，玩家追求更好的游戏屏幕并不是第二选择，如果你想用4K分辨率和实时射线跟踪屏幕顺利运行游戏，图灵显卡仍然有点困难。不可否认，图灵仍然是一个划时代的产品，它是从0到1的飞跃，现在，玩家需要的是从这个基础上起飞，让4K轻追逐游戏从梦想变成现实，成为可能，进入普通人的家园，实现真正的普及，Nvidia的新一代安培（安培）建筑显卡的推出，就是为了完成这一使命。

基于NVIDIA安培结构的A100计算卡

早在5月，当英伟达发布新一代A100加速卡时，即使新一代英伟达安培架构已经出来，我们也知道了英伟达安培架构下最大核心GA100核心的架构图。完整版本的GA100有128组SM，4每组SM与最新的第三代TensorCores，仍然是64CUDACores/SM结构。

完整的GA100有8192个CUDA核和512个第三代TensorCores，因为它是纯计算的核心，没有RT核，可以说是伏尔塔体系结构的直接继承者，面积比GV100核大得多，这是一个7nm的台积电过程。在看到A100加速卡上的新架构后，玩家期待着基于游戏卡的新架构能够尽快推出。

在2020年9月2日上午，NVIDIA终于推出了期待已久的新一代GeForceRTX30显卡，其中第一款有三种型号，即RTX3090、RTX3080和RTX3070，第一款被上市，即第一个见到玩家的是RTX3080

同时，安培GPU在游戏卡方向的面纱也被揭开，虽然它也是基于NVIDIA安培体系结构，但游戏卡和专业卡的NVIDIA安培体系结构与计算卡上方的NVIDIA安培体系结构(即先前发布的A100)有很大的不同)。只有部分功能共享。接下来，我们看看游戏导向的安培架构，然后通过第一个RTX3080，看看新一代的GeForRTX30系列显卡能给我们带来什么惊喜。

英伟达安培架构解析

RTX 30系游戏显卡中最大的核心：GA102核心

NVIDIA名称的安培核心继续其传统，使用GA前缀，A的意思是安培，以纪念安德烈-玛丽安培，谁发现安培定律。字母后面三个数字代表核心级别，GA100是卡的核心，游戏卡/专业卡是使用GA102和GA104等核心。在发布的前三张RTX30显卡中，有两张RTX3080和RTX3090显卡使用GA102核心，它是NVIDIA安培最大的游戏分支体系结构，也是最完整的安培游戏核心。

GA102核心面积高达628mm2，使用三星为NVIDIA定制的8nm工艺打造，集成有280亿个晶体管。单从晶体管数量上我们已经可以感受到这颗核心在规模上膨胀了不少（TU102为186亿个）。将NVIDIA的三代最大规模的GPU放在一起对比，可以发现Samsung 8N工艺在晶体管密度这一指标上较上代使用的TSMC 12FFN工艺有较大的提升。

NVIDIA给出了GA102核心（上面）的完整示意图，它遵循GPC-TPC-SM层次结构，从NVIDIA Pascal体系结构开始，7个GPC，每组GPC由6个TPC组成，组两组SM。每组TPC，所以一个完整的GA102核心有84个SM单元。再次，让我们将其与上一代最大的核心——TU102进行比较。

我们可以清楚地看到GA102多一套GPC，从图中可以看到，即SM单元比TU102多12个，如果SM单元变化不大，那么它是第六个，GA102的完整版本应该有10752FP32ALU(CUDA核心)。此外，我们还可以看到新的安培GPU支持PCIe4.0总线，速率为16GT/s，在x16宽度约31.5GB/s的数据可以每秒传输。当然，GA102的完整版本仍然支持GPU互连技术的NVIDIA专用——NVLink，就像A100卡一样，GA102核心的NVLink已经得到了显著的升级，现在它是一个四x4排列，而不是原来的八x2，也就是说，可以连接更多的GPU。

看宏观层面GA102，我们进入NVIDIA GPU最小计算组——SM单元，看看SM单元给我们带来了什么。

2倍性能的第二代RTX SM

在2018年8月，当NVIDIA引入RTX20系列显卡时，实时射线跟踪和AI计算被引入GPU，其SM单元可以说发生了翻天覆地的变化。 NVIDIA NVIDIA安培结构的重点是提高整个SM的性能，虽然结构变化不大，但SM单元的性能不再相同。有三个主要的推广，重新使用FP32单元进行传统的图形计算，引入第二代RT核心和第三代Tensor核心。

NVIDIA安培架构SM的性能是图灵架构的两倍

GA100SM（左）对比GA102SM（右）

双倍的FP32单元，双倍的快乐

在NVIDIA图灵体系结构之上，NVIDIA引入了数据类型计算的概念，将整数(INT32)和单精度浮点(FP32)两种不同的数据类型赋予两种不同的ALU进行计算，大大提高了SM单元的并行计算效率。但FP32，是现代游戏中最常用的一种，即计算单精度浮点型，INT32ALU的使用率低于FP32ALU。为了提高计算效率，NVIDIA引入了新的ALU，它可以支持INT32和FP32数据类型替换ALU。最初支持INT32计算，也就是说，现在有两个不同的数据路径(Datapath)，一个浮点能够处理整数或单个精度，另一个只能处理单精度浮点计算。

一个SM单元被分成四个较小的块，每个块都有自己的调度程序和寄存器，提供16个INT32ALU和16个FP32ALU，整个SM单元可以同时处理64个INT32计算指令和64个FP32计算指令。在安培上，变成128FP32计算指令或64INT32计算指令和64FP32计算指令。当涉及到基于FP32的图形时，它的计算吞吐量可以增加到原来的两倍。

NVIDIA还更新了CUDA核心计数方法，现在使用FP32ALU作为CUDA核心，因此在NVIDIA安培体系结构中，每单位CUDA核心的数量增加了一倍，达到128个。

为了保证NVIDIA扩展计算单元的规模，对每个SM的缓存系统进行了改进。安培SM的共享缓存/L1数据缓存容量从96KB增加到128KB。同时，它的带宽比原来大了一倍，容量带宽增加了一倍。

第二代RT Core带来光追效率的显著提升

NVIDIA首先引入了加速RT核心。对于NVIDIA图灵体系结构中的实时射线跟踪操作，在执行实时射线跟踪相关计算时，基于SIMD的现代CUDA核心效率太低，无法计算光和物体的碰撞点。相反，基于MIMD体系结构的特定目的计算模块效率更高。 NVIDIA RT核心是一种用于加速实时射线追踪计算的专用硬件单元。

安培GPU上的RT核主要增加对动态模糊的加速运算支持。在非照片跟踪的情况下，动态模糊往往只应用于后处理滤波器，其效果不真实。在实时追光条件下，通过实时计算物体与光的相互作用产生动态模糊，其操作非常复杂，甚至图灵上方的RTCore也难以携带。在NVIDIA安培体系结构中，将NVIDIA设计的插值算法添加到第二代RT核中，在保证动态模糊精度的同时，提高了这种情况下的实时射线跟踪效率。官方上，它可以达到上一代的8倍速度。此外，在BVH计算的基础上，新一代RTCore也可以提高两倍的速度。

第三代Tensor Core让AI性能出现飞跃

从NVIDIA Volta体系结构出发，NVIDIA引入AI计算优化TensorCore，进入SM单元，这些张量计算单元可以提高显卡在机器学习计算中的效率。 NVIDIA安培架构，TensorCore已经发展到第三代，新的第三代TensorCore，已经在以前发布的A100卡上使用，它可以提供比第二代TensorCore四倍的效率。但是卡上的TensorCore被精简了，其FP16FMA计算的吞吐量仅为GA100核心中TensorCore的一半。

第三代TensorCore除了提高效率外，还为稀疏矩阵的操作提供了支持，详细的介绍可以在我们之前对计算卡NVIDIA安培体系结构的方向分析中看到：“NVIDIA新一代安培体系结构的简单解释：一种修改和革命性的体系结构升级“。总的来说，即使面向游戏的NVIDIA安培体系结构将每个SM的TensorCore的数量从8减少到4，它的整体有效性仍然大大提高。

又进一大步的DLSS 8K

新的TensorCore强大的AI功率将有助于DLSS，今年早些时候，NVIDIA开始全面推广DLSS2.0技术，与DLSS相比，第一代DLSS2.0在画面质量和渲染效率上都有了很大的提高，不再是鸡肋功能，而是可以有效地让中端显卡在3A的大规模工作中拿出4K60这样的性能。安培GPU没有带来“DLSS3.0”的更新，但它仍然是一个进步——DLSS8K，技术顾名思义，这是一个新版本的DLSS。通过深度学习将图像分辨率扩展到8K

虽然NVIDIA不使用DLSS3.0名称，但DLSS8K仍有一些技术突破，具体来说，它将使用1440p分辨率的实际渲染图像来导出8幅分辨率输出图像，像素数跨越9次(2560x1440=

并行程度更高的渲染管线

将不同类型的计算带到不同的单元是自NVIDIA Volta体系结构以来采用的一种思想，当时TensorCore引入了许多与AI相关的操作。随后的RT核转移实时射线跟踪相关计算。所以它们可以并行执行？是的，但并非所有操作都可以并行执行。

图灵GPURTCore和TensorCore在打开实时追光和DLSS时不并行工作，如上图所示，要调用的时间点接近整个渲染过程的结束，不会与RTCore同时运行。

在NVIDIA安培体系结构中，NVIDIA提高了GPU内部各单元之间的并行性。现在传统计算单元的三个单元RT核和TensorCore可以同时工作，并在原有的基础上继续缩短帧渲染时间。

GDDR6X显存让带宽起飞

我们知道GPU非常依赖缓存，不仅GPU内部的各种缓存系统，而且对用作“仓库”的外部内存系统也有很高的要求“。 GPU不仅需要更大的内存来存储各种渲染材料，而且需要更大的带宽来实现更快的数据读取。由于最早的3D加速卡在路上，内存比传统的DDR内存从使用GDDR2快得多，这与传统的GDDR3、GDDR5没有区别，然后使用为超高带宽HBM设计的类型替换和升级，。

在2018年，NVIDIA首次将GDDR6内存应用于图灵显卡，当时GDDR6内存可以提供比疲劳GDDR5更高的带宽，也让GDDR5X黯然失色。但在RTX30系统显卡的核心尺寸爆炸，而旧的GDDR6是不够的，所以NVIDIA携手，推出了GDDR6升级版本——GDDR6X显示。不要用X后缀来看待它，但它在底层信号传输中有一个非常显著的变化，GDDR系列的显示带宽首次被推到1TB/s。

GDDR6X存储器的一个主要变化是其信号传输机制。原始GDDR系统存储器使用非常原始的二进制信号。更具体地说，系列内存使用NRZ(Non-Return-to-Zero)调制，这是非常简单的。表示1为高电平，0为低电平。如果你想增加它的数据带宽，那么提高内存时钟频率。但现在由于工艺技术等因素的影响，表观时钟频率在这个阶段很难爬升，那么应该怎么做呢？在提出了一种新的信号调制机制来提高信号传输效率后，制造商选择了广泛的PAM4。

PAM是一种用模拟信号脉冲编码信息的信号调制方式，PAM4是一种比较简单的调制方式。与只有高低两种状态的NRZ二进制信号不同，PAM4有四种不同的电平值，即有四种不同的状态，每个状态对应于0和1的组合，即每个状态对应2位数据量，NRZ加倍。

因此，如果它有点模糊，您可以将PAM4信号与MLC闪存进行比较。我们知道MLC闪存的每个单元都可以存储2位数据。在电信号电平下，它表现为四个不同的电平，每个电平之间有一个固定的间隔。主控在读写时按固定规则转换数据和电信号。

所以GDDR6X相同，根据NVIDIA发布的信息，有GDDR6X四个不同电平信号，每个电平信号之间的电压差为mV。 250此外，还引入了NVIDIA MTA编码，以减少损失，确保稳定性。

在GA102应用的RTX3090和RTX3080上，使用GDDR6X内存，RTX3080内存带宽为760GB/s，RTX3090.936GB/s，接近1000。

支持HDMI 2.1输出和AV1解码

至于视频编解码器和视频输出，安培也紧跟时代潮流升级。一是加入支持近期热点HDMI2.1，接口主要是8K输出作为噱头，可以更好的匹配新一代8电视。我们之前对HDMI2.1做了一个简单的介绍，感兴趣的可以阅读：有问题和答案：除了更高的带宽，HDMI2.1还有什么新东西需要注意？ i.

安培在视频编码和解码中仍然使用图灵NVENC单元，没有任何改进。然而，视频解码单元已经升级，以支持AV1硬件解码，因为它比老虎湖当天更早发布，使其成为第一个支持硬件解码的GPU(Xe也支持)，最多8K60。关于AV1视频编码的视频规范，我们在上一篇文章中有一个简单的介绍，见：超级类（220）：数字视频编码的发展。

不过很遗憾的是，Ampere GPU似乎是完全砍掉了对USB-C的支持，这其中有部分原因是VirtualLink联盟的各大成员已经放弃采用该协议。对AIC来说，在显卡上少设计一个USB-C接口也能够节省一定的成本。

GPU与SSD间的VIP通道RTX IO

通过多年的推广，SSD已成为PC用户的首选。对于游戏应用，SSD可以直接提高游戏的加载速度，减少玩家的等待时间。索尼和微软还在下一代主机上推出了高性能的NVMe SSD。不仅如此，他们还在软件层面进行了创新，以更好地利用SSD的各个方面。微软的直接存储API允许游戏更自由地读取他们需要的数据。

许多操作系统由于历史问题和兼容性要求，为软件提供了几十年的存储API，而传统的HDD没有优化SSD存储介质。的特点，SSD多线程读写，4K高的随机性能和高的连续读写速度没有得到很好的利用，即系统软件现在在一定程度上限制了游戏的发展。

现在，例如，当游戏加载时，存储在HDD/SSD上的数据被读取到内存中，如果它是与图形计算相关的资源，则通过PCIe总线传递给显卡写入内存。但是对于GPU来说，它需要的资源绕过CPU，产生不必要的开销，增加了数据读取的时间和延迟。

目前PC架构的理想模式是GPU直接从SSD读取数据，但是之前系统没有打开相关接口，硬件做不到。现在DirectStorageAPI，未来的Windows将提供一个直接读取SSD数据的硬件接口，游戏开发人员将对数据加载有更强的控制。

NVIDIA还适时引入了RTX IO技术。简单地说，它是一种允许GPU直接读取SSD数据的技术。如果开发人员选择使用它RTXIO，那么当游戏加载时，所需的数据不会被绕过CPU，而是直接获取并写入内存。 RTX IO将以“插件”的形式与直接存储API集成“。此外，它还将提供基于GPU的硬件解压能力。说到压缩材料，它可以显著降低CPU的占用率。使数据加载更加高效。

请注意，由于RTXIO需要依赖WindowsDirectStorageAPI，而游戏开发人员要做有针对性的优化，所以要到明年才能看到这项技术的具体应用。

RTX 3080公版显卡产品解析

第一个安培卡有三个，RTX3090，RTX3080和RTX3070，第一个和我们见面的是RTX3080。

RTX 3080公版显卡规格

接下来，我们看看RTX3080的规格。除了前面提到的更先进的三星8N技术，即使RTX3080GA102核心晶体管的数量飙升到280亿，也比上一代的旗舰RTX2080Ti增加了近100亿。但核心面积较小，628平方毫米。与上一代的RTX2080和RTX2080SUPER相比，晶体管的数量增加了一倍以上，增长非常明显。

这一代Nvidia安培体系结构仍然使用将特定组的CUDA单元、RT核、Tensor核心封装成SM单元，然后将某个组的SM单元封装成这样的层次结构。最后，几组GPC单元和其他硬件部件，如内部缓存，形成了我们看到的GPU核心。

与前几代的RTX2080和RTX2080SUPER一样，RTX3080也有六个GPC，但每个GPC不包含八个SM单元，如RTX2080和RTX2080SUPER，但与RTX2080Ti一样，每个GPC中有12组SM单元。和RTX2080Ti一样，所有六个GPC都没有满血，其中两个GPCSM单元只启用了10个，因此RTX3080有68个SM单元，作为最后一个旗舰RTX2080Ti。

具体来说，在SM单元中，CUDA单元和安培产生的每个单元的传感器核心与以前的图灵相比发生了变化。 NVIDIA引入了新的ALU，它可以同时支持INT32和FP32数据类型来取代原来只支持INT32计算的数据类型。面对FP32类数据的操作，这部分数据也可以参与操作。所以处理FP32数据的效率是上一代的两倍。

现代游戏应用中最常见的数据类型是FP32，您可以简单地理解，在调用CUDA单元执行操作的情况下，对于每个SM单元，安培的效率是以前图灵的两倍。因此，在计算FP32ALU作为CUDA核心的方式中，当前安培包含的CUDA单元是上一代的两倍，即每个SM单元有128个CUDA单元。 RTX3080与68组SM机组共有8704组CUDA机组。

传感器核心，现在Nvidia安培架构是第三代Tensor核心，相比上一代图灵的第二代Tensor核心有了巨大的提升，Nvidia安培架构将把每台Tensor核心数量从8个减少到4个，共有68组SM单元，总共272个Tensor核心，得益于效率的巨大提升，虽然数量有所下降，但这部分性能仍在提升。

关于加速实时射线追踪处理的RT核方面，它仍然是每个SM单元中的RT核，总共68个RT核是RTX3080，有68套单元。但英伟达安培架构的RTX3080是第三代RT的核心，因此与前一代相比，同样的性能得到了提高。

而RTX3080的频率仍然不超过2GHz，毕竟频率的设置必须考虑到热量，而且它们不是线性关系，在一定频率之后，频率的轻微增加会带来热量的巨大增加，非常不经济。然而，与RTX2080Ti相比，RTX3080的晶体管远远超过RTX2080Ti，但由于更先进的三星8N工艺，频率仍然更高。

存储器RTX3080是第一个使用最先进的GDDR6X存储器的显卡。数据速率GDDR6X内存可以达到最高的19Gbps，历史上有320位宽度。内存带宽已达到760.3GB/s，也远远超出RTX2080和RTX2080SUPER。同样水平的定位

表观存储容量RTX308010GB，与其他巨大增长相比似乎相对较小，但这是基于定价考虑。内存容量越大越好，但会导致成本增加。这一代RTX30显卡，在带来巨大性能提升的同时，努力保持与前一代相同的定价。所以RTX3080选择装备10GB内存这样的体积，即足以满足其定位游戏的需要，也可以将价格控制在玩家可接受的范围内。

接口的明显变化是RTX3080取消了USB-C接口，电源接口采用最新的12Pin电源接口。请注意，虽然两代显卡只配备了一个HDMI接口，但RTX3080HDMI接口为2.1版，带宽增加2.67倍，最大10K分辨率显示输出。而金手指部分也得到了改进，以支持PCI-E4.0，与前一代相比带宽增加了一倍。

最后是功耗，RTX3080的功耗增加还是很明显的，TGP达到了320W，远远高于RTX2080Ti，推荐的电源也达到了750W的新高。英威的创始人版本的RTX3080仍然达到了双槽形状，但这可能是长期以来唯一的双槽RTX3080显卡。从目前非公的情况来看，几乎是三槽形状相同。个人希望非公开的后续行动推出双槽RTX3080，但即使这样做，看起来也需要一些时间。

RTX 3080公版卡设计：创新的双轴流推挽式散热

在RTX3080的公开版出现之前，我们的开箱视频已经对其进行了介绍和评论，这一代的公开卡与历代的公开版相比发生了很大的变化。前面只能看到一个导风扇，然后几乎所有的其他部分都是裸露的热翅片，但由于工作的精湛，后面仍然有一个精细的金属背板。后面还有一个风扇。

新型散热设计

除了外观好外，大众牌在散热设计上一直很周到，只是近几代，经历过涡轮风扇散热，前代“燃气灶”形的两轴风扇散热，再进化到这一代，英伟为此创新的散热设计命名为双轴流量推拉风扇散热设计。

现在这种散热方案有涡轮散热和轴流风机散热的阴影，但不同。涡轮散热我们知道，是直接通过齿轮板将显卡的余热排出底盘的地方，它的优点是余热不会放入底盘，相对来说，选择底盘对显卡散热的影响很小。

在这张RTX3080卡上，我们可以看到前面有一个轴流风机，虽然它是轴流风机，但经过特殊的风道设计，轴流风机吸入冷空气并将余热排出底盘，就像涡轮散热一样。所以它具有涡轮散热的优点——减少余热停留在底盘，尽快。因为没有完全依靠这个风扇散热，所以风扇的转速不需要太大，没有噪音的麻烦。

另一个风扇在显卡背面，也是一个轴流风扇，可以通过位置看到，它不是以前的显卡轴流风扇安装在卡的前面，吹冷风到散热翅片的设计，而是通过排风通过后风扇排出底盘，这样可以更好地引导余热到风扇风道，避免底盘风道的混乱，使内部系统散热效率优于上排气风扇轴流风扇，当然，这种方式会对CPU散热产生一定的影响。

上图为官方给出的RTX 30系列显卡风流模拟图，关于这一部分，我们会在此文之后作出更详尽的测试，来探寻这种散热设计对整体机箱散热体系的影响。

新的供电接口

另一种创新设计是电源接口的设计。如今，高端显卡一般需要传统的双8Pin电源设计，而传统的双8Pin电源接口确实有一定的体积。这阻碍了基于性能的技术产品小型化的进展。所以英伟达设计了一个新的12Pin电源接口，比标准的PCIe电源接口小，但可以携带更大的电流，即可以获得更大的外部电源瓦特。

由于PC电源没有及时跟上新方案，公用卡上还附带了一条转接线，将标准PCIe电源接口转换成新的12Pin电源接口。

不易察觉的接口变化

其他接口变化不如新电源接口变化明显。一是RTX3080公卡取消USB-C接口，现在只有3个DP接口和1个HDMI接口。这应该对大多数玩家没有影响，毕竟上一代的RTX2080很多这些非公卡没有USB-C接口，不影响大多数玩家的显卡选择。

第二，虽然都是HDMI接口，但RTX3080卡上的HDMI接口是2.1标准的，可以支持8甚至10K30FPS的视频输出。只有一根线可以实现8K60FPS的视频输出，不像两条DP或四条HDMI线。

最后是PCIE接口的显卡升级，支持PCIE4.0，可以提供更高的带宽。对于后期RTXIO的应用和推广更重要，可以最大限度地减少系统带宽瓶颈。

性能测试

由于RTX3080支持PCIE4.0，为了鼓励整个行业走向更新的界面，我们选择了AMD平台进行第一次评估。为了尽量减少其他硬件的瓶颈，选择了一套适合游戏的高端平台。

考虑到家里还有很多玩法是Intel平台，不支持PCIE4.0，会好奇RTX3080这个性能到PCIE3.0新的高水平显卡会不会完全性能？因此，我们还进行了对比测试，结果表明，即使RTX3080在PCIE3.0和PCIE4.0中的游戏性能也没有差异。

测试平台

本次首次测评对比显卡包括：RTX2080公版，RTX2080SUPER公版，RTX2080Ti公版卡和AMD阵营的RX5700XT公版卡。操作系统为最新版本2004，系统电源选项为高性能模式，在BIOS中打开XMP，让内存以3600频率运行，其他方面不做太大改动，全部使用默认设置。

基准性能测试：平均相比RTX 2080提升70%

我们以3DMark作为显卡基准性能测试，测试项目包括Fire Strike、Fire Strike Extreme、Fire Strike Ultra、Time Spy、Time Spy Extreme以及Port Royal六个项目。其中Fire Strike、Fire Strike Extreme、Fire Strike Ultra三个项目分别测试的是显卡在DX11游戏中的1080p分辨率、2K分辨率和4K分辨率下的性能指数，Time Spy、Time Spy Extreme两个项目则是显卡在DX12游戏中的2K分辨率和4K分辨率下的性能指数，Port Royal是测试的显卡实时光线追踪的性能指数，具体成绩见下表，表中所列成绩均为3DMark显卡单项的得分。

可以看到，以上一代的RTX2080作为标杆，使用新的英伟达安培架构RTX3080确实性能激增。由于RTX3080主要面向4K游戏环境，我们主要集中在火击超和时间间谍极端两个子项目的性能比较。我们可以看到，RTX3080比上一代旗舰RTX2080Ti高出70%左右。

光学跟踪性能为RTX3080与RTX2080Ti相同，有68个RT核用于加速射线跟踪渲染，但由于RTX3080是第三代的RT核，射线跟踪性能也有所提高，测试结果比RTX2080Ti高27。

在AMD方面，虽然性能RX5700XT在AMD阵营中不是最高的，但RadeonVII架构太旧了，而Navi显卡的新架构目前最高的是RX5700XT。 RX5700XT真的很难叫到高端卡，它自己的官方宣传也是为了2K分辨率的游戏环境，性能也远远没有RTX2080的N卡，面对RTX3080完全不同于数量级，更不支持实时射线跟踪技术。

总之，AMD迫切需要想出新的高端卡来与英伟达竞争，否则高端显卡的玩家可能会忘记AMD的存在。而且不仅要打造高性能，更要支持新一代的实时射线跟踪技术，毕竟从目前的游戏环境来看，这项技术是下一步提高游戏现实带来更好的游戏体验的最重要技术。

4K分辨率游戏实测

由于RTX3080位于，在单机的实际部分只测试了4K的分辨率。由于对比RX5700XT不支持实时射线跟踪，所以将十几个游戏测试分为两组。设置为传统栅格化游戏画面（即无灯光跟踪效果）并开启实时灯光跟踪游戏画面测试。

传统光栅化游戏测试：相比RTX 2080提升50%

传统栅格化游戏画面测试此部分将游戏画面质量设置为预设中的最高画面质量设置(“Metro：leave”选择Ultra图片质量)，默认不是全屏手动设置为全屏，默认是垂直同步手动关闭垂直同步，另外其他选项都是默认设置，使用游戏自己的Benchmark输出结果。

通过以上11款游戏在传统栅格化游戏画面下的性能测试对比，可以看出游戏帧数平均比RTX3080，RTX2080增加了50。即使在著名的“众生平等”游戏的刺客信条：奥德赛，RTX3080可以增加42.5%，而在“没有上帝的土地3”增加多达80%，这是一个相当大的增长。

在上一代图灵显卡的时候，英伟达的目标是让游戏以4K的极其精致的画面顺利运行，从发布的结果来看，英伟达做到了。但是游戏开发商总是会不断推出新的游戏，带来更好的图片，所以在图灵显卡的下半年，有玩家不断地说“要玩4K可以看看下一代显卡如何“。

现在看来是真的，即使面对“无地3”，“地铁：离开”在最高质量的新游戏中，RTX3080可以在4K分辨率下实现平稳运行，RTX3080证明了游戏体验可以完全提前到4。

虽然游戏测试没有理论测试的70%高，但客观上说，对于高端显卡来说，这一增长是非常大的，因为高端显卡是站在很高的基础上的，上一代RTX2080Ti相对GTX1080Ti只有27。

在AMD方面，RX5700XT只有帧性能的一半，用RX5700XT运行4K真的有点困难，或者期待AMD早期的新显卡。

实时光追游戏测试：畅玩4K光追

而Chase游戏的测试部分RX5700XT什么也没有，而且，为了更简洁地说明和反映Nvidia安培架构使用的RTX3080显卡在光跟踪性能和DLSS效率上与前一代Nvidia图灵架构相比，这里只对最后一代旗舰RTX2080Ti进行了比较。一些被测试的游戏仍然使用预设的顶级质量（“地铁：离开”选择超质量），光跟踪效果的选项是开放的“高”设置，打开DLSS测试选项是可选的DLSS性能设置。明亮内存和边框都是独立的基准测试结果。

以4K分辨率和游戏上设定的最高画面质量，也需要体验高质量的实时光线跟踪，即使最后一代船RTX2080Ti打开（除了古墓丽影：阴影和德国总部：新血)也很难实现）。有了第二代RT核和第三代Tensor核RTX3080，4K就有可能顺利运行。

该“边框”游戏充满了光跟踪屏幕的标杆测试，RTX2080显卡只能打开光追逐，只有11帧，游戏屏幕看起来像一张幻灯片，但RTX3080可以实现近30帧的平滑通过线，并在打开DLSS后，可以算作更流畅的操作。

由于RTX2080Ti和RTX3080具有相同数量的RT核，不同的是，一个是第一代的核心RT，另一个是第二代的核心RT。光追光后的游戏帧数RTX3080高于RTX2080Ti，这意味着在同一时间RTX3080更多帧的光跟踪渲染计算。虽然RTX3080的传统光栅化性能也高于RTX2080Ti，但我们知道，传统的光栅化性能很难通过使用以前的Nvidia Pascal体系结构和Nvidia图灵体系结构来提高光学追逐游戏的帧数。主要依靠RT核进行射线跟踪加速度计算。

其中RTX3080追光比例RTX2080Ti追光推广占比不小，主要靠RT芯加快计算，RTX3080用相同数量的RT芯实现这样的推广，是第二代核心的进步。而同一游戏中帧数的增加只显示了第二代RT核心效率的最低值，毕竟最终的帧数也受到非光学跟踪效果操作的限制。

然后我们看看用于DLSS的Tensor核心。对于DLSS，同一代传感器核心对于不同的帧是不同的。原始帧数越高，需要进行的AI操作越大。所以随着原有帧数的增加，增加的幅度会越来越小。

我们看“亮内存”测试结果，原来的15帧RTX2080Ti打开DLSS增加了160%的帧数，但原来的帧高RTX3080打开，但增加了171个。此外，RTX3080中的Tensor核数仅为RTX2080Ti的一半，第三代的Tensor核数是第三代与第二代相比核心效率提高的一个很大体现。

电竞游戏方向

除了一个其他的电子竞技游戏方向，高帧率，除了三大方向，高分辨率，导致极端的图片体验。他们通常选择降低分辨率，甚至降低图片质量，以获得更高数量的帧。为了尽量减少系统延迟，英伟达还发布了带有RTX30显卡的NVIDIA反射技术。

该NVIDIA反射分为两部分，一部分是硬件，另一部分是软件。硬件部分称为反射延迟分析仪，是直接预装在Nvidia认证的部分高端显示器中，可以用来测量玩家从点击鼠标到屏幕之间的时差变化，即整个系统的所有延迟。

NVIDIA反射SDK。是软件部分，由于NVIDIA反射SDK减少和测量渲染延迟，开发人员可以直接集成到游戏中。打开其低延迟模式后，CPU可以与显卡同步，大大减少渲染序列，从而减少渲染延迟。

对于RTX3080在这个方向的性能，点击这个链接阅读我们的独立文章。

超频性能测试：约为7%

将功率和温度限制解锁到最大值，经过大量的手动超频后，RTX3080最终以1.5Gbps的速度完成120个核心频率GDDR6X的超频。在这种状态下，该RTX3080公用卡可以成功地通过3DMark模拟4KDX12游戏时间间谍极端项目测试和最高分，该RTX3080卡的升压频率为MHz，1830显示内存等效频率20.5Gbps。超频状态下运行3个DMarkTimeSpy Extreme项目的RTX3080公用卡的显卡分数与静音频率状态下的显卡分数的比较如下表所示。

随着英伟达的GPU Boost技术推出后，显卡实际运行的时候都会在功耗上限和温度上限范围内自动往更高的频率上跑，并且上一代图灵显卡的时候GPU Boost已经来到4.0版本，可以更加智能和极限释放显卡的最大性能。并且由于各型号出厂的时候其频率设定已经在性能功耗曲线偏上的位置，即使解锁功耗上限和温度上限，在这点上限的空间增加之内，性能也不会有较大的提升。

所以我们也看到，目前一代显卡不会有很多超频空间，RTX3080一样，极限超频大概只有7%左右的能耗比和智能GPU Boost技术在显卡运行时，作者不建议玩家手动超频显卡。

温度测试

我们的显卡散热测试均在裸机状态（如果安装在机箱内，GPU温度会高出5℃左右）下进行测试，测试环境温度约为26.2℃。待机温度是开机以后记录10分钟，满载温度则是完成3DMark Fire Strike压力测试后记录下，数据通过GPU-Z的Log to File功能记录，以下为温度测试曲线。（针对于RTX 3080这种特殊的散热设计，我们后续会进行详细的装箱等不同环境下的测试，受于篇幅所限，并未加入到此次首发文章，读者可以留意我站后续的评测文章）

待机温度看着是RTX 3080要比RTX 20系的几张显卡要高，但是其实RTX 20系的几张显卡即使待机时风扇也是不停转的，而RTX 3080待机时风扇停转，所以显得待机温度会高一些，但是都在30摄氏度左右，都算很清凉了。

满载温度方面，RTX 3080最高也仅到77摄氏度，与几张对比显卡的差距最多也只有2摄氏度，单看温度的话可以认为几乎在一个水准。不过RTX 3080的TGP为320W，比其他几个要高不少，更高的功耗意味着更大的发热，所以这个满载温度表现说明RTX 3080的散热设计确实很厉害。

此外，在裸机平台RTX3080上可以显著感知噪声，满载时的噪声明显低于几个对比卡。

功耗测试

通过我们的专用功耗测试仪器，可以准确测量外部电源接口PCI-E、显卡的瓦特。在压力测试的3DMark火击中得到显卡的最大功耗。待机功率记录后进入系统1分钟取平均值。

待机功耗方面，RTX 2080、RTX 2080 SUPER、RTX 2080 Ti、RTX 3080和RX 5700XT的待机功耗均值依次为15.4、17.2、20.6、21.6、18.0，具有更多晶体管的RTX 3080相对来说待机功耗还是要高一点点。

满载功耗方面，RTX 2080、RTX 2080 SUPER、RTX 2080 Ti、RTX 3080和RX 5700XT的满载功耗均值依次为235、244、273、331、220，RTX 3080实测的满载功耗略超过标称的320W，并且其瞬时功耗最高到过415W，考虑到CPU等其他硬件的功耗，一个750W的电源确实是打底的了，预算充裕的话搭配更高规格的电源也是更好的。

此外，英伟达还给我们提供了唯一的显卡专用功率测试工具PCAT，原理与我们一直使用的特殊显卡功率测试仪器相同。对PCAT这个仪器感兴趣的读者可以点击这个跳转连接来阅读我们的详细体验文章。

总结：史诗级飞跃，让4K光追真正普及

首先，NVIDIA安培体系结构，似乎AMD没有将专业计算市场与游戏市场分开，NVIDIA仍然对他们的GPU体系结构有一个统一的名称，然而，这两个方向的体系结构在内部仍然有很大的不同。从帕斯卡开始，NVIDIA将他们的GPU体系结构分为两种类型：计算体系结构和图形体系结构，通过Volta和图灵的分离，现在在这一代安培上合并。但是整体的发展趋势还是很明显的——卡片拥有完整的双精度计算单元，拥有更大的缓存系统和更快的内存系统；显卡是一种强大的单精度计算能力，同时拥有RTCore，认为计算卡不具备在游戏或渲染应用中加速射线追踪计算的能力。

显卡迷你梯列表（全图形卡梯列表）

在新技术的帮助下，这一代NVIDIA安培结构大大提高了其图形计算能力。 FP32吞吐量的激增可以为传统游戏应用程序和渲染应用程序提供大量的性能增益。新一代RTCore和TensorCore是NVIDIA独特的实时光跟踪支持和AI计算能力插入更宽的机翼。毫无疑问，NVIDIA目前是PC游戏图形市场的领导者，只有它自己才能在短时间内超越它。这种新的安培GPU显示NVIDIA强度在堆性能。虽然两年后推出的新建筑并没有图灵那么创新，但其性能

英伟达 GPU 阿兰·图灵三星集团技术台湾积体电路制造公司 Pascal

上一篇：原神：这场4.9的比赛有多糟糕？

下一篇： 任天堂首次承认新的主机！迷你脸到明天