终于到了GeForce RTX 4090性能测试解禁的日子,这款NVIDIA新一代GPU采用了全新的Ada Lovelace架构并且用上了先进的TSMC 4N NVIDIA定制工艺,在架构设计和制程工艺上都迎来了巨大的飞跃。而惊喜还不止于此,此次与GeForce RTX 4090一起推出的还有新一代的DLSS 3技术,在游戏流畅度、系统延迟和画面质量上全方位提升游戏体验。
那么GeForce RTX 4090的性能提升是否真如发布会所描述的那样巨大?实际的游戏画面又能达到什么样的水平呢?巨大的散热器可以给GPU核心的温度控制在什么程度呢?这些问题,本篇内容将一一为你解答。
我们也准备了RTX 4090显卡的视频版评测,希望大家也能喜欢:
Ada Lovelace架构的创新大体上可以分为三个板块,分别是带来了新的全景光线追踪、着色器执行重排序(SER)和DLSS 3,这是一个大致的认识,而这些还可以往下细分,比如新的全景光线追踪的实现就包含有新的RT核心、更多的着色器以及新的Tensor核心,而DLSS 3更是一系列技术的结合。
全景光线追踪游戏画面
全景光线追踪,从名字就能看出来它对于光线追踪的计算要求有了巨大的提高,拿《赛博朋克2077》来说,NVIDIA发布会演示的《赛博朋克2077》是将要发布的最新版,添加了"Overdrive"这一究极画质模式,大家可以欣赏一下这个画质下的画面魅力。
对比的话会更加明显,以《逆水寒》为例可以看到现在的全景光线追踪相对比没有光线追踪的画面观感,明显让游戏体验上升好几个档次。
全景光线追踪通过Path Tracing追踪场景中的每一个像素上的光照信息,提供像素级完美的阴影、令人惊叹的反射和之前看不到的水面折射,在《逆水寒》拂云庭场景中提供令人难以置信、如照片般逼真的细节,昼夜都有自然的全局光照,由 NVIDIA 基于储层的时空重要性重采样全局光照 (ReSTIR GI) 构建,光线准确无误。
表面和纹理拥有令人惊叹的基于物理效果的细节,可确保这些效果能够以自然、逼真的方式交互,从而增强画质和沉浸感。为了对光线追踪结果进行降噪,《逆水寒》利用了 NVIDIA Real Time Denoiser (NRD)。
而要实现这样的画面表现,这个画质模式下游戏画面的每个像素会执行约635次光线追踪计算来确定光照,4年前的《战地5》首次引入实时光线追踪技术只会对画面的每个像素执行约39次光线追踪计算,等于说现在可以实现的游戏画面相比4年前提高了16倍的计算要求。
理论上要实现这样的计算要求,在技术没有革新的情况下,GPU的晶体管数目也需要增长16倍才能满足需求,这显然不现实,事实上,芯片的晶体管数目每两年能增加一倍就已经很不错了。
而Ada Lovelace架构的技术革新就解决了这个问题,在晶体管数目仅增加约4倍的情况下,却可以输出计算需求量远超4倍的游戏画面。那么它是怎么做到的呢?这我们就要深入到其架构核心图里面去深究了。
GPC规模暴涨
我们还是先从完整的核心图来看,它仍然沿用了从NVIDIA Pascal架构开始定下的GPC-TPC-SM层级架构,这也让我们可以很明显的看到其规模相比上一代显著增大了,GPC从Ampere的最大7个猛增到12个,增幅为71.4%,就算其他部分没有技术革新,仅仅这个暴涨的GPC规模就已经能带来很强的性能提升了。
除此之外,与上代的架构核心图对比的话,会很明显的发现二级缓存部分的变化可以说是最大、最明显的,Ada Lovelace的二级缓存规模暴涨——是上一代的16倍。另外一个从完整核心图上也很容易看到的区别就是Ada Lovelace没有了NVLink总线模块,这个设计方向其实之前早有痕迹。
GPC架构图
深入到GPC里面,会发现这一代仍然是每组GPC包含6组TPC、一个独立光栅引擎、两个ROP分区(每个包含8个ROP单元),而每组TPC又包含2组SM。这样的组成是与上一代Ampere一模一样的,所以相应的Ada Lovelace的TPC和SM单元也分别增长到最多72个和144个。
SM架构图
再继续深入到SM单元里面,会发现其整体的结构也是与上一代Ampere架构一模一样,分为四个一样的主要计算模块,一个RT光追核心,以及128KB一级数据缓存/共享内存等。
而且每个主要的计算模块内的结构也和Ampere架构一样,有64KB寄存器文件、零级指令缓存、一个Warp调度器、一个分配单元、16个FP32单精度浮点CUDA核心、16个FP32/INT32单精度浮点和整数混合CUDA核心、一个Tensor Core张量核心、四个载入存储单元、一个特殊功能单元(SFU)用于执行图形差值指令。
而差别也很明显,那就是RT Core光追核心从之前的第二代升级到第三代,Tensor Core张量核心也从第三代升级到第四代。
第三代RT Core有效光追算力是上代3倍
全新的第三代RT Core可以提供2倍的光线与三角形求交性能,并且加入了两个全新的重要硬件单元——Opacity Micro-Map引擎和Displaced Micro-Mesh引擎。
Opacity Micro-Map引擎将光线追踪的Alpha-Test几何性能提升2倍;而全新的Displaced Micro-Mesh引擎可动态生成微网格,以产生额外的几何图形。Displaced Micro-Mesh引擎可在提升几何图形丰富度的同时,不以传统复杂几何图形处理的性能和存储成本为代价。
Displaced Micro-Mesh引擎
我们知道光线追踪的计算是以光线射向一个平面这样的模型来计算的,而实际的渲染中物体几乎不会是简单的平面型,而是各种曲面,所以就需要将曲面分解成许多个小的三角形平面,然后计算光线与三角形求交。在Ampere架构上,面对一个复杂的曲面,如果想得到逼真的光线追踪效果,那么分解的三角形平面是非常多的,多个三角形平面带来非常复杂的BVH,这就非常难以计算。
而Ada Lovelace架构的处理方式就不一样,通过Displaced Micro-Mesh引擎,它将这些三角形平面仅通过一个三角形然后加上不同的位移图来表达,显著缩短了BVH的构建时间,同时BVH的存储空间需求也减小了很多,而最终仍然能实现一样的光线追踪最终渲染效果。
实际应用中由于Displaced Micro-Mesh引擎的存在,面对复杂物体的渲染,BVH的构建速度可以超过15倍,而存储空间的需求却可以小20倍之多,越是复杂的物体该引擎的优势就越能体现。
而且Displaced Micro-Mesh引擎不止可以应用在游戏领域,对于创作领域的用户来说,也有软件会支持,目前Adobe、Simplygon这两家企业已经确认得到了支持。
Opacity Micro-Map引擎
接下来我们说Opacity Micro-Map引擎。
Opacity Micro-Map引擎则是可以对游戏中常见的树叶这类物体加速光线追踪计算,Ampere架构面对这种场景的Alpha-Test需要多个着色器来进行计算,而Opacity Micro-Map引擎对于这种不透明的对象进行了不透明度的编码,可以更准确的对物体边缘进行光线追踪计算,简化了叶子轮廓之外完全透明和叶子轮廓之内完全不透明的区域的计算,耗费更少的着色器就可以实现真实的光线追踪渲染。
以《传送门》RTX版这个游戏为例,Opacity Micro-Map引擎可以让Gbuffer填充速度加快30%,游戏帧率提高10%。
而最终,这些改进下的第三代RT Core可以使完整的Ada Lovelace架构核心具有200 TFLOPS的有效光线追踪计算能力(最先上市的RTX 4090达到191 TFLOPS),几乎是上代产品的三倍。
第四代Tensor核心性能超上代5倍
对于第四代Tensor Core,最主要的变化是新增了Hopper FP8 Transformer Engine,可提供1400 TFLOPS的张量处理性能,可以说深度学习性能得到了巨大的飞跃,这也意味着通过它可以实现新的技术想法,后面的DLSS 3我们会再次提到Tensor Core的功劳。(最先上市的RTX 4090具有1.32 Petaflops的张量处理性能)
说到DLSS 3,作为这次NVIDIA大力宣传的重点,相信大家都急不可耐想深入的了解这个技术,但是为了更清楚的了解DLSS 3,我们还得说两个新东西,那就是着色器执行重排序(SER)和Optical Flow Accelerator光流加速器。
着色器执行重排序(SER)提高光追并行效率
着色器执行重排序技术的重大作用是可以极大的提升光线追踪性能,这是与CPU的乱序执行一样的重大创新。
由于光线追踪的特性,它很难并行处理,因为光线会向各个方向反射,并与各种类型的表面相交,所以光线追踪的工作负载需要不同的线程处理,需要不同的着色器,并且需要不同的显存来存取中间的计算过程。
而我们知道GPU的特点就是适合并行处理,只有面对并行处理的任务才可以发挥GPU的特点获得更好的计算效率,而着色器执行重排序就是可以通过实时重新调度任务,即时重新安排着色器负载来提高执行效率,从而更好地利用GPU资源,以实现更佳的光线追踪性能,据称,SER可以为光线追踪带来最高可达3倍的性能提升,整体游戏性能提升可高达25%。
应用了着色器执行重排序(SER)之后,《赛博朋克2077》在全景光线追踪模式下可以提高44%的性能,《传送门》RTX版可以提高29%的性能,《Racer RTX》可以提高20%的性能。
Ada光流加速器算力可超300 TFLOPS
回看前面的完整核心图,可以看到左上角清晰的标出了Optical Flow Accelerator,也就是光流加速器,而尽管之前的Ampere架构中没有提到这个东西,但其实Ampere架构也是有的,不同的是,Ada Lovelace架构中大大增加了光流加速器的运算性能,从之前Ampere架构的126 TFLOPS增加到现在的300 TFLOPS(详细值是305 TFLOPS)。
Ada的光流加速器带来的巨大的性能提升,具有实用性了,使DLSS 3能够预测场景中的运动,使神经网络能够在保持图像质量的同时提高帧率。前面提到的第四代Tensor Core的1400 TFLOPS的张量处理性能,加上这里Ada Lovelace光流加速器300 TFLOPS的光流运算性能,再加上后方的NVIDIA超级计算机提供的超过1 ExaFLOPS的AI计算性能,这三者就组成了这一代DLSS 3的硬件层面的保障,而前面讲了那么多基础性的东西,现在我们终于可以讲到通过这些东西能实现的直接与玩家接触的技术——DLSS 3。
DLSS 3全方位提升流畅度、延迟和画质
新一代的DLSS 3包括全新的帧生成技术、DLSS 2超分辨率技术和NVIDIA Reflex技术,与之对应的就是目前在游戏中,DLSS 3对应了这三个选项——帧生成技术、DLSS 2超分辨率技术和NVIDIA Reflex技术——这三个都启用才算是完整的开启了DLSS 3。
而这其中,帧生成必须RTX 40系列才能支持,超分辨率则是RTX 40/30/20系列都支持,Reflex的要求最低——GTX 900系列及以后的都支持。
总得来说,DLSS 3是提升游戏体验的一整套解决方案,也就是说对于游戏体验的三要素——流畅度、延迟和画质——进行全方位的提升,而不是拆东墙补西墙的那种,接下来我们一个一个说。
DLSS 3的帧率
先说它如何提升帧率。
之前的DLSS 2,提升帧率的方式简单说就是以低分辨率渲染,然后通过AI训练重建高分辨率画面返回输出,比如我们将游戏设置成4K,打开DLSS,那么实际的计算过程是先以1080p分辨率渲染帧画面,然后AI学习经过训练的更高分辨率的帧再将这个帧画面压缩到4K最终输出,中间相差的这3/4部分的像素信息是通过AI计算来添加的(本地主要是Tensor Core来计算)。由于以低分辨率渲染,所以在AI补充像素的性能足够的情况下,帧率自然可以提高了。
但是这样无法突破CPU性能的瓶颈,毕竟降低原始渲染分辨率可以使得GPU每一帧的计算量更少,但是CPU每一帧的计算量是不变化的(因为CPU负责计算的部分与分辨率并无关系),实际上,由于帧率提高,CPU的计算量其实还增大了。
那么DLSS 3是怎么做的呢?
首先,还是与DLSS 2一样,比如输出4K游戏画面的话,它也是先降低原始渲染分辨率到1080p,然后通过AI计算来添加像素再压缩成4K画面。在连续的游戏画面中,我们就可以通过这样得到连续的4K帧画面,第1帧、第2帧、第3帧等等。
然后这样的每两帧之间,DLSS 3通过光流加速器为神经网络提供像素级的帧到帧的运动方向和速度信息,然后通过分析前一帧和当前帧几何图形和像素的运动矢量并将其输入至神经网络,就能计算出两帧中间的帧画面了。
实现超越CPU限制的帧数
这样连续下去的话,原本的第1帧、第2帧、第3帧中间都会有一个新的帧,等于实际最终输出的帧画面中,有1/2是没有CPU参与的,完全是GPU计算出来的,所以理论上可以将原本受限于CPU性能的游戏帧率提高一倍。
另外,我们去关注像素的话,会发现靠传统渲染方式计算的像素其实只有1/8,最终输出的游戏画面7/8的像素其实都是通过DLSS 3的一系列AI计算填补上的,这极大的提升了效率。
DLSS 3的画质
然后我们说下画质。
其实看我们的网站的网友评论可以看到还是有很多网友对DLSS技术很抗拒,认为不是原始渲染出的画面就不好,笔者认为这一观念是需要改变了。且不说网友有这一观念可能是由于初代DLSS技术确实效果不佳,形成了刻板印象,即便之后的DLSS 2超分辨率技术已经有很好的画面也很难摒弃已经形成的观念,我们可以比较一下这几帧画面,完全看不出区别。
对于DLSS 3的生成帧这方面大家不免想到已经问世好久的各种插帧技术,DLSS 3的生成帧确实也可以算作插帧的一种,但是又与其他的插帧技术完全不一样。
简单的插帧技术利用两帧之间像素的位移来确定中间帧的图像,这样其实非常容易出现明显令人觉得视觉异常的画面,特别是对于阴影这种需要计算的画面效果,当主体移动之后,正确的阴影是需要经过复杂计算的,单单根据像素的位移来确定的画面几乎肯定违反客观世界的物理规律。
而DLSS 3它使用光流加速器分析两帧连续的游戏图像,计算帧到帧之间物体、元素的运动矢量数据,综合游戏中的一对超级分辨率帧,以及引擎和光流运动矢量,并将其输入至卷积神经网络,计算生成出新的一帧,大大提高了画面的准确性。
DLSS 3的延迟
最后我们再说延迟。
通过前面的梳理大家会发现DLSS 3尽管提高了帧速率,也保证了画质,但是对于延迟是没有缩短的,因为每一个新生成的帧都是需要后一帧渲染出来之后才可以准确生成的。更高的帧率提升了游戏的顺滑程度,但延迟会影响游戏的响应度,如果延迟太高,游戏的体验也不会好,而为此,DLSS 3也集成了NVIDIA Reflex技术来降低延迟提高响应速度。
所以总得来说,DLSS 3是包括了基于AI的超分辨率提升技术、基于AI的帧生成技术以及NVIDIA Reflex低延迟技术这些软件层面以及第四代Tensor Core的1400 TFLOPS的张量处理性能、Ada Lovelace光流加速器300 TFLOPS的光流运算性能以及NVIDIA超级计算机提供的超过1 ExaFLOPS的AI计算性能组成的硬件层面综合实现的一项新技术,对于游戏体验的提升也不是单方面的,而是全方位的提升。
游戏以及应用支持
对于游戏开发者这一边来说,从支持DLSS 2到支持DLSS 3很容易,大部分引擎开发接口是相通的,DLSS 3还可以通过Streamline这一NVIDIA发布的开源平台进行集成,极大的简化了游戏开发者对新技术的集成工作,可以预期未来的DLSS 3集成速度一定不会慢。
首批宣布即将支持DLSS 3的游戏及应用等有35款,包括了《巫师3:狂猎》、《黑神话: 悟空》、《赛博朋克2077》、《逆水寒》、《杀手3》、《微软模拟飞行》等热门游戏以及寒霜引擎、Unity 、虚幻引擎4 & 5 这些游戏引擎,有了这些知名游戏引擎的支持,未来的DLSS 3游戏数量可以说不用担心。
实现4倍性能提升
至于DLSS 3对于游戏帧数的提升,NVIDIA给出的数据如上,可以将游戏分为两类,一类是今天之前的游戏画面,这部分的提升平均在2倍左右,而另一类则是之后的游戏画面,可以理解为全景光线追踪的游戏画面,对于这样的游戏画面,提升平均可达4倍,当然,关于性能提升部分我们后面还会实际测试的。
游戏玩家中除了单机类游戏玩家还有电竞类游戏玩家,新一代GPU也将这方面的体验推到了新高度,现在已经可以在1440p分辨率下普遍达到360帧,而且系统延迟低至10ms之内。
电竞类游戏玩家首要看重帧率及延迟,所以之前大都会在1080p分辨率下进行对战,以获取高帧率及低延迟,而新一代GPU将360FPS@1440p成为现实后,玩家照样可以在1440p下获取高帧率及低延迟,而通过统计,在27英寸1440p的显示器上进行游戏相比25英寸1080p的显示器平均成绩会提高3%,对于毫厘之争的电竞对战来说,这也是很重要的。
全新第八代NVENC支持AV1编码和双编码器
Ada Lovelace架构相比Ampere架构的另一项重要升级就是NVIDIA 编码器 (NVENC)升级到了第八代,开始支持AV1编码了。AV1的效率比H.264高40%,这意味着在传输同样质量的画面时候只需要大约70%的数据量,或者说在同样的带宽下可以实现更清晰的画面质量,并且由于AV1是免费、开放的,可以让厂商节省相当一笔费用,AV1已经明显将要取代H.264成为主流格式。
而在中国的备受欢迎的视频编辑应用"剪映专业版"、Blackmagic Design 的 DaVinci Resolve 18、以及 Adobe Premiere Pro 较为流行的 Voukoder 插件均支持 AV1,且均可通过编码预设使用NVENC AV1编码器。此外,OBS、Discord以及更多的公司都已在采用NVENC AV1编码器。
首发的RTX 4090给开放了两个NVENC编码器,这两个NVENC可实现协同工作,并自动分配以实现双路输出。全新的双编码器可将视频导出时间缩短至原来的一半,未来,主播用户可借助第八代编码器中 AV1 双编码器的优势提升直播体验,还可以通过OBS Studio 录制高达 8K60 的内容。
TSMC 4N NVIDIA定制工艺带来能耗比的飞跃
这部分我是特意留着作为压轴好戏来讲的。
先回顾一下几个数据,2018年的TU102是754mm2,拥有186亿个晶体管;2020年的GA102是628.4mm2,拥有283亿个晶体管;而如今2022年的AD102是608.5mm2,拥有763亿个晶体管。
可以清楚的看到核心面积一直在减小,而晶体管数目则保持非常高的增长速度,当然,面对制程在进步,这其实也很正常,但是今年的Ada Lovelace架构GPU实在这方面涨的太恐怖了,AD102晶体管差不多是GA102的2.7倍!
而在先进的TSMC 4N NVIDIA定制工艺的加持下,RTX 4090的功耗则与RTX 3090 Ti一样保持在450W,这足以令人意识到Ada Lovelace架构GPU的能耗比的巨大飞跃,事实上,新的Ada Lovelace架构相比Ampere架构实现了巨大的飞跃,同功耗下的性能可达2倍。
在能耗比方面,之前Ampere架构相比Turing架构的提升并不大,这个我们还专门做过测试——《Ampere、Turing、RNDA比一比:三大架构显卡能耗比对比测试》,测试的结果是相对于上一代的Turing架构桌面显卡,Ampere架构在能耗比方面具有了12%的提升,并不算出众,而这一代直接来了个2倍的能耗比,让人感觉说直接进步了两代都不为过。
首发的Ada Lovelace显卡有三张,分别是RTX 4090、RTX 4080 (16GB)和RTX 4080 (12GB),而其中最早与我们见面的是RTX 4090。
RTX 4090公版显卡规格
接下来我们具体看下RTX 4090的规格。首先,大家需要知道的是,RTX 4090并不是完整的AD102核心,这几乎可以肯定的意味着后面还会有更强大的RTX 4090 Ti这样的超级怪兽,当然具体出不出?什么时候出?就有可能会看竞争对手AMD这边给不给力了,目前可以肯定英伟达是留了一手的。
所以对比方面,尽管英伟达官方宣传都是拿RTX 3090 Ti来对比(因为即使对比RTX 3090 Ti,RTX 4090也是足够称得上飞跃性的),但是笔者还是加入了RTX 3090的对比,严格来说,它们之间才是同样定位的产品。
前面架构部分讲到过,这一代的英伟达Ada Lovelace架构仍然采用将特定组数的CUDA单元、RT核心、Tensor核心封装为一个SM单元,然后将一定组数的SM单元封装为一个GPC这样的层级结构,最后将几组GPC单元和内部缓存等其他硬件部分组成我们看到的GPU核心。
而RTX 4090相比RTX 3090 Ti和RTX 3090的一个很直接的增强就是增大了GPC的数量,从7个猛增到11个,不过RTX 4090的7个GPC也不是完整的7个GPC,它与RTX 3090一样,略微阉割了一点点,其中一组GPC屏蔽了两组TPC,所以只有64组TPC,对应的具有128个SM单元、16384个CUDA核心。
具体到SM单元中,每个单元所配备的Tensor Core和RT Core与上代是一样的——即每个SM单元中配备4个Tensor Core和1个RT Core,故而RTX 4090的Tensor Core和RT Core数量很好算出来,分别是512个和128个。RTX 4090的Tensor Core和RT Core与上一代可不一样,已经分别是第四代和第三代了,单独的性能都有增长,这个前面已经讲过了。
纹理单元和光栅单元方面RTX 4090也有较大的进步,分别来到了512个和176个。
L2缓存的增加这次是非常的明显,RTX 4090的L2缓存已经达到了73728kb,是RTX 3090 Ti的12倍。说到缓存就顺带这里说一下显存容量的事儿,这次的RTX 4090也是24GB GDDR6X,与RTX 3090 Ti和RTX 3090一样,大家可能觉得没什么进步,但是因为L2缓存的巨大进步,实际的数据通信性能是要好很多的。
RTX 4090的显存带宽与上代最顶级的规格是持平的,其显存频率为10501MHz,有效显存速度21Gbps,显存位宽384bit,所以最终总的最大显存带宽达到了1008 GB/s,超过了1TB/s。
频率也是RTX 4090的亮点,上代的RTX 3090Boost频率只有1695MHz,即使后面三星的工艺技术更成熟了,到了最后的RTX 3090 Ti也只是做到了1860MHz,而RTX 4090直接暴涨到了2520MHz,相比RTX 3090提高了825MHz!
至于NVIDIA NVLink,从之前其在游戏卡上逐渐缩减支持就可以看到设计趋势,上一代仅仅是RTX 3090 Ti和RTX 3090才有,而这一代则是完全取消了。其实从我们之前的测试来看,现在NVLink对于游戏性能的提升并不划算,很多游戏设计商也不做支持了,所以这个取消笔者并没有感到可惜。
至于其他的显示器接口规格、FE版显卡占用的PCIE插槽位置的数量、TDP、推荐电源、供电接口和PCIe接口方面,RTX 4090和RTX 3090 Ti是一样的,不过虽然都需要占用3个PCIE插槽位置,但是显卡本身的厚度还是不一样的,其实RTX 4090要更厚一点,这个我们看下面的RTX 4090公版卡设计解析就可以清楚看到了。
另外,笔者要提醒一下的是最低850W的系统电源其实是英伟达基于配置Ryzen 9 5900X处理器的PC所作出的建议,所以如果是其他更高功耗的处理器的话,电源要求是要相应增加的。
RTX 4090公版卡设计
与上一代相比,这一代的NVIDIA RTX 4090 Founder Edition显卡在包装上面明显升级,不仅包装体积增大,而且礼盒包装的精致感也相比上代大大提升。NVIDIA RTX 4090 Founder Edition显卡的包装设计非常独特,将一个长方体做对称的切割,打开方式是向上翻开,翻开后NVIDIA RTX 4090 Founder Edition显卡就以45度角垂直于平面的样子展示在眼前,而向上翻开的包装盒部分可以直接翻到后方,整个包装盒由于对称性可以形成一个规则的三棱柱。
包装盒背面可以看到NVIDIA RTX 4090 Founder Edition显卡的一些规格信息,这里注明该卡尺寸为304×137×61mm,最低需要850W的系统电源,辅助电源接口是一个450W的第五代PCIE供电接口或者4个传统的PCIE 8pin接口(包装盒中有转接线)。
NVIDIA RTX 4090 Founder Edition显卡的整体外观风格延续了上代的设计,不过还是可以明显的看到不同——显卡钛灰色的边缘出现了曲线。这是由于这一代的风扇尺寸增大了,所以与边缘相交了,于是这一代钛灰色的边缘需要留出空间容纳这更大尺寸的风扇。至于为什么风扇增大,显然是为了更好的散热效果,据称这一代的风扇可以多提供20%的风量(同噪音下可以多提供15%的风量)。
另外,或许是为了呼应这里的流线型设计,NVIDIA RTX 4090 Founder Edition显卡的周边一侧现在也进行了流线型设计,是向内凹陷的那一种曲面,与上一代对比的话就会明显看出来。此外,还可以明显的看到NVIDIA RTX 4090 Founder Edition显卡相比上一代厚了很多,而长度则稍微还短了一点,但是总的来说,这个散热器的规模是要比上代显著增大的,可以应对更高的发热功耗。
对于生产力系统来说,显卡也就是加速卡,NVIDIA RTX 4090 Founder Edition显卡尾端仍然有螺丝孔用来在工作站等环境中安装显卡支架,不过与上一代外露的设计相比,这一代特别设计了一个磁吸式的挡片来遮盖住,很有特点。
NVIDIA RTX 4090 Founder Edition显卡其实非常沉重,重量来到了2.187kg,拿在手里沉甸甸的,不过相对来说,NVIDIA RTX 4090 Founder Edition显卡的外型相比这一代同型号的非公版产品来说还是更紧凑一些的,外观设计也更加简约、大气,这个重量于是还是能传达出一些"质感上乘"的感觉,并不会全是负面的体验。图上也可以看到这一代的NVIDIA RTX 4090 Founder Edition显卡没有了NVLink接口。
NVIDIA RTX 4090 Founder Edition显卡延续了上一代的双轴流推挽式风扇散热设计——正面有一个轴流式风扇,虽然是轴流式风扇,但是经过特殊的风道设计,这个轴流式风扇吸入冷风之后是会将废热通过档板那里排出机箱之外,另一个风扇是在显卡背面,通过抽风让冷空气流经散热鳍片,然后通过机箱的后置排风扇排出机箱之外,通过这种方式能更好的将废热定向的引导到机箱风扇的风道,避免了机箱风道的凌乱。
NVIDIA RTX 4090 Founder Edition显卡仍然提供四个视频输出接口,包括三个DisplayPort 1.4a和一个HDMI 2.1接口,均可实现最高4K 120Hz的视频输出,并可实现最多4屏输出,支持HDCP 2.3,HDMI 2.1接口还支持8K 60Hz HDR以及HDMI 2.1a 接口的可变刷新率功能。
RTX 4090公版卡拆解
RTX 4090公版卡的PCB一直是设计典范,在容纳所有必须的电子元器件的同时仍然保持极小的尺寸,这非常考量设计技巧,PCB右侧仍然采用了缺口的设计,这样可以保证容纳了穿透式风流设计的风扇后仍然将整卡的尺寸控制的尽量短,保证较好的兼容性。
PCB的正中心就是RTX 4090的AD102-300 CPU核心,周围有12颗显存颗粒围绕,均是美光的GDDR6X显存,型号为美光的D8BZC,单颗2GB容量,32-bit位宽,12颗一共组成24GB 384-bit的显存规格。
再往远一点的周围就是一共23相对供电设计,其中核心供电20相,显存供电3相,供电部分的mosFET均是芯源系统(MPS) 的MP86957,供电控制方面主要是1颗芯源系统(MPS) 的MP2891来负责。
尽管在这么小尺寸的PCB上放下了23相供电,但是仍然可以清楚的看到不少的空焊位,答案不言自明,这就是为将来的RTX 4090 Ti预留的,也就是说RTX 4090 Ti将使用同款的PCB,那么也可以预计其整卡尺寸大概也会一样。
再看散热器部分,RTX 4090公版卡仍然采用了真空腔均热板设计,可以非常高效的将GPU核心的热量传导到热管然后分散到散热鳍片上,具有6根8mm直径的热管,这些热管上面均覆盖有镀层,可以防止日久使用之后表面发生氧化,镀层是黑色的也与整体的色调设计搭配,让显卡更好看。
测试平台
本次首发评测对比显卡包括了:GeForce RTX 3090、GeForce RTX 3090 Ti和AMD阵营的Radeon RX 6950 XT,除了Radeon RX 6950 XT没有弄到公版卡用了一张技嘉Radeon RX 6950 XT GAMING OC 16G代替之外,其他都是FE公版卡。操作系统为最新的Microsoft Windows 11 22H2 64-bit版,系统的电源选项为高性能模式,在BIOS开启XMP,让内存运行在6000的频率,其他方面不做过多改变,均采用默认设置。
基准性能测试
我们以3DMark作为显卡基准性能测试,测试项目包括Fire Strike、Fire Strike Extreme、Fire Strike Ultra、Time Spy、Time Spy Extreme以及Port Royal六个项目。其中Fire Strike、Fire Strike Extreme、Fire Strike Ultra三个项目分别测试的是显卡在DX11游戏中的1080p分辨率、2K分辨率和4K分辨率下的性能指数,Time Spy、Time Spy Extreme两个项目则是显卡在DX12游戏中的2K分辨率和4K分辨率下的性能指数,Port Royal是测试的显卡实时光线追踪的性能指数,具体成绩见下表,表中所列成绩均为3DMark显卡单项的得分。
可以看到以上一代的RTX 3090为基准的话,采用新英伟达Ada Lovelace架构的RTX 4090确实性能暴增。
FireStrike这种面向1080p分辨率的项目其实对于RTX 4090来说CPU的瓶颈很严重了,而且RTX 4090主要是面向4K游戏环境推出解决方案,所以我们主要关注Time Spy Extreme这个子项目的性能对比(由于几乎没有新游戏采用DX 11 API了,所以Fire Strike Ultra对于RTX 4090的意义也不大),可以看到RTX 4090相比RTX 3090提升了92.66%,相比上代旗舰RTX 3090 Ti提升75.08%。
光追性能方面,RTX 4090是跟RTX 3090和RTX 3090 Ti相比不仅RT Core数量大大增多,而且从第二代RT Core升级到第三代RT Core,所以总的光追性能提升也非常巨大,RTX 4090相比RTX 3090提升了94.34%,相比上代旗舰RTX 3090 Ti提升75.57%。
至于AMD这边,本来对于这种高端显卡面向的4K游戏环境和光追游戏环境方面RX 6950 XT就不如RTX 3090 Ti,所以RTX 4090相比RX 6950 XT更是直接吊打,其Time Spy Extreme相比RX 6950 XT提升高达85.38%,而Port Royal相比后者更是提升高达144.83%。
4K分辨率游戏实测
RTX 4090虽然可以用作8K游戏解决方案,不过由于时间有限,加上目前8K的普及率远不及4K,所以本次首发评测还是选择了4K这个分辨率来作为测试分辨率(对于RTX 4090玩8K游戏感兴趣的读者可以留意我们之后的测试内容)。
由于本次新加入的DLSS 3是提高帧率、降低延迟同时还保持高画质水准的全方位解决方案,这也让我们在不同设置下进行对比成为了合理选择,即我们回到影响游戏体验的三大要素(流畅度、延迟和画质)这个本源上来,通过综合的游戏体验来判断提升。
故而本次的游戏实测主要分为三个部分,分别是DLSS 3开启和关闭的性能对比,这个主要是测试DLSS 3;RTX 4090+DLSS 3对比RTX 3090 Ti+DLSS 2,这个是来看看RTX 4090和RTX 3090各自在自己软硬件结合下的最优游戏体验相差多少;最后就是较为传统的同设置下的平均帧对比。
同设置下的平均帧对比这部分由于之前的RTX 3090 Ti面对不开光追的情况下已经能通杀所有游戏获得流畅的游戏体验,并且之后的新单机大作大概率就是像《赛博朋克2077》和《F1 2022》这样——预设最高画质就是开光线追踪或者直接光线追踪就强制开启无法关闭——所以本次对于这种高端显卡就不测试传统光栅化的帧数对比了(当然,另一个主要原因也是首发时间有限,如果读者们强烈希望测试这部分的对比,我们之后也会视情况做这方面的测试内容)。
所测游戏或者DEMO可以调节画质的,均采用最高画质。
DLSS 3开启和关闭的性能对比
我们先来看看DLSS 3开启和关闭的画质对比,这里列出部分测试游戏的实机截图对比。
DLSS 3 OFF
DLSS 3 ON
DLSS 3 OFF
DLSS 3 ON
DLSS 3 OFF
DLSS 3 ON
DLSS 3 OFF
DLSS 3 ON
DLSS 3 OFF
DLSS 3 ON
大家应该可以直观的看到,DLSS 3的开启不但没有降低画质,而且提升了画质,这在具有全景光线追踪的《逆水寒》中尤其明显,而这正是我们跨画质对比的理由,在画质提升的情况下,平均帧、1%最低帧和系统延迟的对比到底如何呢?
接下来就是见证奇迹的时刻。
在目前具有全景光线追踪的《逆水寒》"拂云庭"场景中,与关闭相比,开启的游戏平均帧是后者的5.33倍,1%最低帧是后者的6.57倍,而系统延迟只有后者的15.58%。
在最高画质的《微软模拟飞行》中,与关闭相比,开启的游戏平均帧是后者的2.11倍,1%最低帧是后者的2.31倍,而系统延迟只增大了1ms。
在最高画质的《赛博朋克2077》中,与关闭相比,开启的游戏平均帧是后者的4.2倍,1%最低帧是后者的3.71倍,而系统延迟只有后者的59.61%。
在最高画质的《瘟疫传说:安魂曲》中,与关闭相比,开启的游戏平均帧是后者的2.37倍,1%最低帧是后者的2.69倍,而系统延迟只有后者的90.48%。
在最高画质的《F1 2022》中,与关闭相比,开启的游戏平均帧是后者的2.43倍,1%最低帧是后者的2.56倍,系统延迟这里RTX 3090 Ti DLSS 2的情况下除了点未知问题,没有测出来。
在最高画质的《Unreal Engine 5: Lyra》DEMO中,与关闭相比,开启的游戏平均帧是后者的2.6倍,1%最低帧是后者的4.44倍,而系统延迟只有后者的81.67%。
在最高画质的《Unity Enemies》DEMO中,与关闭相比,开启的游戏平均帧是后者的3.23倍,1%最低帧是后者的3.67倍,而系统延迟只有后者的31.08%。
在4K的《3DMark DLSS Feature Test》中,与关闭相比,开启的游戏平均帧是后者的2.97倍,1%最低帧是后者的3.07倍,系统延迟这里RTX 3090 Ti DLSS 2的情况下《3DMark》目前无法读出数据。
总得来说,这8个测试中,与关闭DLSS 3相比,开启DLSS 3的游戏平均帧是后者的3.16倍,1%最低帧是后者的3.63倍,系统延迟是后者的59.61%。这里主要还是因为目前的全景光线追踪游戏太少,只有《逆水寒》这一个,其他的游戏拉低了这种场景下的提升。
RTX 4090+DLSS 3对比RTX 3090 Ti+DLSS 2
这里同样,我们先来看看RTX 4090+DLSS 3对比RTX 3090 Ti+DLSS 2的画质,这里列出部分测试游戏的实机截图对比。
DLSS 2
DLSS 3
DLSS 2
DLSS 3
DLSS 2
DLSS 3
DLSS 2
DLSS 3
DLSS 2
DLSS 3
这里可以看到DLSS 2和DLSS 3的画面是看不出什么区别的,当然这里虽然不能保证DLSS 3的画面刚好是生成帧的帧画面(因为主要是要看这部分生成帧的帧画面画质有没有降低,因为其他帧画面就是DLSS 2的帧画面),所以理论上看视频对比更好,不过由于时间有限,这次没法弄视频对比给大家看,而且视频对比对于这样的4K画面我们还需要解决好压缩方面的问题,后续我们应该会有视频对比给大家展示的。
这里笔者说一下自己的感受,那就是确实开启DLSS 3的游戏过程中并没有感觉到忽好忽差的情况,很稳定,而笔者相信人眼是极其敏感的(就算不够敏感,超出了人眼可以辨别的范围对于实际体验来说也是一样的意义,对吧),所以就可以认为DLSS 2和DLSS 3的画面是没有区别的,这也是我们继续对比平均帧、1%最低帧和系统延迟的理由,因为这就是同画质的游戏对比。
那么接着我们看看平均帧、1%最低帧和系统延迟的对比,结果如下:
在目前具有全景光线追踪的《逆水寒》"拂云庭"场景中,与RTX 3090 Ti相比,RTX 4090的游戏平均帧是后者的2.75倍,1%最低帧是后者的3.53倍,而系统延迟只有后者的28.7%。
在最高画质的《赛博朋克2077》中,与RTX 3090 Ti相比,RTX 4090的游戏平均帧是后者的2.37倍,1%最低帧是后者的2.04倍,而系统延迟只有后者的64.2%。
在最高画质的《瘟疫传说:安魂曲》中,与RTX 3090 Ti相比,RTX 4090的游戏平均帧是后者的1.82倍,1%最低帧是后者的2.17倍,系统延迟这里稍微增大一点点,增加了7ms。
在最高画质的《F1 2022》中,与RTX 3090 Ti相比,RTX 4090的游戏平均帧是后者的1.69倍,1%最低帧是后者的1.88倍,系统延迟这里RTX 3090 Ti DLSS 2的情况下除了点未知问题,没有测出来。
在最高画质的《Unreal Engine 5: Lyra》DEMO中,与RTX 3090 Ti相比,RTX 4090的游戏平均帧是后者的1.68倍,1%最低帧是后者的1.82倍,系统延迟这里稍微增大一点点,增加了12ms。
在最高画质的《Unity Enemies》DEMO中,与RTX 3090 Ti相比,RTX 4090的游戏平均帧是后者的2.62倍,1%最低帧是后者的2.67倍,系统延迟这里RTX 3090 Ti DLSS 2的情况下除了点未知问题,没有测出来。
在4K的《3DMark DLSS Feature Test》中,与RTX 3090 Ti相比,RTX 4090的游戏平均帧是后者的2.06倍,1%最低帧是后者的2.03倍,系统延迟这里RTX 3090 Ti DLSS 2的情况下《3DMark》目前无法读出数据。
总得来说,这7个测试中,与RTX 3090 Ti相比,RTX 4090的游戏平均帧是后者的2.14倍,1%最低帧是后者的2.31倍,系统延迟是后者的87%。
实时光追游戏测试:畅玩4K光追
这部分除了采用最高画质之外,不开启DLSS,好让RX 6950 XT公平的参与对比。
这里测试的都是游戏的已发行版本,可以看到对于目前的光线追踪游戏,即使不用DLSS,RTX 4090也能大部分完全流畅运行,即便是对于《赛博朋克2077》、《光明记忆》、《边境》这样光线追踪渲染量很大的游戏,也保证超过30FPS,也就是说基本流畅都是可以做到的。
而对比性能的话,从8款游戏的综合结果来看,RTX 4090相比RTX 3090 Ti提升为70.39%,相比RTX 3090提升为90.23%,相比RX 6950 XT提升为155.76%,越是光线追踪压力大的游戏场景越能体现出RTX 4090的优势。
温度测试
我们的GPU散热测试均在裸机状态(如果安装在机箱内,GPU温度会高出5℃左右)下进行测试,测试环境温度约为25.1℃。待机温度是开机以后记录10分钟,满载温度则是完成3DMark压力测试后记录下,数据通过GPU-Z的Log to File功能记录,以下为温度测试曲线。
RTX 4090公版卡支持风扇待机停转,所以待机温度都是被动散热下的温度,经过十分钟的待机测试,从开始的29.7摄氏度上升到37.1摄氏度左右,10分钟待机过程中最热点温度则是最低是开始的38.7摄氏度,偏后段是46.6摄氏度。
满载状态下,最高温度居然仅仅67.1摄氏度,关注最热点温度的话,最高才75.5摄氏度,而且稳定后还要更低一点,这可是拥有763亿个晶体管的怪兽,这个温度表现令人再一次感叹该卡散热设计的伟大。
噪音测试
噪音方面,噪音测试在我们的消音室中完成,测试过程中噪音最低可以达到18.2dBA,能很好的测试出样品的真实噪音水平。测试的状态为显卡散热风扇在3DMark压力测试中同转速运转的状态,可以视为实际游戏负载下的噪音状态,噪音仪距离声源处距离为50cm,经测试,该卡此状态下运转的噪音值为36.4dBA,这个噪音水平是相当低的,对于玩家实际使用装入机箱里的情况来说,更是很难感知到的。
功耗测试
通过我们手中的PCAT套件,可以分别精确地测量显卡PCI-E、外接电源接口瓦特数,显卡最大功耗在3DMark压力测试中获得,待机功耗则是在进入系统后记录1分钟取平均值。
统计功耗测试的结果算出,这张RTX 4090公版卡的整卡待机功耗平均为25W,满载功耗平均为425W,峰值功耗到过450W。对于这样级别的显卡功耗来说,电源的话如果平台其他部件的功耗不高那么可以850W的电源来带动,如果其他部件的功耗也较高建议至少1000W的电源起步。
在上一代RTX 3080首发的时候,我们已经非常惊叹于高端卡能相比上代产品平均提高50%,而这一代,没人料到NVIDIA的进步速度更胜以往,RTX 4090相比RTX 3090在目前的光线追踪游戏中可以提高90%的性能,几乎达到了翻倍,即便是面对RTX 3090 Ti,也是提升超过70%,这个进步的速度更是远远的将竞争对手AMD现在的旗舰型号甩在了身后。
而RTX 4090最能发挥其性能的还并不是这些目前的光线追踪游戏,而是将要到来的具有全景光线追踪的游戏,通过DLSS 3技术的加持,RTX 4090可以将这些远超当下技术能力的画面实时渲染,并且能同时获得流畅度、低延迟和高画质的完美游戏体验。
例如本次测试的《逆水寒》拂云庭场景,它让我们体验到了未来游戏的初形态,堪比CG动画的游戏画面美不甚收,而最神奇的是,在这样的游戏场景中打开DLSS 3的画面质量相比原生画质还要好,并且在这样的基础上,DLSS 3还进一步提升了游戏帧率和系统延迟,AI的魅力令人难以置信。
在我们对比的8个测试中,与关闭DLSS 3相比,开启DLSS 3的平均帧是后者的3.16倍,这里主要还是因为目前的全景光线追踪游戏太少,还没能完全表现出RTX 4090+DLSS 3的强大之处,要看到《逆水寒》拂云庭场景中,这个提升是5.33倍之多!
再加上与上一代RTX 3090 Ti+DLSS 2的搭配相比,在7个测试中,RTX 4090+DLSS 3的平均帧是后者的2.14倍,在《逆水寒》拂云庭场景中更是达到了2.75倍,从所有这些测试走下来,笔者最主要的感觉就是RTX 4090实在太强大了,强大到对当下的游戏环境完全是降维打击,需要未来的游戏才能真正完全发挥它的价值,或许,NVIDIA走的太快了?
现在大家都知道RTX 30系列并不会马上退市,而是作为中端和入门市场的补充与首发的三张RTX 40系列显卡同时在市场销售,尽管也有其他方面的原因,但正是这样远远领先的步伐给了英伟达采用如此市场策略的资本。
最后说一个有趣的方面——散热器设计,从我们的实测来看,似乎这一代显卡的散热器设计有点超标了,让RTX 4090公版卡的满载温度仅仅只有65.3℃,热点温度最高才75.7摄氏度,而RTX 4090公版卡的散热器设计其实已经算含蓄的了,AIC厂商的非公版卡散热器更是夸张。固然更低的满载温度是玩家乐于看到的,但是这样的散热器规模也让显卡的体积暴涨,这就涉及到兼容性的问题了,笔者建议购买新卡的玩家尤其要注意机箱兼容性的问题。
RTX 4090公版卡极有可能是这一代RTX 4090中机箱兼容性最好的,好消息是,本次NVIDIA将限量推出GeForce RTX 4090 FE版,于北京时间10月12日晚9点在京东首发上市。届时玩家可以按照喜好选购来自NVIDIA FE版和来自AIC供应商的RTX 4090 GPU标频版和超频版。
原文地址:http://www.myzaker.com/article/63458af18e9f09258f46b7a2