address,adobe

  

  在英伟达的GPU系统中,“Ti”往往意味着更强的性能和更远的游戏体验。在GeForce RTX 20时代,ti系列出现的机会并不多,只有GeForce RTX 2080 Ti高高在上。随着安培架构再次推动GPU性能的集体转变,是时候赋予GeForce RTX 30系列更强的性能了。GeForce RTX 3080 Ti和GeForce RTX 3070 Ti登场,RTX 3080 Ti售价899元,RTX 3070 Ti售价4499元。   

  

     

  

  这一刻,游戏旗舰王者GeForce RTX 3080 Ti的性能评测被解除。相比上一代RTX 2080 Ti,一年前的RTX 3080,甚至金字塔顶端的RTX 3090,表现如何?现在让我们先来评价一下GeForce RTX 3080 Ti方正版。   

  

     

  

  增强版GA102参上   

  

  如果你还记得之前的GeFroce RTX 3080和RTX 3090,那么你应该还记得这两款GPU都使用GA102核心,其中RTX 3080是GA102-200-KD-A1,GeForce RTX 3090是GA102-300-A1。   

  

  这里自然绕不开GA102核心的话题。在三星8nm英伟达定制工艺下,管芯尺寸达到628.4 mm,共包含283亿个晶体管。也是目前消费类产品中晶体管数量最多的处理器之一。   

  

     

  

  与图灵架构相比,Ampere架构在包含层面没有变化,所以一个完整的GA102内核应该有7个GPC(图形处理集群),每个GPC包含6个TPC(纹理处理集群),每个TPC有2个streaming multiprocessor(SM,对应OpenCL中CU(计算单元)的概念,每个SM包含128个CUDA内核   

  

  所以真正的完整体应该是一共10752个cudacores,84个二代RT Core,336个三代Tensorcores。目前能达到这个数字的GPU在消费端都没有销售,分别是英伟达RTX A6000和英伟达A40 PCIe。显存直接配了惊人的48GB GDDR6,这是题外话。   

  

     

  

  前面提到的RTX 3090和RTX 3080没有使用完整的GA102核,其中RTX 3090的GA102屏蔽了两组SM,最后得到了10496个Cudacores,82个RTCores和328个TensorCores。   

  

  GeForce RTX 3080屏蔽了一个GPC,四个额外的SM和两组32位内存控制器,最终GeForce RTX 3080得到了8704 CUDA内核,68 RT内核,272 Tensor内核,320位内存总线。   

  

  我浪费了这么多心血,主要是想告诉你,GeForce RTX 3080 Ti的核心配置是最良心的。只是基于RTX 3090,再去掉两组SM,于是GeForce RTX 3080 Ti诞生了!   

  

     

  

  这款代号为GA102-225-A1 GeForce RTX 3080 Ti的GPU拥有80个SM、10,240个CUDA核心、320个第三代张量核心、80个第二代RT核心、320个纹理单元和112个ROP。为了区别于RTX 3090,官方的GPU Boost比RTX 3090低30MHz到1665MHz,但这对于AIC厂商来说不是问题。只要方案得当,相信突破2000MHz不成问题。未来还会有很多AIC豪华RTX 3080 Ti以超越RTX 3090创始人版为卖点。   

  

为了方便大家理解,我们将前面提到的几款GPU的主要参数罗列如下:

  


  

  


  

细心的同学已经发现,原本RTX 3080上让人觉得美中不足的10GB GDDR6X显存,终于升级到了12GB GDDR6X,显存带宽为912GB/s。

  


  

重返双槽位

  


  

对于看惯AIC或者RTX 3090的DIY发烧友而言,初看GeForce RTX 3080 Ti Founder Edition,你会觉得这块RTX 3080 Ti似乎有些迷你。与动辄3槽位或者2.5槽位不同,GeForce RTX 3080 Ti Founder Edition是标准的双槽位GPU,TGP 350W,沿用RTX 3090的12pin供电,自带12pin转8+8pin电源线。

  


  

  


  

是的,在参数上几乎接近于RTX 3090的GeForce RTX 3080 Ti Founder Edition走的是清秀路线。这意味着即使额外添加显卡支撑夹,也依然能确保GPU能够轻松安装在立式机箱中。

  


  

  


  

而在散热风格上,GeForce RTX 3080 Ti Founder Edition同样沿用了NVIDIA独家定制双风扇散热系统,配合燕尾式PCB让空气能够更快速通过显卡,从而同时达到静音和散热的效果。

  


  

  


  

即便如此,GeForce RTX 3080 Ti Founder Edition仍然是一块小RTX 3090,原本3槽位设计变成了2槽,也意味着散热效率不如3槽位。因此我们优先对RTX 3080 Ti进行了压力测试。

  


  

  


  

在Furmark压力测试下,能够看到RTX 3080 Ti的核心最高温度明显比RTX 3080和RTX 3090高出很多,最高达到77℃,不过对于现在的机箱散热而言,仍然能够轻而易举压住。

  


  

  


  

表面温度同样也不容小视。通过红外线检测可以看到GeForce RTX 3080 Ti Founders Edition表面的最高温度能够达到70℃以上,在目前所有GeForce RTX 30系列Founders Edition公版显卡中,RTX 3080 Ti可能是最热的,但也低于GeForce RTX 2080 Ti Founders Edition。

  


  

  


  

在AIC显卡日益变得臃肿的趋势下,GeForce RTX 3080 Ti Founders Edition给予另外一种可能性,那就是通过缩小扇热器重量,仍然能够确保RTX 3080 Ti发挥。

  


  

那么实际情况是否真的如NVIDIA所想?接下来就让我们进入跑分环节一探究竟。

  


  

  


  

4K光追一把手

  


  

Ampere架构的优势在NVIDIA一年的宣传之后,大家多少都有所耳闻,大致上可以分为:

  


  

第二代RT Core;

  

第三代Tensor Core;

  

更灵活的浮点运算机制;

  

GDDR6X显存;

  

PCIe 4.0接口。

  


  

其中第二代RT Core和第三代Tensor Core是最经常被提及的部分。

  


  

第二代RT Core在第一代的基础上,又增加了1个三角形位置内插模块、1个三角形求交模块,也就是说,在一个周期中,完成4次BVH,在完成2次三角形求交。特别是针对运动中的物体,2个新增的模块可以更快的实现三角形求交。特别是在启用运动模糊特效的前提下,安培Ampere RT Core性能整整提升了8倍。

  


  

  


  

第三代Tensor Core核心数量实际上没有增加,反而有所减少,但吞吐量提升了两倍,原因是与NVIDIA A100的GA100看齐引入了稀疏化加速。在深度学习中,通过抛弃不必要的分支,在保证准确度的前提下减少运算。事实证明,在DLSS不断进化下,所支持的游戏正在稳步提升。

  


  

  


  

更灵活的浮点运算机制,则是指Ampere架构下,GA102引入了新的数据通道和多一倍的FP32 运算单元,使得每个SM的FP32运算单元数量提高了一倍,每个SM每个周期可以跑128个浮点FMA操作或者256次浮点计算。

  


  

原本用于整数运算的INT32单元变成了FP32 + INT32运算单元,根据需求不同,单元会在FP32和INT32之间切换,这使得FP32单元在使用时成倍增加。而INT32数量变成FP32的一半其实更符合新游戏对浮点运算的要求,单元之间兼职切换也司空见惯。虽然在混合通道中FP32和INT32在同一个周期中只能执行其中一个指令,但由于每4个SM中仍然有1个数据通道留给FP32,在宏观层面依然是FP32和INT32并发执行。从这点来看安培Ampere的灵活度更高。

  


  

  


  

如前面所说,GeForce RTX 3080 Ti 显存为12GB GDDR6X显存,GDDR6X相当于GDDR6进阶版,由美光与NVIDIA共同研发,,能够每个时钟内发出4个不同的信令,本质上是每个时钟内实现2次位移,并且分成4级电压阶跃(4种信号电平),即PAM4。GDDR6X旨在通过在内存总线上使用多级信令来实现更高的内存总线速度,并获得更大的内存带宽。

  


  

  


  

最后是PCIe 4.0接口。无需多言,PCIe 4.0随着英特尔11代酷睿处理器和500系列主板推出正式成为主流,虽然对GPU的传输速率提升帮助并不大,但是引入了更多增强游戏体验的功能,比如后面会提到的Resizable BAR,未来将要实现的Direct Storage API、RTX IO等GPU直读SSD技术。

  


  

为了让RTX 3080 Ti的表现更直观,这里我们引用RTX 2080 Ti,RTX 3080以及RTX 3090作为对比,版本均为Founders Edition。同时配置则依然沿用了Z490平台,理由很简单,11代酷睿虽然IPC性能更高,但酷睿i9-10900K有10C20T那是真的快乐。

  


  

  


  

具体配置如下:

  


  

  

  


  

在3DMark Time Spy、3DMark Time Spy Extreme、3DMark Fire Strike Extreme、3DMark Fire Strike Ultra项目中,可以看到RTX 3080 Ti相对RTX 3090只有5%不到的差距,而相对RTX 3080能够提升6%到11%,相对RTX 2080 Ti更是提升了有35%到46%之多。

  


  

  


  

同样,在NVIDIA DLSS测试中,第三代Tensor Core优势愈发明显,相对RTX 2080 Ti提升129%,相对RTX 3080有78%的提升,距离RTX 3090只有3%的距离。

  


  

  


  

3DMark Port Royal是用来测试实时光线追踪性能表现的场景,RTX 3080 Ti相对RTX 3080和RTX 2080 Ti提升了12%和45%,距离RTX 3090只有4%的差距。

  


  

  


  

最后我们引用了Final Fantasy XV Benchmark在4K DLSS下进行测试,同样可以看到RTX 3080 Ti相对RTX 3080提升了12%,相对RTX 2080 Ti提升了39%,距离RTX 3090只有2%。

  


  

  


  

游戏体验:快乐再升一级

  


  

游戏则永远是甄别显卡性能的最理想途径,这里我们将游戏测试分成两个环节,一个是传统的游戏性能检测,另外一个则是结合DLSS和光线追踪技术,看看RTX 3080 Ti在主流游戏中的具体表现。

  


  

  


  

传统的游戏性能测试主要以4K分辨率为主,能够看出相对RTX 3080 Ti相对RTX 3090的差距非常小,最小只有1%的差距,最大8%。而相对RTX 3080,RTX 3080 Ti的提升明显,差距最多可以增长到20%,相对RTX 2080 Ti则有40%到80%以上的提升。

  


  

  

  


  

目前为止已经有超过140款游戏实时光线追踪技术和DLSS技术,3A大作支持这两款技术基本成为标配,3A大作支持光线追踪与DLSS也基本成为标配,无论对于开发团队还是对于玩家视觉体验而言,实时光线追踪技术再搭配深度学习超采样DLSS无疑都是很好的选择。

  


  

在RTX 3080 Ti与RTX 3090的对比中,基本只有1%到6%的差距,而对比RTX 3080,则能提升8%到20%,对比RTX 2080 Ti提升更为明显,最高可以达到62%的性能提升。

  


  

  

  


  

但GeForce RTX 3080 Ti对游戏的增强远不止于如此。得益于支持PCIe 4.0,RTX 3080 Ti开始允许工程师自定义基地址寄存器容量,即Resizable Base Address Register,简称Resizable BAR。这是一套允许CPU直接读取完整GPU显存的技术,CPU可以突破256MB的缓冲区限制,将更多的图像纹理、着色器、几何图形留在显存上。

  


  

事实上这套Resizable BAR规范在PCIe 4.0后才被提出,但仍然能够向下兼容PCIe 3.0,在Intel 300系列主板上同样也可以实现Resizable BAR技术,具体则要看厂商更新BIOS的情况。只要主板和游戏支持,意味着在同等的环境下,RTX 3080 Ti能给你提供更多的帧率,并且这项功能是免费的。

  


  

  


  

另外一个功能则能够通过RTX 3080 Ti帮你抢占FPS类游戏先机。在传统的系统延迟机制中,由于CPU与GPU的频率和运行速度不匹配,容易造成渲染队列冗长,关键操作不能第一时间反应在显示器和PC上。

  


  

  


  

这时候,名为NVIDIA Reflex的技术派上用场,它与特定型号的高刷新率显示器和鼠标协同工作,能够修正CPU与GPU之间处理速度不匹配的问题,消除冗长,更重要的是让鼠标的点击指令更快的到达屏幕,系统响应甚至可以比开启之前提升进50%。

  


  

  


  

Studio性能:向专业卡看齐

  


  

最后让我们来聊聊NVIDIA Studio。事实上大多数玩家在使用GPU玩游戏的同时,也会让其承担一定程度的创作内容,而随着GeForce与Quadro之间的接线愈发模糊之后,诸如Adobe、Autodesk等旗下的专业软件开始支持GeForce GPU加速。同时,在最新版的GeForce Experience更新后,也加入了对专业软件的设置的优化选项。

  


  

  


  

这里我们先尝试使用最为广泛的Adobe Premiere Pro CC,NVIDIA GPU本身在硬件上已经支持H.264和HEVC(H.265),只需要接入NVIDIA的视频编码API,就能实现GPU视频制作的加速。

  


  

因此在Adobe Premiere Pro CC中设置非常简单,只需要确保项目设置中的渲染程序基于CUDA加速,并且视频输出的时候由硬件执行即可。

  


  

  


  

在编码一段3分钟的4K视频能够看到,GeForce RTX 3080 Ti已经接近于RTX 3090的表现。

  


  

  


  

Octane Render是一款基于GPU实现物理渲染引擎,利用其可以为Autodesk Maya、3ds Max、MAXON Cinema 4D提供独立的渲染场景,同样可以看到RTX 3080 Ti距离RTX 3090只有3%左右的距离,而相对于RTX 3080则有20%和40%的提升。

  


  

  


  

对于诸如CATIA、Maya、Energy之类工业级专业的软件检测,这里我们用到SPECviewperf 2020基准测试,这是一款在图形工作站领域中最具权威的综合性测试软件,这里我们使用RTX 3090和RTX 3080 Ti进行对比,会发现两者之间基本只有8%的差距,符合预期。

  


  

  

  


  

直播和远程视频通话恐怕是更多数用户在家工作遇到的情形,为此NVIDIA Broadcast也更新到了1.2版本。NVIDIA Broadcast的好处在于,你无需专门为了直播和会议而打造一套专业的工作室装备,只需要一个摄像头,广角摄像头更佳,通过GPU的AI加速,就能实现一套专业设备的效果。

  


  

例如通过摄像头或者普通的麦克风,AI就能实现背景干扰音降噪,包括突如其来的汪星人叫声,亦或者昆虫声。如果通话时房间内产生回应,NVIDIA Broadcast同样也能帮你消除。

  


  

借助Tensor Core的AI性能,1.2版本NVIDIA Broadcast已经能够能够时间两种效果同时叠加,以达到更好的表现,例如在麦克风中同时加入噪音消除和房间回声消除的效果。

  


  

  


  

亦或者同时叠加背景和自动聚焦效果:

  


  

  


  

目前NVIDIA Broadcast 1.2已经能够支持OBS Studio 26以上的直播软件,特别是相机功能目前仍为Beta版本,通过NVIDIA Broadcast社区反馈,功能还会进一步升级。

  


  

成为平民级跑车

  


  

如果你对汽车略微熟悉,会发现不一定得迈凯轮、兰博基尼才能在纽博格林跑出好成绩,例如雷诺的梅甘娜RS、日产的思域Type-R,在纽博格林北环一样刷出不输超跑的单圈成绩。

  


  

NVIDIA GeForce RTX 3080 Ti亦是如此。即便比RTX 3090少了两组SM,但仍然不能阻止其拥有一块GA102 Ampere核心,它表现出来的战斗力已经轻松达到RTX 3090的90%甚至95%,如果依靠AIC堆料调教,相信战胜公版RTX 3090也不是问题。

  


  

  


  

更重要的是,RTX 3080 Ti定位依然是RTX 3080的进阶版,价格不会像RTX 3090那般夸张,并且限制挖矿性能。无论你是RTX 20时代的持币观望者,还是RTX 3080的用户,笔者都建议看准时机换上一块GeForce RTX 3080 Ti,用更少的钱体验RTX 3090性能上的高处不胜寒。

  


  

而现在,兴许阻碍玩家们入手GeForce RTX 3080 Ti的理由,只剩下一个合适的入手价格,以及充足的产能了。

  


  

相关文章