NVIDIA RTX 30系列架构的详细讲解_火狐体育网页版链接哪里下,火狐体育手机版下载
当前位置:首页 > 产品中心 > MCU芯片

火狐体育网页版链接:NVIDIA RTX 30系列架构的详细讲解

 发布时间:2023-10-28 01:54:52 来源:火狐体育哪里下 作者:火狐体育手机版下载

  被玩家爱且恨着——他们带来了最近十多年来最好的显卡,同时也让高端游戏卡的价格高企,发烧显卡至少五位数起。

  在RTX 30系列显卡发布之后,玩家的不满似乎释然了,相比当前的图灵显卡,安培架构的RTX 3090/3080/3070显卡一下子变得真香了,因为它们性能翻倍不说,国内价格反而下降了。

  从这个规格表中能够准确的看出,与RTX 2080 Ti显卡相比,RTX 3090的标志性FP32性能从13.4T提升到了35.7T,翻倍还多,光追及AI加速提升也同样明显。

  与图灵显卡相比,安培GPU的变化之大让人惊讶,在过去十多年的显卡升级换代中,性能翻倍的提升很少见到了,NVIDA是怎么做到的?

  今天我们就来从详细地理解阅读一下安培GPU的架构,探究它到底带来了哪些技术升级以致于让NVIDIA创始人黄仁勋称之为有史以来性能提升最大的一次。

  对于来说,很关键的一部分是制程工艺,先进的架构也要通过工艺来实现,这是影响芯片能效、性能甚至成本的一大因素。

  对NVIDIA来说,他们的Volta伏特、Turing图灵两代架构都是台积电12nm FFN工艺了,这是台积电16nm工艺的改进版,如果再算上16nm的Pascal架构,实际上过去三代GPU都没有重大工艺上的升级了。

  在Ampere安培架构上,NVIDIA终于升级工艺了,只不过这次有两个意外——首先没选台积电,其次没有上7nm,而是三星定制的8nm工艺,虽然跟7nm看起来只差了1nm,但其实就是两代工艺。

  考虑到NVIDIA之前对工艺的表态,没用7nm工艺而是三星8nm工艺又在意料之中,最关键的问题就在于NVIDIA能做到多好。

  三星的8nm工艺是基于10nm工艺改良的,至少有LPP和LPU两个版本,前者适合移动SoC,后者适合高性能芯片,NVIDIA的定制大概是基于后者。

  与台积电的7nm工艺晶体管密度大约1亿/mm2相比,8nm工艺大概是6000万晶体管/mm2,但这是单一的SRAM芯片的对比,实际上GPU芯片很复杂,差距会缩小很多。

  根据是NVIDIA公布的信息,台积电7nm工艺制造的安培A100核心是540亿晶体管,核心面积826mm2,而三星8nm工艺制造的GA102核心是280亿晶体管,核心面积官方没公布,据悉是628mm2,也是大核心了。

  这么算下来,7nm A100核心的晶体管密度6560万晶体管/mm2,而三星8nm的GA102核心也有4460万晶体管/mm2——差距仍在,但似乎可接受了。

  三星8nm工艺的晶圆代工价格还是秘密,但是不论技术还是商业策略上,三星都会比台积电便宜很多,预计代工价格能差30%或者更高,所以这也是RTX 30系列显卡能够不涨价甚至降价的关键。

  那三星8nm工艺带来了多大的性能及能效提升呢?首先你们可以看到RTX 30系列显卡的频率提升了,从RTX 20系列的1.5GHz+提升到了1.7GHz+,升级工艺还是有性能提升的。

  不过RTX 20系列的加速频率实际能够达到1.9GHz甚至接近2GHz,RTX 30系列预计也就这个水平。

  但是能效还是有提升的,NVIDIA官方称在60fps性能下,图灵显卡的功耗大约有240W,安培显卡则是120W多点,算下来是1.9倍能效,提升了90%,同时温度还低了3度,噪音减少2分贝。

  总的来说,在工艺这方面大家对安培GPU有惊喜有失望,失望的是没有上预期中的7nm工艺(不管台积电还是三星),工艺依然升级到了8nm。

  但是NVIDIA工艺虽然并不算激进,但性能、能效进步还是挺大的,安培显卡各方面指标都是大幅胜过现在的图灵卡,且价格做到了不升反降,这也是不追求激进工艺的好处,反正之前12nm都能赢,现在上8nm更加稳妥了。

  发布安培的时候,NVIDIA CEO黄仁勋表示这是GPU有史以来最大的性能飞跃,而2018年推出图灵GPU时,老黄也是类似的说词——GPU有史以来最大的变革,这两个评价其实也没错。

  图灵GPU架构有很多第一次,首次支持RTX Core(光追加速单元),首次支持Tensor Core,同时还改进了CUDA内核,不过前两个是重点。

  在安培GPU上,RT Core、Tensor Core当然继续加强,不过最主要的亮点是CUDA架构的改进,性能翻倍的根源就在这里,我们先来看看这方面的变化。

  按照之前图灵GPU的路线走,安培GPU的SM单元增加的并不多,但实际上FP32性能翻倍了还多,算上频率,RTX 3080的理论性能差不多是RTX 2080的三倍了,这是怎么做到的?

  答案就是CUDA核心的FP32翻倍,但翻倍的方式有点特殊,每个SM单元中有4个分区,每个分区除了第三代Tensor Core核心之外,还有一组是16个FP32单元及16个FP32、16个IN32组成的单元,后者可以同时执行FP32或者INT32运算。

  只算FP32浮点的话,那么就是浮点翻倍了,因为图灵以及GA100都是每周期64个FP32浮点而已,现在可以做128个FP32运算了。

  提升FP32性能不论对游戏还是运算都大有裨益,但也需要配套的提升,GA102的L1容量提升了33%,L1带宽从116GB/s翻倍到219GB/s,共享内存的性能也从每周期64B翻倍到128B。

  声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。举报投诉IC设计IC设计+关注

  和RX6000显卡的混搭,整体性能较之2020年度的笔记本将有大幅度的提高。 如今,关于

  准备了至少四个变体。泄漏来自GiggleHD (通过Harukaze5719)谁报道,对于高端机动性阵容第一规格被发送出去的合作伙伴,我们大家可以通过CES 2021预计公告

  移动性产品正在开发 /

  光追技术和全新的RT核心、Tensor核心、流式多处理器,性能飞跃,价格也很良心,就是……太缺货了。

  3090,拍下了GA102核心的内核图,而芯片分析大神Locuza借此研究了GA102核心的内部模块布局。

  笔记本电脑GPU。机械师率先推出品牌旗下旗舰产品【战空】F117-X,搭载最新GeForce

  的精神继任者。取代Turing是安培,游戏玩家应该期望更好的性能和增强的功能,例如Dynamic Boost 2.0,Whisper Mode 2.0,Resizable-B

  专业图形显卡。借助高性能计算、深度学习融合技术,加快实时光线追踪、仿真模拟、处理大数据。

  闲鱼20块的小米路由器如何干200块钱的活?老毛子 padavan 系统粗略地介绍

上一篇:AMD RDNA 3 GPU架构设计图曝光 频率最高可达3Ghz 下一篇:南京台历架构怎样规划更有构思

  快速链接

火狐体育哪里下 新闻中心 支持与服务

  下载

开发工具 技术文档

  公司

招贤纳士 火狐体育手机版下载

  火狐体育网页版链接

简体中文 English
Copyright © by Vango 火狐体育网页版链接哪里下,火狐体育手机版下载 浙ICP备12042626号