E X P
本文约 1660 字,6 张图表,正努力加载…
  • 编辑
  • 评论
  • 标题
  • 链接
  • 查错
  • 图文
  • 拼 命 加 载 中 ...

    近日我们注意到国内外有很多硬件媒体对几张疑似是新的Ampere GPU的核心架构图进行了报道,实际上这并不是很新鲜的“泄漏”,这两张架构图早在上个月17日就已经被人发在Twitter上面,因为我们不能认定它的真实性,所以便没有做报道。包括这两天传的“GA100的核心面积将达到826mm2”,其实都是来自于同一个Twitter帐号发出的消息。

    鉴于NVIDIA有一定可能会在三月份的GTC 2020上面发布Ampere GPU以及基于它的全新计算卡,我们收集了目前为止的传闻,汇总成了这篇文章。重要的事情说三遍,这是传闻、传闻、传闻

    GA103、GA104的核心架构图以及新SM的架构图

    在1月17日,一个新开的Twitter帐号发布了两张图,并且称这两张图就是NVIDIA尚未发布的GA103和GA104 GPU核心部分简图,随后这个帐号在1月18日继续给出了张SM单元架构图,简述了Ampere架构的主要改进点,我们将这三张图搬运在下方:


    疑似GA104核心图,6组GPC,每组GPC配置8组SM,共48组SM单元


    疑似GA103核心图,6组GPC,每组GPC配置10组SM,共60组SM单元


    疑似Ampere SM单元图,以上三张图片来自于Twitter帐号@CorgiKitty


    Turing GPU SM单元结构简图,作对比用

    我们先来看传闻中的Ampere SM单元架构图,与Volta和Turing架构一样,NVIDIA延续了他们的分精度计算理念,在Ampere GPU中分别设计了用于整数运算的INT32单元和用于浮点运算的FP32单元,但有一个很明显的改动:**原本只有一组的FP32单元倍增了。**然后是Volta架构中引入的Tensor Core,它的数量也倍增了。那么这样一来,单个SM中包含的CUDA核心数量就来到了128个,恢复到了Pascal架构的水平。

    再看到整个SM单元,很明显的一点是Turing架构引入的RT Core在Ampere上面进行了加强,泄露的架构图上面将新的光追单元称为“RT Core Advanced”,预计是在光追性能上面有加强,另外,每个SM单元原本配备的96KB L1高速缓存在Ampere上面扩大到了128KB。

    那么从这些改变来看,Ampere的单SM计算能力会有明显的增强,FP32单元的倍增让它的理论单精度浮点运算吞吐量至少是倍增的。而Tensor Core和RT Core的增强也是对RTX显卡上面的深度学习计算和硬件加速光线追踪这两个重要卖点进行了加强。

    看完了SM单元的变化,我们再回头看GA104。从命名上来看它是TU104的后继者,一般是作为消费级显卡的次旗舰出现的。我们将其与TU104的规格进行对比,首先GA104的SM单元数量仍然保持了48个,但每个SM单元所含的CUDA核心和Tensor Core数量都倍增了,所以整个GA104将拥有6144个CUDA核心。然后其显存控制器的数量仍然为8组,典型的显存位宽为256-bit,持平。值得注意的是架构图顶部的PCIe总线版本,升级到了4.0。

    另外一个核心代号是GA103,值得注意的是此前NVIDIA并没有使用过103这样末尾为数字3的代号,根据一贯的传统,在104之上的应该是102才对,所以这次NVIDIA可能是新设计了一枚高于传统次旗舰的GPU,用来替代原本102系GPU在消费级市场中的旗舰位置,也就是我们可能会看到的3080 Ti。

    这颗GA103的SM数量并没有完整版TU102那么多,相比后者要少12组SM,但由于单个SM中CUDA核心倍增,其整个GPU的CUDA核心只增不减,达到7680个,超过完整版TU102(Titan RTX)66.67%,在如此巨大规模的核心上有如此高的规模增大,实属恐怖。

    GA100的核心面积高达826mm2

    这条传言也是来自于这个Twitter帐号,帐号持有者在2月22日发布了如图的Tweet

    image-20200224095853081

    826mm2是什么概念呢?比近年来NVIDIA做过的最大的芯片——GV100还要大上一点点(815mm2),再加上工艺进步带来的晶体管密度提升,GA100的最终规模是相当恐怖的。

    甚至于这条传言本身可以得到一定的印证,Tweet作者在发出826这个数字前转发了一条去年5月份的传闻,里面已经清楚的写着GA100的面积将会超过800mm2,还给出了它有8个GPC,使用HBM显存这些信息。

    传闻总结:Ampere规模可能会有巨大提升

    所有的传闻都指出,Ampere的规模将会有巨大的提升,这很大程度上是得益于制程工艺的进步,Turing GPU使用的12nm FFN工艺只是老16nm工艺的改进版,在晶体管密度上面实际并没有太大的提升,但是Ampere将使用的7nm工艺就不一样了,它的密度提升是非常巨大的。

    但这也带来了一个隐患:功耗和发热。我们暂时还没有看到7nm工艺在超大核心上面的表现,旗舰级的GA100核心面积突破800mm2,而低了好几级的GA104在规模上实际也并没有小太多。核心面积一大,带来的问题就是良品率降低和漏电率的上升。专业级市场对这点并不敏感,但在消费级市场中,这将会影响到产品最终的表现,不过真实情况到底会如何呢?这个答案至少要到今年下半年才能揭晓了。

    最后,重申一遍,本文基于目前的传闻而写,不代表实际产品就一定会像本文中所写的那样。

    ×
    热门文章
    1超能课堂(223):手机内存都已经16GB了,PC的8GB内存还够用吗?
    2华为发布2020款MateBook X Pro:1TB固态仅需加价3000元
    3多项收费“吃相难看”、安卓/iOS价格歧视……11家音视频网站被约谈
    4Zen 3桌面版,代号Vermeer的Ryzen 4000系列可能会在九月份登场亮相
    5华为2020款Matebook X Pro默默升级到十代处理器,首发还优惠卖
    6联发科处理器被抓跑分“作弊”:P95性能比天玑1000L还高
    7联发科、三星或将成为华为5G基带芯片供应商
    8Fractal Design推出Celsius+系列一体式水冷散热器,全面升级ARGB
    9SK海力士推出PE8000系列企业级低功耗PCIe 4 SSD
    已有 22 条评论,每一条合规评论都是对我们的褒奖。
    • 游客 03-09 13:02

      推特那个老哥出新爆料了:GA102 FP32~140%的2080Ti

      支持(0)  |   反对(0)  |   举报  |   回复

      22#

    • 游客 02-25 10:39

      400亿晶体管了。。。成本高,amd要是能做好消费级市场可能有点成本优势,再看看吧。

      支持(1)  |   反对(0)  |   举报  |   回复

      21#

    • 游客 02-24 21:52

      你们不会真的以为下一代游戏卡架构叫ampere吧?

      支持(5)  |   反对(0)  |   举报  |   回复

      20#

    • 晕陀陀研究生 02-24 21:45

      那就真的价格坐火箭

      支持(0)  |   反对(1)  |   举报  |   回复

      19#

    • 游客 02-24 14:26

      真要搞这样的大核心,性能固然大增,但势必导致成本爆炸,最后成为高高在上的土豪奢侈品。

      支持(18)  |   反对(1)  |   举报  |   回复

      18#

    • 游客 02-24 14:12

      游客

      阿三本身没错,真的按4片HBM2去出,还继续卖599美刀,AMD得赔的底裤都没了.
      02-24 13:47
    • 支持(5)  |   反对(0)  |   举报  |   回复
    • 那是因为vega被HBM2显存拖延了发布时间,导致落后。
      但是amd总会冒险发布创新产品推动发展的值得尊重的。

      已有1次举报

      支持(5)  |   反对(1)  |   举报  |   回复

      17#

    • 游客 02-24 14:01

      至尚寶貝° 博士

      RDNA2还没泄露图,所以一切还是有希望,等RDNA2的大核心。8192sp的RDNA2 4096bit HBM2。
      VII的规格降频放在一代Vega 这才是Vega一代应有的,可惜阿三这个祸害。阿三唯一一点值得称赞的是他们的UI设计
      02-24 12:16 已有7次举报
    • 支持(4)  |   反对(8)  |   举报  |   回复
    • 之前你不是说RDNA2要逆袭,怎么怂了?

      已有3次举报

      支持(5)  |   反对(0)  |   举报  |   回复

      16#

    • 游客 02-24 13:47

      至尚寶貝° 博士

      RDNA2还没泄露图,所以一切还是有希望,等RDNA2的大核心。8192sp的RDNA2 4096bit HBM2。
      VII的规格降频放在一代Vega 这才是Vega一代应有的,可惜阿三这个祸害。阿三唯一一点值得称赞的是他们的UI设计
      02-24 12:16 已有7次举报
    • 支持(4)  |   反对(8)  |   举报  |   回复
    • 阿三本身没错,真的按4片HBM2去出,还继续卖599美刀,AMD得赔的底裤都没了.

      支持(5)  |   反对(0)  |   举报  |   回复

      15#

    • 游客 02-24 13:21

      就看amd表现了,假如amd不给力,则英伟达,性能提升25%,价格提升35%

      支持(4)  |   反对(1)  |   举报  |   回复

      14#

    • 下穿穿博士 02-24 13:02

      这一代显卡不但要面对AMD的追赶还要应付下一代主机

      支持(6)  |   反对(0)  |   举报  |   回复

      13#

    • 倪嘉声编辑 02-24 12:55

      游客

      该评论因举报过多,自动进入审核状态。

      ???你走错了,这里不是法老控批判现场

      支持(7)  |   反对(0)  |   举报  |   回复

      12#

    • 游客 02-24 12:38

      该评论因举报过多,自动进入审核状态。

      11#

    • 游客 02-24 12:18

      两个FP32就可以灵活变成一个FP64 就是一张计算卡 和vega类似

      支持(0)  |   反对(0)  |   举报  |   回复

      10#

    • 至尚寶貝°博士 02-24 12:16

      RDNA2还没泄露图,所以一切还是有希望,等RDNA2的大核心。8192sp的RDNA2 4096bit HBM2。
      VII的规格降频放在一代Vega 这才是Vega一代应有的,可惜阿三这个祸害。阿三唯一一点值得称赞的是他们的UI设计

      已有7次举报

      支持(4)  |   反对(8)  |   举报  |   回复

      9#

    • 倪嘉声编辑 02-24 12:04

      游客

      对比SM模块的运算单元可以看出,GA架构与TU架构的基本区别只是 L1缓存容量从96KB提升到128KB,但是FP32单元数量翻倍,INT32单元数量保持不变,这样做的直接影响就是缓存资源被稀释。也就是说,单个SM单元的效率其实更低。英伟达这是想用数量弥补效率下降?
      02-24 11:04
    • 支持(5)  |   反对(0)  |   举报  |   回复
    • 之前的缓存资源没有吃干净

      支持(0)  |   反对(1)  |   举报  |   回复

      8#

    • 游客 02-24 11:19

      游客

      TU102对比TU102,都是6GPC,然后前者的每GPC的SM模块是12个,后者是8个,每个SM模块有64个CUDA单元,最终前者有12*64*6=4608CUDA,后者8*64*6=3072CUDA。GA104是8*128*6=6144CUDA?TU102在每个GPC相比TU104多增加50%SM模块,显存带宽也多40%+,但是对于游戏性能的提升非常有效,只有20%~25%游戏帧率提升,而且这个提升还是在4K分辨率下,低分辨率下提升很少
      02-24 11:14
    • 支持(0)  |   反对(0)  |   举报  |   回复
    • GA104如果是8*128*6CUDA配置,256位GDDR6,那我推测是同频率性能跟TU102相比其实差不多!虽然前者有6144CUDA,后者只有4608CUDA,但是两者都是6GPC,而且后者显存带宽和ROP数量都多50%,TU102显存带宽和Rops优势完全可以抵消GA104的CUDA单元多1/3的优势,毕竟TU102的INT32单元数量比GA104的多50%!这样一来一去,TU102与GA104同频率性能差不多,不过GA104频率有优势,所以最终可能是GA104比TU102性能高10%左右

      支持(0)  |   反对(0)  |   举报  |   回复

      7#

    • 游客 02-24 11:14

      游客

      对比SM模块的运算单元可以看出,GA架构与TU架构的基本区别只是 L1缓存容量从96KB提升到128KB,但是FP32单元数量翻倍,INT32单元数量保持不变,这样做的直接影响就是缓存资源被稀释。也就是说,单个SM单元的效率其实更低。英伟达这是想用数量弥补效率下降?
      02-24 11:04
    • 支持(5)  |   反对(0)  |   举报  |   回复
    • TU102对比TU102,都是6GPC,然后前者的每GPC的SM模块是12个,后者是8个,每个SM模块有64个CUDA单元,最终前者有12*64*6=4608CUDA,后者8*64*6=3072CUDA。GA104是8*128*6=6144CUDA?TU102在每个GPC相比TU104多增加50%SM模块,显存带宽也多40%+,但是对于游戏性能的提升非常有效,只有20%~25%游戏帧率提升,而且这个提升还是在4K分辨率下,低分辨率下提升很少

      支持(0)  |   反对(0)  |   举报  |   回复

      6#

    • QQ23870862终极杀人王 02-24 11:13

      功耗不见降低

      已有4次举报

      支持(1)  |   反对(2)  |   举报  |   回复

      5#

    • 游客 02-24 11:04

      游客

      英伟达没有外在压力的话根本不会把规格放大这么多,挤牙膏多爽。唯一的可能性是AMD的大核心NAVI GPU实在太强了,英伟达被迫把牙膏挤爆。这个800+平方毫米的GA100很显然跟臭打游戏的没啥关系。7nm制程再加上800+平方毫米面积=成本爆炸
      02-24 10:59 已有1次举报
    • 支持(11)  |   反对(3)  |   举报  |   回复
    • 对比SM模块的运算单元可以看出,GA架构与TU架构的基本区别只是 L1缓存容量从96KB提升到128KB,但是FP32单元数量翻倍,INT32单元数量保持不变,这样做的直接影响就是缓存资源被稀释。也就是说,单个SM单元的效率其实更低。英伟达这是想用数量弥补效率下降?

      支持(5)  |   反对(0)  |   举报  |   回复

      4#

    • 游客 02-24 10:59

      英伟达没有外在压力的话根本不会把规格放大这么多,挤牙膏多爽。唯一的可能性是AMD的大核心NAVI GPU实在太强了,英伟达被迫把牙膏挤爆。这个800+平方毫米的GA100很显然跟臭打游戏的没啥关系。7nm制程再加上800+平方毫米面积=成本爆炸

      已有1次举报

      支持(11)  |   反对(3)  |   举报  |   回复

      3#

    • 游客 02-24 10:48

      AMD不给力,N卡随便提升10~20%,又可以继续战一年了。

      支持(3)  |   反对(0)  |   举报  |   回复

      2#

    • Elwin教授 02-24 10:46

      真的什么样我不知道,但我知道这是假的

      支持(2)  |   反对(0)  |   举报  |   回复

      1#

    我来评论
    为你推荐