E X P

  • 编辑
  • 评论
  • 标题
  • 链接
  • 查错
  • 图文
  • 拼 命 加 载 中 ...

      作为GTC 2012大会的一部分,最后的一天还有个采访活动,接受采访的是GK110的两位设计师,Jonah albums是GPU工程部门的高级副总裁,Danskin则是负责GPU架构的副总裁。


    GK110设计师Jonah albums(左)和John Danskin(右)

      以下就是Heise网站带来的报道,问答形式,内容很劲爆,提问的一方没什么客套,直入主题,回答的一方“太极推手”防守严密,从中能得到多少收获就看自己的理解了。

    Q:GK110性能比GK104强多少?

    Albums:我们已经公布了GK110的规格,但是最终的频率之类的还没有定,这是项目开发中很自然的事,问题是功能单元的数量还是显存位宽会影响产品的性能?基于这些因素,你们可以期待性能提升50%,而SGEMM之类对计算性能敏感的应用中,性能几乎与功能单元的数目成正比。(GK110有15组SMX单元,这么说性能比8组SMX的GK104可以高出近一倍了?)

    Q:也是就说,GK110的性能优势在50-70%左右?

    Albums:这是一般的情况,如果是在充分利用了Hyper-Q、Dynamic Parallelism以及双精度运算的HPC应用中,这个(性能提升)比列还会更高。

    Q:Kepler开发了多长时间了?

    Albums:这个取决于你问的是谁了。我是在G80架构完成之后开始Kepler项目的,大约是7年前了,直到三年前NVIDIA才开始有大批人手加入这个团队的。

    Q:为什么GK110架构要等到年底才能发布,比GK104晚了这么久?

    Danskin:这个问题很难回答。GK104功能更少,而且主要针对显卡而非计算应用,它必须要及时发布。另一方面,GK110则是一款大核心架构,TSMC在流片和制造过程中要扮演更大的角色。(TSMC又中枪了,不过这么复杂的芯片确实是个问题)

    Albums:GK110这样庞大的芯片不可能在新架构的同时再使用新工艺,还需要等28nm工艺更加成熟。

    Q:研发GK110架构最大的挑战是什么?

    Albums:很明显,就是新开发的Hyper-Q和Dynamic Parallelism技术

    Danskin:由于GPU需要自动刷新线程,Dynamic Parallelism技术实际上非常复杂,Hyper-Q对有些人很有意义,更容易实现而且会带来更好的性能。Dynamic Parallelism可以简化写代码的过程,这在以往是不可能的,对我们而言它是最重要的功能。

    Q:NVIDIA增强了GK110的双精度浮点性能,它是靠几个单精度核心联合工作实现的吗?

    Danskin:GK110有独立的双精度运算单元。(昨天PCGH的解析中已经明确了这一点。)

    Q:这是GK110为什么占用这么多核心的原因?

    Ablbums:实际上(双精度单元)占用的并不多。主要还是SMX单元增多带来的,另一个占面积较大的功能是ECC校验单元。

    Q:GK110的双精度性能是单精度的1/3,为什么不是1/2?

    Danskin:由于架构不同,1/2的比列很难实现。

    Albums:简单来说那样做需要更多的资源,我们要重新考虑寄存器之类的设计。

    Danskin:还有就是每瓦性能比的问题,我们认为目前的(1/3)比列是合适的。

    Q:GK110为什么使用384bit位宽而非512bit?

    Danskin:使用512bit位宽也会导致功耗及其他代价升高,GK110使用384bit位宽则可以在性能和代价中保持平衡。

    Q:目前的GK110只使用了13-14组SMX单元,未来是否会有开启完整15组SMX单元的产品?

    Albums:某种意义上说,很有可能。

    Q:GK110的硬件编码单元与GK104有什么提升吗?

    Ablums:GK110的硬件编码单元跟GK104是一样的。

    Q:你们认为未来的GPU开发最困难的挑战是什么?

    Danskin:最大的挑战是功耗。回顾一下过往的历程,我们以及AMD都是一样的:更高的性能,更高的功耗。现在一切都改变了,功耗是明显的分界线。另外,如以往走过的相似,先进的制造技术有利于改善(功耗)问题。

    Albums:主要挑战还是每瓦性能比,图形芯片设计中这倒是个次要因素。

    ×
    热门文章
    1酷冷至尊带来TD500 MAX机箱:预装风扇、360水冷和850W ATX 3.0电源
    2英特尔透露Copilot本地运行条件:至少需要40 TOPS算力的NPU
    3瀚铠推出Radeon RX 7700 XT星空:双100mm风扇+6热管,2.5槽,售价3229元
    4英特尔Lunar Lake MX参考平台曝光:8核心CPU及GPU,集成LPDDR5X内存
    5第三代高通S5和S3音频平台发布:分别面向高端和中端市场,提升无线音频体验
    6美光西安封装和测试工厂扩建工程启动:引入全新产线,制造更广泛的产品组合
    7两个版本的微星Claw性能对比:酷睿Ultra 5的游戏性能几乎与酷睿Ultra 7相同
    8矽速科技开发中的新掌机十分小巧,基于FPGA芯片打造
    9京东方凭定价赢得苹果OLED订单,或成为第四代iPhone SE独家面板供应商
    已有 3 条评论,共 3 人参与。
    登录快速注册 后发表评论
    • 超能网友终极杀人王 2012-05-18 15:08    |  加入黑名单

      该评论年代久远,荒废失修,暂不可见。

      支持(0)  |   反对(0)  |   举报  |   回复

      3#

    • 游客  2012-05-18 14:08

      该评论年代久远,荒废失修,暂不可见。

      支持(0)  |   反对(0)  |   举报  |   回复

      2#

    • 游客  2012-05-18 13:51

      该评论年代久远,荒废失修,暂不可见。

      支持(0)  |   反对(0)  |   举报  |   回复

      1#

    登录 后发表评论,若无帐号可 快速注册 ,请留意 评论奖罚说明