• 双精度浮点性能大幅提升
单精度实数占4个字节(32位)内存空间,其数值范围为3.4E-38~3.4E+38,只能提供七位有效数字。双精度型占8个字节(64位)内存空间,其数值范围为1.7E-308~1.7E+308,可提供16位有效数字。双精度的浮点计算在高性能计算中有着核心的重要位置,在求解线性代数中、数值计算量子化学等中都会需要双精度浮点运算。
![]() |
Fermi架构为支持双精度浮点运算进行了特别设计,FPU单元放到了CUDA Core中,每2个CUDA Core在一个周期内可以完成1个64bit的双精度浮点数FMA操作,也就是每个SM(32个CUDA Core)在一个时钟周期内可以完成16个双精度浮点数操作,单精度与双精度的执行性能达到2:1。
相比之下,GT200架构下的每个SM(8个CUDA Core)只有1个双精度浮点运算单元,单双精度的执行性能为8:1,可见Fermi的双精度浮点性能有着显著提升,初步估算它的双精度浮点性能是GT200架构的4倍以上,这是一项非常重要的改进。
• Dual Warp调度策略
在SM内是执行程序时是以Warp为单位的,32个thread为一组Warp。
![]() |
Fermi的每一个SM都有两个Warp调度器和指令发送器,Dual warp调度机制可以同时并发调度两个warp的一条指令分别在16个一组的CUDA cores上进行计算,或者在16个LD/ST单元运行,或者4个SFU上运行。Fermi的调度器并不需要对指令流间的相依性进行检查,利用这样的调度机制,可以让硬件的计算能力达到极致。
大多数的指令都能实现双发射,例如两条整数指令、两条浮点指令或者混合的整数、浮点、Load/Store和SFU处理指令的组合都可以被并发执行,单精度和双精度的指令一样可以并发执行。
• 64KB可配置的Shared Memory/L1缓存
在执行CUDA程序时,每个CUDA Core对应一个thread,每个SM则对应一个thread block(线程块),SM内的Shared Memory(共享内存)对可编程性和运行效率提供了强力支持,它可以让同在一个thread block的线程进行协作,能重复利用片上内存,减少对片外内存访问。共享内存在许多高性能CUDA应用程序中起到了重要作用。
![]() |
G80和GT200的每个SM都只有16KB的共享内存,Fermi架构中,每个SM的片上内存达到64KB,重要的是这64KB可以被配置成48KB的共享内存和16KB的L1缓存,或者配置成为16KB的共享内存和48KB的L1缓存。
对于已经使用共享内存的程序来说,可以提供3倍于上一代的共享内存支持,尤其是那些对带宽要求较高的程序获益更多。对一些已经使用了共享内存作为缓存的应用程序来说,可以转而直接使用系统硬件提供的缓存,同时还可以继续使用16KB的共享内存。最理想的是,一些原本就没有使用共享内存的程序,可以直接利用L1缓存,使得程序运行时间缩短,得到更高的性能。
游客 2012-08-09 02:54
该评论年代久远,荒废失修,暂不可见。
支持(0) | 反对(0) | 举报 | 回复
48#
游客 2010-04-15 21:17
该评论年代久远,荒废失修,暂不可见。
支持(0) | 反对(0) | 举报 | 回复
47#
游客 2010-04-05 12:58
该评论年代久远,荒废失修,暂不可见。
支持(0) | 反对(0) | 举报 | 回复
46#
游客 2010-03-31 10:50
该评论年代久远,荒废失修,暂不可见。
支持(0) | 反对(1) | 举报 | 回复
45#
超能网友管理员 2010-03-31 09:16 | 加入黑名单
该评论年代久远,荒废失修,暂不可见。
支持(0) | 反对(1) | 举报 | 回复
44#
游客 2010-03-30 20:15
该评论年代久远,荒废失修,暂不可见。
支持(0) | 反对(1) | 举报 | 回复
43#
游客 2010-03-29 23:44
该评论年代久远,荒废失修,暂不可见。
支持(0) | 反对(0) | 举报 | 回复
42#
游客 2010-03-29 15:30
该评论年代久远,荒废失修,暂不可见。
支持(0) | 反对(0) | 举报 | 回复
41#
游客 2010-03-29 14:49
该评论年代久远,荒废失修,暂不可见。
支持(0) | 反对(0) | 举报 | 回复
40#
游客 2010-03-29 13:03
该评论年代久远,荒废失修,暂不可见。
支持(0) | 反对(0) | 举报 | 回复
39#
超能网友一代宗师 2010-03-29 11:03 | 加入黑名单
该评论年代久远,荒废失修,暂不可见。
支持(0) | 反对(0) | 举报 | 回复
38#
游客 2010-03-28 22:12
该评论年代久远,荒废失修,暂不可见。
支持(0) | 反对(0) | 举报 | 回复
37#
超能网友大学生 2010-03-28 19:39 | 加入黑名单
该评论年代久远,荒废失修,暂不可见。
支持(0) | 反对(0) | 举报 | 回复
36#
超能网友教授 2010-03-28 13:51 | 加入黑名单
该评论年代久远,荒废失修,暂不可见。
支持(0) | 反对(0) | 举报 | 回复
35#
游客 2010-03-28 13:29
该评论年代久远,荒废失修,暂不可见。
支持(0) | 反对(0) | 举报 | 回复
34#
游客 2010-03-28 12:28
该评论年代久远,荒废失修,暂不可见。
支持(0) | 反对(0) | 举报 | 回复
33#
游客 2010-03-28 10:35
该评论年代久远,荒废失修,暂不可见。
支持(0) | 反对(0) | 举报 | 回复
32#
游客 2010-03-27 14:52
该评论年代久远,荒废失修,暂不可见。
支持(0) | 反对(0) | 举报 | 回复
31#
超能网友管理员 2010-03-27 14:26 | 加入黑名单
该评论年代久远,荒废失修,暂不可见。
支持(0) | 反对(0) | 举报 | 回复
30#
超能网友初中生 2010-03-27 14:18 | 加入黑名单
该评论年代久远,荒废失修,暂不可见。
支持(0) | 反对(0) | 举报 | 回复
29#
游客 2010-03-27 14:03
该评论年代久远,荒废失修,暂不可见。
支持(0) | 反对(0) | 举报 | 回复
28#
游客 2010-03-27 13:57
该评论年代久远,荒废失修,暂不可见。
支持(0) | 反对(0) | 举报 | 回复
27#
超能网友教授 2010-03-27 13:39 | 加入黑名单
该评论年代久远,荒废失修,暂不可见。
支持(0) | 反对(0) | 举报 | 回复
26#
游客 2010-03-27 13:11
该评论年代久远,荒废失修,暂不可见。
支持(1) | 反对(0) | 举报 | 回复
25#
游客 2010-03-27 12:47
该评论年代久远,荒废失修,暂不可见。
支持(0) | 反对(0) | 举报 | 回复
24#
游客 2010-03-27 12:43
该评论年代久远,荒废失修,暂不可见。
支持(0) | 反对(0) | 举报 | 回复
23#
游客 2010-03-27 12:15
该评论年代久远,荒废失修,暂不可见。
支持(0) | 反对(0) | 举报 | 回复
22#
游客 2010-03-27 12:13
该评论年代久远,荒废失修,暂不可见。
支持(0) | 反对(0) | 举报 | 回复
21#
游客 2010-03-27 11:36
该评论年代久远,荒废失修,暂不可见。
支持(0) | 反对(0) | 举报 | 回复
20#
游客 2010-03-27 11:30
该评论年代久远,荒废失修,暂不可见。
支持(0) | 反对(0) | 举报 | 回复
19#
加载更多评论