Turing Tensor Core——AI的灵魂
其实Turing里面真的有很多Volta的影子,比如Tensor Core首次出现在Volta架构中,而Turing架构对其进行了增强。还增加了新的INT8和INT4精度模式,FP16半精度也能够被完整支持。
Tensor中文里面就是张量,区别于我们常见的标量(0维)、矢量(1维)、矩阵(2维),张量拥有3维或者更高维,本质核心上就是一个数据容器,可以包含更多维度数据。而目前深度学习就是通过极大量数据运算计算出最终结果,通常会用到矩阵融合乘加(FMA)运算,而Tensor Core区别于ALU整数运算,天生就是为这种矩阵数学运算服务。
它可以将两个4×4 FP16矩阵相乘,然后将结果添加到4×4 FP16或FP32矩阵中,最终输出新的4×4 FP16或FP32矩阵。NVIDIA将Tensor Core进行的这种运算称为混合精度数学,因为输入矩阵的精度为半精度,但乘积可以达到完全精度。
每个Tensor Core可以使用FP16输入在每个时钟执行多达64个浮点融合乘加(FMA)运算,新的INT8精度模式的工作速率是此速率的两倍。Turing Tensor Core为矩阵运算提供了显著的加速,除了新的神经图形功能外,还用于深度学习训练和推理操作。
Tensor Core FP16、INT8、INT4算力,以RTX 2080 Ti为例
Pascal和Turing Tensor Core之间配置比较
NVIDIA将Tensor单元引入到Turing架构当中,意味着可以在游戏中首次实现深度学习。Tensor虽然为深度计算而生,但没有平台框架用不起来的呀。所以NVIDIA又造了个Neural Graphics Acceleration(NGX),专门建立起属于GPU的DNN深度神经网络,用于加速处理游戏中的部分特性,实现游戏也能AI。
有了Tensor Core与NGX的结合,它可以加速实现一些过去非常繁琐功能,可以在游戏中实现诸如深度学习超级采样DLSS、AI InPainting、AI Super Rez、AI Slow-Mo等功能。简直就是万物基于AI的真实写照!
注意NGX的功能与NVIDIA驱动密不可分,很多功能都是依赖于NVIDIA GeForce Experience软件实现的,会自动匹配Turing显卡并且下载NGX Core软件包,并且提供对应服务,比方说深度学习超级采样DLSS、AI InPainting、AI Super Rez、AI Slow-Mo等功能。
深度学习超级采样DLSS:
现在很多游戏画面不是直接渲染得出的,多数都有后处理,也就是各种抗锯齿技术。举个TAA例子,它是一种基于着色器的算法,它使用运动矢量组合两个帧来确定前一帧的采样位置,虽然性能开销差不多,但效果却不如其他AA技术。因此NVIDIA利用Tensor Core开发出了DLSS,实现在较低的输入样本数下更快地渲染,输出渲染画面与TAA质量相似。但由于Tensor Core的加速处理, RTX 2080 Ti的渲染能力要强得多,几乎是GTX 1080 Ti的2倍。
针对每一个游戏,会实现建立起对应的训练网络,收集数千个以64×超级采样生成参考画面,经过对像素点进行64次偏移着色合成输出后,理论上画面细节具有近乎完美的图像效果。同时还会生成正常的渲染图像,然后要求DLSS网络响应输出对应结果,观察与64×超级采样画面差异,调整网络权重,经过多次迭代以后,DLSS自行学习产生的结果将具有与64×超级采样画面相同质量的细节,还可以避免TAA产生的运动模糊等问题。
不过需要明确的是DLSS训练网络运行于NVIDIA的超级计算机上,而非你的显卡,只不过通过GFE下载了这个游戏DLSS网络权重参数,可以用非常低的性能开销复现了超算结果,这就是NVIDIA为什么要在Turing显卡上引入Tensor Core的原因。这同样意味着,每一个游戏都需要事先跑出自己的DLSS网络,然后由NVIDIA通过GFE软件分发给玩家,所以这也是为什么非Turing显卡不能使用DLSS的原因。
NVIDIA表示,DLSS画面效果可以达到2× TAA抗锯齿的水平,性能还能提高一倍;DLSS 2×就更牛逼,它想要创造的传统实时渲染无法做到事情,就是生成输出堪比64倍超取样级别的游戏画面。
首批支持DLSS(大力水手)的游戏,共15款
AI InPainting:说白了就是为了补全图片中缺失的内容,或者是帮你去掉不想要的东西,堪称最强PS抠图!而NGX InPainting算法依赖于来自大量真实世界图像的训练来合成新内容,它同样是运行于超算得出的深度神经网络中。详见我们的新闻——《NVIDIA再出AI黑科技,完美去除图片噪点、水印》
AI Super Rez:它可以将原视频的分辨率清晰地放大2倍、4倍、8倍,图像更加锐利。
AI Slow-Mo:利用AI人工智能技术,可以将普通常见的30fps进行智能插帧计算,可以获得240/480fps的慢动作视频。这个对于视频内容创作者来说可是个巨大福利,在一些需要慢放的镜头不再需要专门高帧率摄像头机,只要通过AI运算就能获得让人觉得流畅慢动作视频。详见我们的新闻——《NVIDIA AI黑科技,30fps可插帧成480fps慢动作视频》
游客 2019-07-16 21:16
该评论年代久远,荒废失修,暂不可见。
支持(59) | 反对(0) | 举报 | 回复
90#
超能网友博士 2018-12-27 21:28 | 加入黑名单
该评论年代久远,荒废失修,暂不可见。
支持(136) | 反对(1) | 举报 | 回复
88#
游客 2018-11-20 21:46
该评论年代久远,荒废失修,暂不可见。
支持(253) | 反对(0) | 举报 | 回复
87#
游客 2018-10-31 14:44
该评论年代久远,荒废失修,暂不可见。
支持(234) | 反对(0) | 举报 | 回复
85#
游客 2018-10-26 20:54
该评论年代久远,荒废失修,暂不可见。
支持(227) | 反对(1) | 举报 | 回复
84#
游客 2018-10-22 14:32
该评论年代久远,荒废失修,暂不可见。
支持(213) | 反对(0) | 举报 | 回复
82#
游客 2018-10-19 10:40
80#
游客 2018-10-15 04:23
该评论年代久远,荒废失修,暂不可见。
支持(72) | 反对(1) | 举报 | 回复
78#
游客 2018-10-15 02:45
该评论年代久远,荒废失修,暂不可见。
支持(20) | 反对(0) | 举报 | 回复
76#
游客 2018-10-14 07:38
该评论年代久远,荒废失修,暂不可见。
支持(20) | 反对(0) | 举报 | 回复
73#
游客 2018-10-13 07:04
该评论年代久远,荒废失修,暂不可见。
已有3次举报支持(31) | 反对(1) | 举报 | 回复
71#
超能网友教授 2018-09-20 15:59 | 加入黑名单
61#
游客 2018-09-20 12:23
53#
超能网友博士 2018-09-19 22:08 | 加入黑名单
23#
超能网友教授 2018-09-19 21:37 | 加入黑名单
14#
游客 2020-07-26 21:24
该评论年代久远,荒废失修,暂不可见。
支持(0) | 反对(0) | 举报 | 回复
93#
游客 2020-05-02 01:18
该评论年代久远,荒废失修,暂不可见。
支持(0) | 反对(0) | 举报 | 回复
92#
游客 2019-10-17 04:23
该评论年代久远,荒废失修,暂不可见。
支持(19) | 反对(0) | 举报 | 回复
91#
游客 2019-07-13 16:49
该评论年代久远,荒废失修,暂不可见。
支持(1) | 反对(0) | 举报 | 回复
89#
游客 2018-11-20 21:24
该评论年代久远,荒废失修,暂不可见。
已有2次举报支持(6) | 反对(2) | 举报 | 回复
86#
游客 2018-10-25 23:31
该评论年代久远,荒废失修,暂不可见。
支持(14) | 反对(0) | 举报 | 回复
83#
游客 2018-10-20 03:55
该评论年代久远,荒废失修,暂不可见。
支持(10) | 反对(3) | 举报 | 回复
81#
游客 2018-10-15 04:27
支持(18) | 反对(0) | 举报 | 回复
79#
游客 2018-10-15 02:52
该评论年代久远,荒废失修,暂不可见。
支持(2) | 反对(1) | 举报 | 回复
77#
游客 2018-10-15 02:41
支持(19) | 反对(0) | 举报 | 回复
75#
超能网友教授 2018-10-14 13:27 | 加入黑名单
本评论因举报过多被折叠 [+]74#
游客 2018-10-14 07:36
支持(19) | 反对(1) | 举报 | 回复
72#
游客 2018-10-13 06:59
支持(19) | 反对(0) | 举报 | 回复
70#
游客 2018-10-07 02:14
该评论年代久远,荒废失修,暂不可见。
支持(3) | 反对(1) | 举报 | 回复
69#
游客 2018-09-24 05:56
该评论年代久远,荒废失修,暂不可见。
已有3次举报支持(0) | 反对(7) | 举报 | 回复
68#
提示:本页有 3 个评论因未通过审核而被隐藏
加载更多评论