E X P

  • 编辑
  • 评论
  • 标题
  • 链接
  • 查错
  • 图文
  • 拼 命 加 载 中 ...

      对于NVIDIA发布的Tegra 4以及后来的Tegra 4i,我们已经了解了不少了,前者是世界首款四核Cortex-A15处理器,官方表示其性能非常强劲,加载网页的速度已经超过了目前最强的苹果A6X。

      Tegra 4i处理器的CPU架构则返璞归真到了Cortex-A9,但是NVIDIA表示它与普通的A8架构也不一样,也是做了改进的。除此之外,Tegra 4的GPU以及icera i500基带以及Tegra 4/4i智能设备的公版设计——Phoenix平台也值得期待。

      时隔一个多月后,NVIDIA又公布了一些Tegra 4/4i架构设计的详细资料,并且有一张官方的性能测试表,我们熟知的安兔兔跑分高达36000多,让人十分惊讶,我们借着Anandtech网站的相关分析再来一探Tegra 4的强大之处。

      原文分了很多页,这里为了行文方便,重新排列了分页。

    CPU架构:Cortex-A15的利与弊

      首先来看Tgera 4的,它是基于ARM Cortex-A15架构设计的,专为性能而生,而ARM处理器中主打功耗比的则是Cortex-A7。根据之前的资料,A15架构的性能是A7的三倍,不过核心面积和功耗也达到了后者的4倍和6倍。

      NVIDIA给出的A15优点如上图所示,它拥有更多的执行单元、更优秀的分支预测设计以及更强的内存子系统。

      NVIDIA首先将Tegra 4与Tegra 3按照同样的SPECint2000测试测试配置好了,二者成绩都是520分,然后再对比二者的功耗,Tgera 4的每瓦SPECint性能是780,而Tegra 3只有450,T4比T3强了75%,也就是说如果在同样的性能下,A15架构的T4相比T3节省了40%的功耗。

      当然了,这项对比也不完全公平,Tegra 3的是运行在最高1.6GHz频率上的,对功耗要求自然比较高,而Tegra 4是限制频率的,大约只有825MHz,更低的频率意味着更低的电压,这可以降低功耗,换句话说NVIDIA在这里的对比虽然很有用,但这是一个小花招,有可能造成消费者的误解。

      从这里也可以看出NVIDIA准备如何将Tegra 4带到手机领域,那就是大幅降低其频率。如果825MHz的T4已经可以达到40nm工艺下的A9架构1.6GHz频率下的性能,那么实际应用中低频的T4也许就不会突破现有的功耗需求了。

      825MHz的频率也会变得很重要,因为Tegra 4处理器的第五个核心(同为A15架构)最高运行频率就是825MHz,假设NVIDIA能将这颗伴生核心的频率一直运行在825MHz,那么T4(用在手机上时)的典型功耗或许还不会让人很担心,不过峰值功耗依然会是一个问题。

    Cortex-A15架构设计

      A15架构的特点之前已经有过介绍,这里再来详细看一下。与Cortex-A9架构相比,其整数流水线从9级提高到了15级,这样可以提高处理器频率,不过长流水线也需要更强的分支预测设计。

      与A9架构相比,A15的前端提升了50%,而指令预取(Fetech)带宽加倍,可以提高指令的并行性。另外,为了充分利用3发射(3-wide)的能力,ARM极大地提升了重排序缓冲器(reorder buffer)以及相关数据结构部分的大小,举例来说,A9架构的重排序缓冲器可同时有32-40个解码指令,A15架构则提升到了128个,4倍于A9架构。

      可以这么说,A9架构只是前一代A8架构的正常进化版,但是A15相比A9则是一次架构设计的飞跃,很明显ARM这样的设计并不单单是为了应付智能手机的需求。

      再说执行单元,A15的设计也要比A9增强不少,前者的=拥有更多执行端口及执行单元,可以提升ILP(指令级并行)/单线程性能。ARM设计了多路、独立的指令发射队列(issue queues)以保持处理器高频率运行,每个队列可以接收三条指令,而所有队列都可以并行运作。

      A15架构的执行单元与A9一样是乱序执行(out of order,简称OoO),但也做了改进。所有FP(浮点)/NEON(多媒体指令)在A9上都是顺序执行的,但是A15架构中就可以OoO方式执行。不过A5架构依然不能重排序内存操作,独立的Load操作可以乱序执行,但是Stores存储不能先于Load操作进行。

      Cortex-A15架构重新回归到了集成L2缓存的路线,而不像A9那样使用的是独立IP单元。L1与L2缓存的延迟大体上不变,不过本文作者相信集成L2缓存相比A9的设计依然会有1-2周期延迟的惩罚。L2缓存的TLB及其他数据结构也做了相应的增加以匹配架构设计的变化。

      此外,Tegra 4的L1缓存依然是A9架构的32KB指令+32KB数据的组合,不过其L2缓存增加到了2MB,四个内核共享L2缓存,而伴生核心拥有独立的512KB L2缓存。

    Tgera 4i的A9架构改进及Tegra 4的频率

      看完Tegra 4的A15架构,再来看看Tgera 4i,它的CPU架构回到了目前的A9体系,但是它的A9也是经过改进的,或者说是不同的A9版本,比如Tgera 2的是A9 r1p1,Tegra 3用的是r2p9,而Tegra 4i用的则是r4p1。

      r4p1的A9架构有了明显改进,GHB、L2 TLB以及BTAC单元升级到原来的4倍,大小介于目前的A9与A15架构之间(16K预测器,512 entries及40906 entries),这些改进有助于提升分支预测水平,进而提升现有架构的IPC性能。

      A9 r4p1也增强了数据预读引擎,使用了更小的L1预读器,并设计了专用的缓存预载指令硬件单元。

      NVIDIA宣称通过这些改进,A9 r4p1在SPECint这样的测试中性能相比r2p9提升了15%,这个比例还是蛮惊人的,再加上2.3GHz的最高频率,Tegra 4i的性能相比Tegra 3会全面的进步。

    Tegra 4的频率

      高通的Krait(以及以前的架构)都是异步的,每个内核都运行在不同电压、不同频率下,不过大部分ARM处理器还是同步设计的,NVIDIA的SoC处理器也是如此。Tegra 4的每个内核都可以运行在1.9GHz,NVIDIA甚至宣称通过Boost加速频率它还可以运行在更高频率之上,这跟Tegra 3的设计相似,后者四核频率在1.3-1.4GHz,单核最高可达1.6-1.7GHz。

      Tegra 4的伴生核心运行频率在700-800MHz左右,GPU运行频率则达到了672MHz,相比Tegra 3的520MHz再度提升。

      此外,原文有单独的一页讲Tegra 4的设计的,并非技术或者规格上的介绍,而是谈Tegra 4的设计思路吧。作者首先认错了,Tegra 3的4-puls-1设计在作者早前的印象中就是个骗人的小把戏,他还在去年的MWC 2012大会上问NVIDIA是否会回归标准的四核设计,只不过得到的是NVIDIA标准的官方回答以及对方的惊讶,后者表示他们会继续致力于四核设计,今年推出的Tegra 4依然是四核。

      之后又谈到了一些PC处理器与移动处理器的不同,前者在不需要的时候可以通过Power Gate关闭,同时单线程性能不受影响,在需要的时候又可以恢复,因此多核设计并没有什么不好的,不过在移动处理器市场上,真正对多线程有需求的操作系统还是非常少的,因此多核处理器看起来没什么必要,而NVIDIA快速越过了移动处理器的双核时代,只不过Tegra 4跟Tegra 3一样都可以通过Power Gate关闭用不到的核心,所以多核对消费者的影响还不大。

      四核设计真正影响的其实不是消费者,而是NVIDIA。从经济角度看,NVIDIA还可以继续利用80mm2核心的Tgera 3,升级到28nm工艺之后在同样的核心面积下可以容纳的晶体管更多了,所以Tegra 4规格提升的同时核心面积依然维持在Tegra 3的水准。

      即便不考虑良率的区别,Tegra 4使用的28nm HPL工艺成本上显然也比Tegra 3的40nm LPG工艺要高,因此Tegra 4的成本无疑也是高于Tegra 3的。尽管如此,NVIDIA在核心面积上的保守性使得他们在面对高通竞争时在成本上有更大的弹性,这也许是去年他们赢得了Nexus 7以及Surface RT平板订单的原因。

      从长远角度来看,单纯出售SoC处理器并不是个赢得市场的好方式,但是它依然给了NVIDIA时间来弥补处理器缺失的部分,比如整合基带、RF无线前端、WiFi等,Tegra 4并不是我们见到的那种可以推动整个业界前进的处理器,但是它仍会在市场上取得一定位置。从商业角度来讲,NVIDIA还是做对了。

    Tegra 4的GPU及内存设计

      Tegra 4的GPU部分之前也介绍过了,这里再来看一下。


    Tegra 4 GPU架构


    Tegra 3、Tegra 2 GPU架构


    Tegra 4i的GPU架构

      NVIDIA的Tega 4的GPU核心技术上不是多么领先的,不过在80mm2这样的核心中,它变得很有竞争力了。除了专有的硬件像素及顶点单元之外,还有新的L2纹理缓存以提升带宽效率。

      Tgera 4不足的地方在于OpenGL ES 3.0支持,后者要求顶点、像素单元都支持FP32,但是Tegra 4只支持到FP24,另外Tegra 4还缺少ETC以及FP纹理支持,不过它依然应用了部分ES 3.0规范技术,比如多渲染目标等。

      对目前的应用来说,缺少OpenGL ES 3.0没什么影响,但是未来一两年的游戏恐怕会应用更多的ES 3.0技术,届时可能就会有影响了。以NVIDIA的实力完全可以设计出兼容ES 3.0的GPU,作者猜想NVIDIA不这么做可能是受到核心面积方面的影响,毕竟更强的性能就需要更多的晶体管。

      此外,Tegra 4i的GPU架构跟T4是一样的,只不过顶点单元从4组减少到了3组,像素渲染管线也只有2组,只不过规模更大,总的来说就是GPU核心单元数量从72个减少到了60个,核心频率也略微降到了660MHz,依然比Tegra 3强劲的多。

    内存系统设计

      Tegra 3被人诟病最多的地方之一就是内存系统了,同时期的高通、苹果以及三星都支持双通道内存模式,但是Tegra 3依然只有一条32bit内存控制器,不过Tegra 4身上终于改了。

      Tegra 4整合了两条32bit LPDDR3内存控制器,目前已经支持到1866MHz频率,未来还会更高。不过T4的内存不是PoP封装的,也就是说处理器内没有封装内存,内存要放置在PCB上,这种方式对设备的体积空间有一定要求,不过用在手机上应该还不是问题。

      Tegra 4i就没这么幸运了,它依然只有一条32bit LPDDR3内存控制器,跟Tegra 3一样,好处就是有可能使用PoP封装,内存集成在处理器内,封装版的LPDDR3内存频率为1600MHz,如果独立封装频率可达1866MHz。

    Tegra 4i及icera i500基带

      这一部分主要是讲icera i500及Tegra 4i整合基带的,简单来看一下。

      Tegra 4i就是早前传闻的整合基带、代号Grey的SoC处理器,2011年NVIDIA收购了基带厂商icera之后就开始尝试处理器整合基带的工作了。NVIDIA的工作进行的很快,一年多之后就已经开花结果,孕育出了整合基带的Tegra 4i以及独立的icera i500基带。


    Tegra里程碑路线

      i500基带在协议层及物理层与早前的i400系列是一样的,就是把改进了DXP使其支持15以及20MHz通道的LTE。

      整个堆栈有120万行C及DXP代码,编译后的容量达到了7.7MB。

      Icera 500基带的真正名字是ICE9405,包括了ICE9245收发器。ICE9045基带使用TSMC 28nm HPM工艺制造,而ICE9245依然是TSMC 65nm LP CMOS工艺。ICE9045基本支持3GPP空中接口。

      整个基带支持Category 3 LTE网络,未来还会支持Category 4级别的LTE。对WCDMA网络来世,它支持42Mbps的Category 24(使用64QAM双载波),同时也支持早期icera 450基带支持2x2 MIMO的Category 18 16QAM(84Mbps)网络,另外还有TD-SCDMA、GSM/EDGE网络,还支持包括AMR-WB、VoLTE/IMS在内的语音。如果使用第二颗ICE9245收发器,它还能支持4x4 MIMO配置的LTE网络。


    DXP内核


    DXP架构


    DXP软件层

      最后,NVIDIA还送了公版设计的Pheonix平台给网站测试,使用的是Tegra 4i处理器,下面这张就图就是100Mbps的Category 3 LTE网络测试验证。

    奇美拉图形引擎:支持HDR拍照

      在早前的CES发布会上,NVIDIA已经展示过了Tegra 4处理器在拍照技术的进步,比如支持硬件HDR,可以提升拍照及摄像的品质,现在更详细的介绍也来了。

      NVIDAI Tegra 4的图像处理器引擎叫做Chimera奇美拉,与传统的ISP管线相比,它通过使用新的API它可以借助GPU的能力来进行图像处理,之前我们介绍的主要是HDR拍照了。

      奇美拉引擎具备可编程特性,而且会通过API向第三方厂商开放,NVIDIA很快就会向OEM厂商自己开发的软件,其中就包括HDR以及物体追踪功能。

      此外,奇美拉引擎还支持另一个让人看起来很“怀疑”的功能——单帧HDR视频录像。目前的HDR录像中实际上都是双帧录制,比如一段720p、30fps的HDR录像在录制时其实是720p、60fps拍摄的,而NVIDIA的方法有些不同,他们在某些特定的传感器(索尼的IMX135以及Aptina的AR0833,还有其他的)上使用某种特殊方法将低曝光以及高曝光(+1段、-1段)隔行扫描的图像进行重组,然后再以某一帧的形式输出。

      这一处理过程是使用奇美拉图形引擎借助GPU的能力完成的,不过用的是NVIDIA自己开发的算法,最终的成品令人印象深刻,NVIDIA宣称其达到了3段式的动态范围(约24dB),而且没有人工组合的痕迹。

      以前展示的HDR录像在运动的物体上都会有光圈,因为传统的HDR方式是有两路不同的帧组合而成的,但是在NVIDIA展示的HDR录像中,即便是快速移动的物体也没有传统方式的那种光圈现象。

      作者还有幸到NVIDIA的摄像头调试实验室参观,他们在那里与手机厂商一道定制化CMOS传感器的功能,并一道利用NVIDAI的技术改进厂商的图像用户体验。整个实验室随处可见测试机器,比如Anandtech就有使用的GMB色彩校正仪等。

    NVIDIA Phoenix公版设计平台试玩

      早前就有消息说NVIDIA打算复制桌面显卡的路线,推出一大批公版设计的产品给厂商,这就像是公版显卡那样。这一次NVIDIA也送测了公版设计,虽然NVIDIA不会直接销售这样的FFRD(Form Factor Reference Design)设计,但是在某些OEM厂商中还是可以看到这样的设计。

      NVIDIA的FFRD设计名为Phoenix凤凰,可以支持Tegra 4或者Terga 4i处理器,5英寸1080p屏幕,支持LTE网络,而且机身相对来说很薄了,手头的这个使用的是Tegra 4处理器。

      Phoenix实际上有三种版本:Tegra 4的,无PoP封装内存(外置DRAM)的Tegra 4i的以及有PoP封装内存的Tegra 4i的,这三者的PCB都是一样的,区别在于SoC处理器不同,另外Tegra 4版的还额外带来icera i500基带。

      图片里展示的是Tegra 4(下)以及无PoP内存的Tegra 4i的PCB,前者在处理器旁边是额外的i500基带和MCP封装的DRAM,后者这部分区域都是空的。

      另外,在Tegra 4i上也看到了它真正的代号,既不是T30也不是T40,而是T8A。PCB的其他部分就跟目前的设备没什么区别了,而且使用的也是惯用的L形PCB。

    官方性能测试及总结

      原文中Tegra 4的性能是单独一页的,介绍的也不多,这里放到最后来看吧,因为NVIDIA提供的Tegra 4的性能测试实在是太强悍了。

      其中的一些测试我们不太熟悉,但是我们拿常见的几项来看。Sunsider测试中Tegra 4是506ms,而之前测过的处理器中1.6GHz的四核三星Exynos 4412在1000ms左右,高通APQ8064在1100ms左右,华为K3V2在1500ms左右,Tegra 4是目前处理器的两三倍的水平。

      安兔兔3.1.1测试中Tegra 4得分高达36127分,这是个什么概念,号称跑分天王的小米2的APQ8604得分在22000左右,而其他APQ8064机型往往只有2万甚至一万六七的样子,之前只有Intel的双核Atom才有3万出头的安兔兔跑分,Tegra 4的3.6万分也比目前的四核A9处理器高出一倍左右。

      再看3D性能,GLbenchmark的1080闭屏帧数是57fps,720p是274fps,小米2前者帧数在30fps左右,三星Exynos 4412更是只有17fps,之前最强的A6X也不过52fps,57fps的大大高过了早前曝光过的32fps的水平。

      虽然这是NVIDIA官方的测试结果,测试时肯定是以最高频率全速运行的,不代表最后成品的实际性能,但是能有这样的表现还是让人咋舌,可信与否现在谁也不好下定论,等设备上市再说吧。

    总结:

      文章最后分别就Tegra 4、基带以及奇美拉图形引擎做了点评。

      处理器方面,虽然现在的Tegra 3还算主流,但是Tegra 4在CPU及GPU上都有明显进步。ARM的Cortex-A15架构性能非常强,不过功耗上的代价也不低,好在从之前的Google Nexus 10平板上我们看到A15架构的功耗是可以控制住的,NVIDIA要想把Tera 4带到手机中去就必须大幅降低频率。

      低频率下Tegra 4的功耗比T3还低,不过性能就没优势了,NVIDIA必须寻找合适的定位。还有一个问题就是在NVIDIA的那个平衡点上,Tegra 4比高通的Krait 300/400架构的效率是高还是低,届时二者也会迎来新的对抗。

      Icera i500基带在高通统治的基带市场上也会是一个有趣的竞争对手,而竞争越多越好。NVIDIA收购Icera之后动作相当快,短时间内就推出了i500基带和整合基带的Terga 4i处理器。

      图像处理方面NVIDIA的奇美拉引擎也很有吸引力,很显然NVIDIA正打算借助GPU的性能来推动更多技术发展,我们看到了比传统方式更好的HDR视频录像及物体追踪等技术。

      文章最后称NVIDIA最大的优势不是架构设计,而是定位准确,知道如何用最合适的设计来赢得市场。毫无疑问,去年的Nexus 7以及微软Surface RT平板就是NVIDIA路线的证明。

      Tegra 4的架构在纸面上看起来很好,现在我们就等NVIDIA的销售团队带来正确的设备来吧。

    ×
    热门文章
    1小米SU7正式发布,售价21.59万元起
    2TRYX创氪星系品牌发布会:推出AMOLED屏水冷及海景房机箱
    3乔思伯TF2-360SC一体式水冷散热器上架:冷头带IPS屏,无风扇版售价749元
    4小米SU7卖21.59万元只是交个朋友,配件才是真赚钱?
    5AMD Granite Ridge ES发货清单被发现:Zen 5架构6/8核心,TDP为150/170W
    6Xbox Series X白色数字版现身,微软打算在今年内发售
    7英特尔下代GPU进一步曝光:两款芯片,对标RTX 4070/4060
    8微星发布SPATIUM M580 FROZR:带有塔式散热器的PCIe 5.0 SSD
    9乔思伯推出新款HP-600下压式风冷散热器:12CM薄扇+回流焊6热管,售价179元起
    已有 20 条评论,共 67 人参与。
    登录快速注册 后发表评论
    • 游客  2016-03-30 14:27

      该评论年代久远,荒废失修,暂不可见。

      支持(0)  |   反对(1)  |   举报  |   回复

      20#

    • 游客  2016-03-01 03:03

      该评论年代久远,荒废失修,暂不可见。

      支持(1)  |   反对(0)  |   举报  |   回复

      19#

    • 游客  2015-08-24 17:30

      该评论年代久远,荒废失修,暂不可见。

      支持(3)  |   反对(2)  |   举报  |   回复

      18#

    • 游客  2013-12-14 20:44

      该评论年代久远,荒废失修,暂不可见。

      支持(0)  |   反对(0)  |   举报  |   回复

      16#

    • 游客  2013-12-14 20:44

      该评论年代久远,荒废失修,暂不可见。

      支持(0)  |   反对(2)  |   举报  |   回复

      17#

    • 游客  2013-02-28 02:42

      该评论年代久远,荒废失修,暂不可见。

      支持(3)  |   反对(0)  |   举报  |   回复

      15#

    • 游客  2013-02-26 22:40

      该评论年代久远,荒废失修,暂不可见。

      支持(5)  |   反对(0)  |   举报  |   回复

      14#

    • 游客  2013-02-26 17:41

      该评论年代久远,荒废失修,暂不可见。

      支持(8)  |   反对(0)  |   举报  |   回复

      13#

    • 游客  2013-02-26 17:33

      该评论年代久远,荒废失修,暂不可见。

      支持(9)  |   反对(0)  |   举报  |   回复

      12#

    • 游客  2013-02-26 17:29

      该评论年代久远,荒废失修,暂不可见。

      支持(1)  |   反对(1)  |   举报  |   回复

      11#

    • 游客  2013-02-26 16:46

      该评论年代久远,荒废失修,暂不可见。

      支持(1)  |   反对(0)  |   举报  |   回复

      10#

    • 我匿名了  2013-02-26 15:42

      该评论年代久远,荒废失修,暂不可见。

      支持(1)  |   反对(0)  |   举报  |   回复

      9#

    • 超能网友终极杀人王 2013-02-26 15:37    |  加入黑名单

      该评论年代久远,荒废失修,暂不可见。

      支持(0)  |   反对(0)  |   举报  |   回复

      8#

    • 游客  2013-02-26 14:10

      该评论年代久远,荒废失修,暂不可见。

      支持(1)  |   反对(0)  |   举报  |   回复

      7#

    • 游客  2013-02-26 10:08

      该评论年代久远,荒废失修,暂不可见。

      支持(1)  |   反对(0)  |   举报  |   回复

      6#

    • 游客  2013-02-26 03:05

      该评论年代久远,荒废失修,暂不可见。

      支持(2)  |   反对(0)  |   举报  |   回复

      5#

    • 游客  2013-02-25 20:39

      该评论年代久远,荒废失修,暂不可见。

      支持(0)  |   反对(0)  |   举报  |   回复

      4#

    • 游客  2013-02-25 19:57

      该评论年代久远,荒废失修,暂不可见。

      支持(4)  |   反对(0)  |   举报  |   回复

      3#

    • 我匿名了  2013-02-25 14:53

      该评论年代久远,荒废失修,暂不可见。

      支持(0)  |   反对(1)  |   举报  |   回复

      2#

    • 我匿名了  2013-02-25 14:07

      该评论年代久远,荒废失修,暂不可见。

      支持(0)  |   反对(0)  |   举报  |   回复

      1#

    登录 后发表评论,若无帐号可 快速注册 ,请留意 评论奖罚说明