作为AMD新时代的两大处理器架构,高性能领域的推土机(Bulldozer)已经惨遭滑铁卢,改良版的打桩机(Piledirver)虽有进步也无济于事,低功耗领域的山猫(Bobcat)却是异军突起备受喜爱,后继升级版的美洲虎(Jaguar)自然也是万众瞩目,今年的两大低功耗APU Kabini、Temash都会用到它,会出现在笔记本、一体机、迷你主板套装、平板机等各种产品中。
正在举行的第60届国际固态电路会议ISSCC 2013上,AMD就披露了美洲虎架构的诸多技术细节,相当专业。
首先是美洲虎、山猫的对比,进步可以说是全方位的,几乎每一项指标都有了大幅度甚至经常是翻番的提升。
- 生产工艺:从40nm升级为28nm,均来自台积电(GlobalFoundrIEs再踩你一脚)
- 单个内核面积:从4.9平方毫米减小到3.1平方毫米
- 最大核心数量:x86-64,从2个翻番至4个
- 缓存:基本保持不变,还是一级双路32KB指令、八路32KB数据,二级每核心十六路512KB,当然二级缓存总量会从1MB翻番至2MB
- 核心平面布局:从159900个增至194490个。这个你只要简单地理解为核心电路设计规模增大了20%以上就差不多了
- 发射宽度:双宽度不变
- 物理寻址:36-bit增至40-bit
- 载入/存储带宽:每时钟周期8Byte翻番至16Byte
- 浮点单元数据路径:64-bit翻番至128-bit
- 调度器查询:增大25-50%
再来看美洲虎架构上的一些主要特性:
- ISA指令集架构增强:这个是重中之重,包括SSE4.1/4.2、AVX、AES、F16C、BMI1等等相当丰富,比高性能核心并不逊色多少,这也是Atom所无法比拟的
- 4×32B指令缓存循环缓存,改进功耗
- 改进指令缓存预取器,提升IPC,估计可比山猫提高15%以上
- 增加硬件整数除法器
- 二级缓存预取器
- 改进C6、CC6电源状态开关延迟
- 典型应用中,时钟栅极可占整个平面布局的92%以上
制造技术上,美洲虎使用的是台积电28nm Bulk HKMG,11个金属堆栈,比山猫多出1个,但因为工艺先进,间距小了很多,所以核心面积才缩小了三分之一以上。
处理器内部模块分布示意图(局部):下方是四个CPU核心(不知道双核心是屏蔽还是原生?),上方是共享的二级缓存。
核心平面布局图:这是单个核心的各个模块,都是和真实情况一一对应的,当然是伪色彩。
核心电源栅极:这是降低功耗尤其是低负载、待机功耗的关键,也是最高效的方式。它可以彻底关闭暂时无用处的模块,而不同于简单的屏蔽。
这个是讲如何控制电源栅极的,我们就不管它了。