ARM|深度解读ARM新架构:大核进取、小核摆烂?( 二 )


首先是全新的大核Cortex-X3 , 它的改动无疑是此次新架构中最大的 。 其包括了比前代大10倍的L0 BTB(分支目标缓冲区)和大50%的L1 BTB , 这意味着大幅提高的分支预测性能 。 根据官方的说法 , Cortex-X3的分支预测延迟降低了12.2% , 预测错误率降低了6% , 同时减少了3%的前段停顿 。 由于分支预测性能大为提升 , 因此Cortex-X3的mop(微操作)缓存现在可以做得更小 , 同时流水线长度也进一步下降 。

这还没完 , 与Cortex-X2相比 , Cortex-X3的指令缓存提取宽度现在从5增加到了6、算术逻辑单元从4个增加到了6个 , 同时乱序窗口也进一步增大 。 而在后端部分 , 新架构的加载/存储宽度也增加了50% , 并增多了数据预取引擎的数量 。
更强的分支预测性能 , 更宽的执行窗口、更短的流水线级别 , 更快的存取速度 , 有没有觉得很眼熟?没错 , 这个改进方向 , 其实就是多年前已被Intel从奔腾4到酷睿的革新时 , 所证明的有效路径 , 只不过ARM如今将其在RISC处理器上“复刻”了一遍 。



相比于Cortex-X3的锐意进取 , Cortex-A715与(新版)Cortex-A510的改变就相对没有那么大了 。 其中 , Cortex-A715的改进主要来自于放弃对32位指令集的支持 , 从而大幅简化了指令解码器的设计 , 空出更多的晶体管位置来提高了缓存大小 。 而Cortex-A510的变化则更是语焉不详 , 现在只知道它具备了可选的32位支持、同时功耗略微下降而已 。

与CPU部分(特别是大核心)的改动相比 , ARM此次的新GPU变化显得就不是那么显著了 。 一方面 , 无论是Immortalis-G715、Mali-G715 , 还是Mali-G615 , 它们其实都是共享的相同架构设计(只是Immortalis-G715内部多了硬件光追电路) , 主要区别还是在于核心数量上做了明确限制 。
另一方面 , 与现有的Mali-G710相比 , 新款GPU在基础架构上将FMA乘加单元的数量翻了一倍 , 设计了用于抗锯齿的新型FP16计算单元 。 同时根据ARM方面的说法 , 新的GPU“在重负载场景下”的三角形生成率为现有的3倍 , 纹理映射速度是现有的2倍 。 不过 , 暂时还并不清楚这个倍数是来自底层架构的改进 , 还是来自于核心数量或频率的提升 , 因此仅仅做个参考就好 。 真正的GPU性能提升幅度 , 还得等到实际产品上市后才能有定论 。
市场分析:ARM笔记本或将兴起 , 入门手机也有望翻身
值得一提的是 , 在发布新一代产品线的同时 , ARM还给自家的软硬件方案起了一个新的名字 , 叫做“Arm Total Compute Solutions(直译为ARM整体计算解决方案)2022” , 缩写为ARM TCS22 。 同时 , ARM方面也将去年发布的上代架构随之“整合”为ARM TCS21 , 并同时预告了明年(TCS23)和后年(TCS24)的产品命名 。

这意味着什么呢?从这个举动中 , 我们至少可以挖掘出两条信息点 。 一是ARM似乎并不打算用新架构完全取代上一代的产品线 , Cortex-X2、A710和A510得到“重命名”或意味着它们的授权还将继续 。
但更进一步来说 , ARM从TCS21到TCS22的变化 , 以及目前官方已经“剧透”的TCS23和TCS24不难发现 , 一方面ARM在TCS22(也就是这一代的新架构上)删除了中核(Cortex-A715)对32位计算的支持 , 同时为“新版的”Cortex-A510小核增加了“可选的”32位计算功能 。

另一方面 , 在TCS23和TCS24的预告图里可以清楚地看到 , 接下来的两年里 , ARM每年都会更新大核与中核设计 , 但小核却只会在2023年迎来一次换代 , 2024年则是不更新、直接沿用 。
与此同时 , 在此次TCS22官方“样板设计”中 , ARM不仅将新架构支持的最大核心数量从8核扩展到了12核 , 而且还给出了多个以大核、中核为主的组合方案 , 甚至出现了完全不采用A510小核 , 仅由大核与中核构成的“超高性能设计” 。

这或许意味着 , ARM“仗着”新架构 , 特别是大核(Cortex-X3)、中核(Cortex-A715)性能与能效比的显著改善 , 明显在有意将其往更高的市场定位上推 。 或许 , 未来我们就会看到更多基于ARM新架构的笔记本电脑SoC方案了 。
其实回溯历史不难发现 , 此前的Cortex-A53架构用了四年(2014-2017)才换代 , 而Cortex-A55架构更是“坚挺”了至少五年(2018-2022)之久 。 相比之下 , 去年的“初版”Cortex-A510架构因为完全不兼容32位代码 , 其实并不适合入门级设备与其他低功耗设备使用 。
如此一来 , 今年的“新版”Cortex-A510实际上才是ARM v9指令集下 , 第一款真正可以用于入门级设备的低功耗CPU架构设计 。 而最快到明年 , 它就将会被更新的架构所取代 。