傻大方


首页 > 潮·科技 > >

功耗|既快又准并且低开销!一作亲解MICRO 2021最佳论文:一种自动化功耗模拟架构( 三 )



按关键词阅读: 人工智能 机器人 疫苗 初创公司 快公司 cobi


我们想要做的是训练出既准确又效率高的F。强调一点,我们的工作始终主要关注的是动态的power。由于当代CPU都非常复杂,并不是那么容易做,因此我们就要简化F模型。

核心思想
开始我们认为一个线性的模型,就已经足够提供既准确又快的power的估计。我们对动态的功耗进行模拟,计算的是电容的充放电,把所有的充放电的电容加起来得到总电容,然后乘以电压的平方,就是cycle的功耗。因此它本身就是一个线性模型,我们认为当然也可以用一个线性模型来模拟总功耗的过程。
但是即使我们有一个线性模型,但这个线性模型还是M个input,M依然非常大,还是很复杂。
我们的第二个核心的思想是:一小部分cycle就能够提供足够的信息。因为很多信号都是相关的并不是完全相互独立,很多信号甚至完全一样。只需要看一部分最有代表性的信号,就足够作为模型的输入。
功耗|既快又准并且低开销!一作亲解MICRO 2021最佳论文:一种自动化功耗模拟架构
文章插图

因此我们从M个信号中自动选取Q个有代表性的信号,我们把它叫做power proxies,然后让Q远小于M,这样模型就会变得很简单。
具体做法
功耗|既快又准并且低开销!一作亲解MICRO 2021最佳论文:一种自动化功耗模拟架构
文章插图
我们用一种叫做剪枝的算法——pruning,比如开始是一个linear model,在 Linear model上面还要加一个penalty term,这个penalty term会惩罚所有的weight,如果weight过大,loss就会增加,使weight减少。这样就可以让绝大部分weight变为0,剩下则是不是0的weight,我认为这些不是零的weight很重要。
即使加了penalty之后,weight还必须要不是0,将不是0的weight保留,对应的信号就是要选取的信号。
在选取的过程中,会加一个非常强的penalty strength,使99.9%的weight全都变成0,这样可以使选取的信号最具有代表性。对penalty加的是一个叫做Minimax concave penalty(MCP),用于剪枝算法。
选取有代表性的信号,基于这些信号,重新训练一个线性的模型,这个线性的模型就是最终的模型。这是第一步,也是最重要的一步。
选用 MCP算法的原因
在剪枝的时候,选用的是 MCP算法,而不是很多人熟悉的Lasso或是其它的。是因为要让选取的Q远小于M,penalty实际上就要加的非常大,因此惩罚很大。
功耗|既快又准并且低开销!一作亲解MICRO 2021最佳论文:一种自动化功耗模拟架构
文章插图
图注:对不同的weight,Lasso和MCP的惩罚
如图所示,Lasso很简单,它是一视同仁的,weight越大,惩罚就越大。如果这样就相当于所有的weight都在被惩罚。这会导致,在惩罚性很大的情况下,即使那些不是0的weight,也会被压在一个非常小的值,模型就会变得不准确。由此基于一个不准确的模型,选出来的信号我们认为也是不准确的。
为了避免这种情况,所以我们使用了MCP。而使用MCP,当weight大到一定程度时,不会继续增大penalty。用MCP训练的模型,在整个训练过程中准确率都是比较高的,基于准确的模型做的剪枝,我们认为也是比较准确的。
另外我们观察到MCP选择的信号,彼此之间的相关性更小,这说明我们选的信号是有代表性的。
全自动机器生成的基本算法
除了APOLLO的算法之外,我们还有一套算法来提供训练数据来源。我们用纯机器自动生成很多workload,基于这些workload,来生成上述的input x 、label y等等,workload的生成有一套遗传算法。
开始有一些随机 workload,由于是随机生成的,因此它的功耗比较低。我们选取里面功耗高的做crossover或mutate,这就是遗传算法基本操纵。然后生成一些更高功耗的workload,一代又一代功耗会不断增加。
最后生成的workload,我们把它叫做power virus,它们的功耗非常高。这样我们就既得到了低功耗的workload,又有高功耗的,把两个掺在一起,训练数据就很全面了,就能够很准确的训练模型,这是我们全自动机器生成的一个基本算法。
实验结果
功耗|既快又准并且低开销!一作亲解MICRO 2021最佳论文:一种自动化功耗模拟架构
文章插图
首先我们的实验是基于Neoverse N1和Crotex A77这两个CPU来做的,因此我们既测了服务器端,又测了移动端的CPU,让保证它在所有的CPU上都有很好的表现。
测试的时候也需要workload,这些workload是工程师手动写出来的,非常具有代表性。我们选选择了12个,既有有低功耗也有高功耗,还有快速变化的和保持不变的,覆盖了各种类型。


稿源:(雷锋网)

【傻大方】网址:/c/1122a10022021.html

标题:功耗|既快又准并且低开销!一作亲解MICRO 2021最佳论文:一种自动化功耗模拟架构( 三 )


上一篇:频段|T-Mobile:已经提前实现2021年的目标,5G网络覆盖2亿人

下一篇:小米科技|华为最新平板电脑首发:黑科技满满,外形酷似微软Surface Pro 8