江湖车侠|| 万字长文,统计学家范剑青:把 AI 学习金融,变为现实( 五 )
以前最简单的做法是把每一个共同基金的额外收益平均作为统计量 , 这样的统计量肯定是相关的 , 有共同因子 , 且噪音比较大 。 我们所说的因子调整是学习共同的因子
并减去 , 这样得到的统计量是弱相关 , 且减少噪音 。
。 假设观测100天 , 只是做500只基金平均回报的直方图 , 基本分不出哪部分有技能 , 哪些没有 。
如果我们把共同因子先学习一下然后减掉 , 就比较容易区分了 。 因为是t3-分布 , 尾巴比较重(heavy-tailed) , 如果我们做鲁棒均值估计 , 就可以把这两者分得很开 。
跟
是有关系的 , 对这个模型我们如何操作?
我们对每一个宏观经济序列
和8个汇总宏观变量
做回归 , 这个拟合所得是X用W回归的拟合值 , 再对该拟合值做主成分分析 , 这样就把8个变量糅合到131个变量里 。
为什么这个方法可行?因为做回归从数学上来说是基于条件期望 。 我们做投影的目的是什么?先把
这部分的噪声平滑掉 , 这样就可以把因子学得更好 。 这是我们主要的想法 。
