CDA LEVEL 1 考试,知识点汇总《回归分析》一、基本概念二、基本假设三、检验方法四、参数估计五、判定系数六、例题精讲
原标题:CDALEVEL1考试 , 知识点汇总《回归分析》
一、基本概念1.线性回归的出现
当被解释变量和解释变量都为连续型 , 且存在线性关系时 , 可以采用线性回归对被解释变量进行预测 。
多元线性回归的出现是非常自然的 , 由于在一元线性回归中 , 因变量只能依赖一个自变量来解释 , 换一句话说 , 就是我们只能在一维空间中来解释世界 , 这是十分糟糕的 , 毕竟事物之间的关联是非常复杂的 , 只用其中一个变量来解释 , 总是显得那么苍白和无力 。
下面我们就来以“房价”和“客户价值”为因变量 , 探索一下影响他们的自变量 。 首先 , 影响房价的因素有哪些呢?
文章图片
文章图片
因此 , 我们不难发现 , 在用更多变量来解释因变量 , 显然会更加全面、丰富、合理和科学 。 与一元线性回归类似 , 一个含
有k个自变量的多元线性回归模型可以表示为:
y=Bo+Bixl+B2x2++bx+8
,β , B1,B,,为模型参数 , E为误差项 , 来解释不能被自变量线性关系解释的部分 。
二、基本假设多元线性回归的基本假设
文章图片
三、检验方法1.线性关系假设——线性关系检验
文章图片
2.线性关系检验——回归系数检验
文章图片
3.期望为0的假设
(1)假设检验方法:(图形法)可以直接绘制散点图 , 查看残差是否对称分布在0的两侧;(统计检验)可以用假设检验中的t检验方法 , 其原假设为H0:E=0 , 具体操作将在案例中展示 。
(2)假设失效的影响:如果残差的期望不等于0 , 而等于其他的某个常数 , 那么这个常数就应该出现在多元线性回归的常数项内 。
(3)假设失效解决方法:如果失效 , 考虑是否强制将常数项设置为 , 或考虑异常值问题 。
4.同方差假设
假设检验方法:(图形法)对残差以及因变量的拟合值作图 。
如果没有异方差 , 那么残差和因变量拟合值构成的散点应该是完全随机的 , 其趋势线应该是几乎是水平的 。 上图中间的趋势线存在弯曲 , 即存在一定的异方差 。
文章图片
除了作图 , 我们也可以选择Breusch-Pagan检验 , 注意该检验的原假设是同方差 , 备择假设是异方差 , 这样读者根据输出的P值就可以直观判断了 。
假设失效的影响:如果误差是异方差的 , 那么OLS估计的标准误差将不可靠 。
假设失效解决方法:克服异方差性的影响 , 我们可以尝试对因变量做一些非线性变换 , 如等等 。
5.正态性假设
假设检验方法:(图形法)做QQ图 。
QQ图的解读十分简单 , 如果散点在直线上或者直线附近 , 那么我们就可以认为数据是正态分布的 , 否则就任务不是正态分布 。 对于正态分布的统计检验 , 我们可以选择KS检验(Kolmogorov–Smirnovtest) , 其原假设:数据是正态分布的 。 这样读者可以直接根据输出的P值来对检验结果进行分析 。
文章图片
假设失效的影响:如果误差项不是正态分布的 , 则OLS估计的标准误差将不可靠 。 然而对于正态性假设对于线性回归的重要性 , 目前各方还有一些有价值的观点 。
假设失效解决方法:关注样本中两端的异常值是否合理 , 如异常值不合理 , 可以考虑删除异常值 。 也可以尝试对变量做非线性变换 。
文章图片
6.横截面和时间序列数据在回归建模上的差异
横截面是指在同一时间平面上的数据 , 例如2013年各个上市公司的财报数据 , 如果研究其不同变量之间的线性关系 , 可以用多元线性回归模型 。 但是如果数据包含时间趋势 , 例如2001-2018年全国各个省市的宏观经济指标数据 , 如果要研究不同宏观指标之间的线性影响 , 就要用面板回归模型了(计量模型的一种) 。
四、参数估计1.多元线性回归的参数估计
文章图片
- 汉语水平考试|在美国贴吧上,一堆外国人中文学到生无可恋…你当年的仇都报了!
- 北京地区2021年度人事考试工作计划公布
- 河南|河南女孩高考114分,以8000字作文抨击考试制度,亲手毁了人生
- 甭管是“单晶冰糖”还是“多晶体冰糖”,全都通过质检考试
- CDA LEVEL 1 考试,知识点汇总《一元线性回归》一、相关关系二、相关系数三、最小二乘法四、评价与检验五、例题精讲
- 朱正廷发布生日单曲概念海报 欢迎珍珠糖参加海报视觉考试
- 室内设计师考试:梁志天推荐的官方专业技能提升路径
- “吃鸡”游戏中出现1张“考试卷”,老玩家第1道题就答错?绝了
- 2021年青海公务员考试招录809名公告
- 中国美术学院|考试期间酒店涨价,学生的钱真好赚!