统计学有大用处,利用核密度估计法来进行警务大数据预测犯罪( 三 )


核密度估计法的局限性主要表现在两方面:首先,核密度估计法的准确与否很大程度上依赖样本数据的准确与否,比如本小节介绍的警务犯罪预测中,倘若使用的历史案例过于陈旧或过于偶然,对于核密度估计的最终结果将有很大影响;其次,核密度估计法存在边界问题,即核密度估计法映射的范围囊括了整个数域,对警务犯罪预测的例子来说,可以理解为圣克鲁兹市的某些地区是没有人活动的,因此根本不可能发生犯罪案件,但是由于无人地区附近的有人地区有案件发生,因此由于边界效应,预测系统会认为无人地区也有可能发生犯罪 。这一问题在犯罪预测的例子中并不重要,但在一些医学例子中影响会比较大 。
提示:由于核密度估计法是一种基础的分析方法,它最大的作用在于可以推导出未知分布特征的数据的分布函数 。因此核密度估计法通常为其他算法做准备工作,最常见的就是核密度估计法和聚类分析或贝叶斯分类法的结合 。
核密度估计法可以和聚类分析相结合,这会产生一种梯度上升的聚类算法,其主要思想是在空间中随机画出一个圆,然后根据分布函数逐渐向密度较高的方向移动,最终达到聚类中心 。这种聚类方法可以聚为不规则形状的类,比如半月形的类 。
核密度估计法同样可以和贝叶斯分类法相结合 。贝叶分类法利用已知的先验知识做推断,而核密度估计法可以在先验知识不充足时做出补充 。比如在遥感图像分类的问题上,可以利用核密度估计法先计算各类土地的密度函数,再使用贝叶斯分类法进行分类,此时核密度估计法提供了更充分的先验知识,因此贝叶斯分类的效果会增强 。
上文节选自北大出版社《别怕, 统计学其实很简单》