统计学有大用处,利用核密度估计法来进行警务大数据预测犯罪( 二 )



统计学有大用处,利用核密度估计法来进行警务大数据预测犯罪

文章插图

在这个公式中,N(x,z)为正态分布的概率密度函数,z 为待设定的参数 。n 为数据量,在图 1 所示的例子中,n 为 50 。这个式子所表达的意思是,假设这 50 个数都服从正态分布,那么这 50 个正态分布所叠加起来的分布就是我们所要找的分布 。
图 2 中,六个正态分布叠加得到了一个核密度估计模型 。其中六个正态分布对应六个数据,同理可得五十个数据推导出来的核密度估计模型 。

统计学有大用处,利用核密度估计法来进行警务大数据预测犯罪

文章插图

图 2 正态分布叠加得到核密度估计分布
在除了正态分布外,还可以假设观察到的数据服从均匀分布、伽玛分布或三角分布等,不同的分布可以推导出不同的核函数 。虽然正态分布需要设定参数 z,但通过数据的标准化可以将 z 统一设为 0 。
提示:核密度估计法实际上并不需要设定任何参数,因此核密度估计法是从数据样本本身出发,研究推导数据分布特征的一种方法 。这种方法不需要任何先验知识,这也正是非参数检验和参数检验的不同之处 。
不论使用的是哪种核函数,核密度估计法的原理都是相似的 。对于某一点,如果观察值出现的多,那么该点的概率密度就大,其附近的点的概率密度也会偏大;如果观察值出现的少,那么该店的概率密度就小,其附近的点的概率密度也会偏小 。比如图 1 中的零点,由于其附近并没有聚集较多的观察值,因此该点的概率密度十分小 。
尽管每个城市每条街道的犯罪事件的概率密度并不服从任何已知的分布,但使用核密度估计的方法,将每一起历史案件都视为服从正态分布,这些正态分布叠加后将得到一个犯罪分布概率密度 。如果某地区发生了较多的案件,那么该地区的犯罪概率密度就较高;如果某地区发生了较少的案件,那么该地区的犯罪概率密度就较低 。
图 3 是一张圣克鲁兹地区的犯罪预测地图 。图中方框框起来的地方即为犯罪案件发生概率较高的地方 。

统计学有大用处,利用核密度估计法来进行警务大数据预测犯罪

文章插图

图 3 圣克鲁兹地区犯罪预测地图
这些方框大部分都是五百英尺见方的区域,这样大小的一个区域恰好是一个街区左右大小的地方 。圣克鲁兹警察局使用犯罪预测系统就可以得知每个街区的犯罪发生概率,在这些街区的巡逻警察会打起精神来寻找犯罪案件的苗头 。
使用核密度估计的方法不仅可以详细的标注出每个街区甚至每条街道的犯罪案件发生概率,按照案件类型为案件分类后,核密度估计法同样可以指出每个街区发生盗窃案、抢劫案、强奸案等各个细类案件的概率;按照案件时间为案件分类后,核密度估计法同样可以指出每个街区在白天、傍晚、深夜发生案件的概率 。而将两者结合,则可以提前告诉警察在什么时间段应加强对哪些街区的巡逻,以及这些街区很可能发生什么案件,从而避免犯罪案件的发生 。预测系统同样可以用于提示普通民众在特定时段避开某些街区,以及提示处于危险街区的普通民众警惕罪犯的存在 。
使用这种方法预测的犯罪案件有三分之二都真实的发生了 。有了预测系统的提前警示,警局可以更合理的布局警力,提高破案效率,并帮助所有人了解犯罪的模式 。犯罪预测系统帮助美国一些城市的重案率下降了 30% 。

统计学有大用处,利用核密度估计法来进行警务大数据预测犯罪

文章插图

警务犯罪预测系统除了能够提示我们案件的发生以外,还可以从更高角度解释为什么会发生这些案件 。这不仅是从某些街区聚集了大量游手好闲的犯罪分子这个馋鬼角度而言,警务犯罪预测系统同样可以发现一些隐藏起来的深层规律 。比如预测系统通过对比大量的问题少年的情况,可以告诉我们青少年罪犯与他们的积极向上的同龄人相比,最大的不同是教育程度的低下,这就提示我们应当提高对青少年教育问题的重视 。
通过这种对比,犯罪预测系统同样可以发现 14 岁第一次杀人的杀人犯再次杀人的概率要比 30 岁第一次杀人的杀人犯要高,这帮助司法系统收起对青少年的同情心以及对中年犯人的偏见,转而加强对青少年罪犯的监视 。而这些发现运用到了统计学中 t 检验和方差分析的知识 。
核密度估计法小结核密度估计法是最流行的非参数检验分析之一 。与贝叶斯分析相似,核密度估计法尽管原理十分简单,但其所能够完成的事情非常之多 。核密度估计法具有不需要过多先验知识,能完成复杂的非线性拟合,预测结果准确的特点 。由于这些优点,核密度估计法被广泛的应用于公共事务、地理信息、医疗教育等多个领域,其经典应用包括各类预测和聚类任务 。