数据科学中常见的9种距离度量方法,内含欧氏距离、切比雪夫距离等( 二 )
【数据科学中常见的9种距离度量方法,内含欧氏距离、切比雪夫距离等】
文章图片
缺点:尽管曼哈顿距离在高维数据中似乎可以工作 , 但它比欧式距离直观性差 , 尤其是在高维数据中使用时 。 此外 , 由于它可能不是最短路径 , 有可能比欧氏距离给出一个更高的距离值 。
用例:当数据集具有离散或二进制属性时 , 曼哈顿距离似乎工作得很好 , 因为它考虑了在这些属性的值中实际可以采用的路径 。 以欧式距离为例 , 它会在两个向量之间形成一条直线 , 但实际上这是不可能的 。
切比雪夫距离(ChebyshevDistance)
文章图片
切比雪夫距离 。
切比雪夫距离定义为两个向量在任意坐标维度上的最大差值 。 换句话说 , 它就是沿着一个轴的最大距离 。 切比雪夫距离通常被称为棋盘距离 , 因为国际象棋的国王从一个方格到另一个方格的最小步数等于切比雪夫距离 。 
文章图片
缺点:切比雪夫距离通常用于特定的用例 , 这使得它很难像欧氏距离或余弦相似度那样作为通用的距离度量 。 因此 , 在确定适合用例时才使用它 。
用例:切比雪夫距离用于提取从一个方块移动到另一个方块所需的最小移动次数 。 此外 , 在允许无限制八向移动的游戏中 , 这可能是有用的方法 。 在实践中 , 切比雪夫距离经常用于仓库物流 , 因为它非常类似于起重机移动一个物体的时间 。
闵氏距离(Minkowski)
文章图片
闵氏距离 。
闵氏距离比大多数距离度量更复杂 。 它是在范数向量空间(n维实数空间)中使用的度量 , 这意味着它可以在一个空间中使用 , 在这个空间中 , 距离可以用一个有长度的向量来表示 。
闵氏距离公式如下:
文章图片
最有趣的一点是 , 我们可以使用参数p来操纵距离度量 , 使其与其他度量非常相似 。 常见的p值有:
p=1:曼哈顿距离p=2:欧氏距离p=∞:切比雪夫距离缺点:闵氏距离与它们所代表的距离度量有相同的缺点 , 因此 , 对哈顿距离、欧几里得距离和切比雪夫距离等度量标准有个好的理解非常重要 。 此外 , 参数p的使用可能很麻烦 , 因为根据用例 , 查找正确的p值在计算上效率低 。
用例:p的积极一面是可迭代 , 并找到最适合用例的距离度量 。 它允许在距离度量上有很大的灵活性 , 如果你非常熟悉p和许多距离度量 , 将会获益多多 。
雅卡尔指数(JaccardIndex)
文章图片
雅卡尔指数 。
雅卡尔指数(交并比)是用于比较样本集相似性与多样性的统计量 。 雅卡尔系数能够量度有限样本集合的相似度 , 其定义为两个集合交集大小与并集大小之间的比例 。
例如 , 如果两个集合有1个共同的实体 , 而有5个不同的实体 , 那么雅卡尔指数为1/5=0.2 。 要计算雅卡尔距离 , 我们只需从1中减去雅卡尔指数:
文章图片
缺点:雅卡尔指数的一个主要缺点是它受数据大小的影响很大 。 大数据集对指数有很大影响 , 因为它可以显著增加并集 , 同时保持交集相似 。
用例:雅卡尔指数通常用于使用二进制或二进制数据的应用程序中 。 当你有一个深度学习模型来预测图像分割时 , 比如一辆汽车 , 雅卡尔指数可以用来计算给定真实标签的预测分割的准确度 。
类似地 , 它可以用于文本相似性分析 , 以测量文档之间有多少词语重叠 。 因此 , 它可以用来比较模式集合 。
半正矢(Haversine)
文章图片
半正矢距离 。
半正矢距离是指球面上的两点在给定经纬度条件下的距离 。 它与欧几里得距离非常相似 , 因为它可以计算两点之间的最短连线 。 主要区别在于半正矢距离不可能有直线 , 因为这里的假设是两个点都在一个球面上 。 
文章图片
缺点:这种距离测量的一个缺点是 , 假定这些点位于一个球体上 。 实际上 , 这种情况很少出现 , 例如 , 地球不是完美的圆形 , 在某些情况下可能使计算变得困难 。 相反 , 如果假定是椭球 , 使用Vincenty距离比较好 。
- 中年|厦门市内大型公园,春季繁花盛开,还有儿童游乐区,全部免费开放!
- 中年|湖北一公园被4A砸中,现有固定资产1000余万,被称十堰“后花园”
- 老年|中国古塔揽胜——辽宁阜新!
- 中年|春天,去新疆图开沙漠尽情“嗨”!
- 梦中|十里芳华万里飘香,顺德有场“盛大的花事”邀你来赏花
- 中年|一个人的旅行,那就来泸沽湖吧
- 中年|石林中的探岳与探岳中的你
- 步行街|国内唯一面朝大海的步行街:厦门中山路的滨海风情,实在让人陶醉
- 老年|德兴市境内山水如画,被评为“中国天然氧吧”创建地区
- 中国2月末外汇储备32019.9亿美元,环比减少56.8亿美元
