博客
关于我
强烈建议你试试无所不能的chatGPT,快点击我
欧式距离与余弦相似度
阅读量:6081 次
发布时间:2019-06-20

本文共 533 字,大约阅读时间需要 1 分钟。

1)概述

  两者都是评定个体间差异的大小的。欧几里得距离度量会受指标不同单位刻度的影响,所以一般需要先进行标准化,同时距离越大,个体间差异越大;

  空间向量余弦夹角的相似度度量不会受指标刻度的影响,余弦值落于区间[-1,1],值越大,差异越小。

2)计算公式

  欧氏距离(也叫欧几里得距离)公式:

 

  余弦相似度的计算公式如下:

3)归一化

一般来说,为了比较的方便,都会对得到的结果进行归一化处理:

1)在欧氏距离公式中,取值范围会很大,一般通过如下方式归一化:

  sim = 1 / (1 + dist(X,Y))

2)因为余弦值的范围是 [-1,+1] ,相似度计算时一般需要把值归一化到 [0,1],一般通过如下方式:

  sim = 0.5 + 0.5 * cosθ

经过归一化处理以后,相似度全部落在了0和1之间,值越大,相似度越高。

4)相似度度量的选择

  选择哪种度量方式,没有统一的结论,要依据处理数据的特点来进行确定,可以参考一下知乎上关于这个问题的讨论:http://www.zhihu.com/question/19640394

 

 

 

转载于:https://www.cnblogs.com/Jack-Lee/p/3654209.html

你可能感兴趣的文章
CodeForces 580B Kefa and Company
查看>>
开发规范浅谈
查看>>
Spark Streaming揭秘 Day29 深入理解Spark2.x中的Structured Streaming
查看>>
鼠标增强软件StrokeIt使用方法
查看>>
本地连接linux虚拟机的方法
查看>>
某公司面试java试题之【二】,看看吧,说不定就是你将要做的题
查看>>
BABOK - 企业分析(Enterprise Analysis)概要
查看>>
Linux 配置vnc,开启linux远程桌面
查看>>
NLog文章系列——如何优化日志性能
查看>>
Hadoop安装测试简单记录
查看>>
CentOS6.4关闭触控板
查看>>
ThreadPoolExecutor线程池运行机制分析-线程复用原理
查看>>
React Native 极光推送填坑(ios)
查看>>
Terratest:一个用于自动化基础设施测试的开源Go库
查看>>
修改Windows远程终端默认端口,让服务器更安全
查看>>
扩展器必须,SAS 2.0未必(SAS挺进中端存储系统之三)
查看>>
Eclipse遇到Initializing Java Tooling解决办法
查看>>
while((ch = getchar()) != '\n')
查看>>
好程序员web前端分享JS检查浏览器类型和版本
查看>>
Oracle DG 逻辑Standby数据同步性能优化
查看>>