常用相似性、相关性度量指标

2024-05-15

1. 常用相似性、相关性度量指标

 原文： http://blog.csdn.net/OrthocenterChocolate/article/details/38596633 
     
     本文将介绍一些数据挖掘、 机器学习 、信息检索等领域中常用的一些相似性、相关性度量指标：
    （1）Euclidean Distance（欧几里德距离、欧氏距离） 
            设有两个向量
                                                                                   
            它们之间的Euclidean Distance为：  
            
                                           
     
   （2）Manhattan Distance（曼哈顿距离）
   
            设有两个向量
                                                                                   
            它们之间的Manhattan Distance为：
                 
                                           
     
   （3）Minkowsk Distance（闵可夫斯基距离）
   
            设有两个向量
                                                                                   
            它们之间的Minkowsk Distance为：
            
                                           
     
   （4）Hamming Distance（海明距离）
               Hamming Distance可以用来度量两个串（通常是二进制串）的距离，其定义为这两个二进制串对应的位有几个不一样，那么海明距离就是几，值越小越相似。例如x=1010，y=1011，那么x和y的海明距离就是1。又如x=1000，y=1111，那么x和y的海明距离就是3。  
     
    （5）Jaccard Coefficient（ Jaccard    系数 ）
              Jaccard Coefficient用来度量两个集合的相似度，设有两个集合
                                                                                   
            
                                           
             例如
                                                                                                                           
     
    （6）   Pearson Correlation Coefficient     （皮尔森相关系数  ） 
              设有两个向量  
                                                                                     
            它们之间的 Pearson Correlation Coefficient 为：
            
                                           
     
    （7）C  osine Similarity    （  余弦相似度  ） 
   
              设有两个向量
                                                                                   
            它们之间的Cosine Similarity为：
                  
                                           
     
    （8） Mahalanobis Distance（马氏距离）
   
              设有两个向量
                                                                                   
            它们之间的Mahalanobis Distance为：
            
                                           
             其中
                                           
     
   （9） Kullback-Leibler Divergence  （KL散度） 
                KL散度用来度量两个分布之间的距离，分布P和分布Q的KL散度定义为：
             
                                           
     
   
   （10）PMI (Pointwise Mutual Information，点对互信息)
               PMI利用co-occurance来衡量两个东西x和y的相似度，定义为：
             
                                           
             其中
                                                                                                                           
     
   （11）NGD（ Normalized  Google Distance）
                NGD可以用来度量两个东西x和y之间的相关性，作用和PMI有点类似，定义为：

常用相似性、相关性度量指标

2. 相关度的相关度

 对于消费者来讲，你所销售的品牌、百货定位与所搜所得到的结果一致，并且在你得平台能够找到消费者所需求的商品，就有机会提高转化率或者产生二次、三次访问的机会，另外，相关度还体现在平台的风格、图片、设计上，甚至于一个文字连接的关联度、一个广告、一个标示都是体现相关度达成销售的结果。而对于国内的电子商务平台而言，相关度越高的，差异化和核心竞争力势必比其他平台一定要强，所以卖得好的平台我们因该多去虚心学习。 关于相关度，还它还直接会影响到可信度，我们也可理解为公信力。

3. 相关度的概述

对搜索引擎来讲，就是指搜索请求（比如关键字）和搜索结果（比如网页）之间的关联程度。相关度计算是搜索引擎最重要的技术之一，例如有向量空间模型或者概率模型等计算方法。可以说，搜索引擎赢得了相关度技术，就赢得了用户；赢得了用户，就赢得了市场。对于垂直搜索引擎来说，除了常规的相关度算法，由于垂直搜索引擎植根于一个特定的领域，与特定领域的信息结合起来，发掘分析其中的深度数据，以实现更为精确的相关度算法，从而极大提升用户查询的准确度。

4. 相关度的介绍

相关度（Relevancy）是指两个事物间存在相互联系的百分比。相关度理论是一个相当复杂的理论， 由Mizzaro提出了一个较成功的理论框架， 它主要有个维度信息源信息需求的表示时间构建。考虑这个主要因素就可以基本准确地描述出两个事物的相关度。相关度是带有主观色彩的概念， 不同的人对同一词所给出的相关度都会不同， 因此在生物字典中所存储的词或词的相关度都是由领域专家给出， 其取值在到之间， 或者抽取具有代表性的查询词汇来组成生物字典。文档或由几个或一些词、词组就可以完全表示其中的内容， 那么这些词与该领域的相关度就成为决定文档或与领域相关的关键因素。