Jackcard相似度和余弦相似度(向量空间模型)的java实现

总结Jackcard相似度和余弦相似度。

一、集合的Jackcard相似度

1.1Jackcard相似度

Jaccard相似指数用来度量两个集合之间的相似性，它被定义为两个集合交集的元素个数除以并集的元素个数。

数学公式描述:

J(A,B)=|A∩B||A∪B|

这个看似简单的算法有很大的用处，比如：

抄袭文档

高明的抄袭者为了掩盖自己抄袭的事实，会选择性的抄袭文档中的一些段落，或者对词语或原始文本中的句序进行改变。jackcard相似度计算适合从字面上进行计算，如果是更高级的抄袭改变了语义jackcard相似度计算就无能为力了
镜像页面
多个主机上建立镜像以共享加载内容，同一份内容有多个副本，这种情况实现jackcard相似度计算十分有效。
同源新闻稿
一个记者撰写了一份新闻稿件投稿多家媒体，稿件经过少量修改后发布，使用这些同源新闻稿可以用jackcard相似度算法来检测出来

1.2 Java实现

import java.util.HashSet;
import java.util.Map;
import java.util.Set;

/**
 * Created by bee on 17/4/12.
 */
public class JackcardSim {

    public static double calJackcardSim(Set<String> s1, Set<String> s2) {

        Set<String> all = new HashSet<>();
        all.addAll(s1);
        all.addAll(s2);
        System.out.println(all);
        Set<String> both = new HashSet<>();
        both.addAll(s1);
        both.retainAll(s2);
        System.out.println(both);

        return (double) both.size() / all.size();

    }

    public static void main(String[] args) {

        Set<String> s1 = new HashSet<String>();
        s1.add("互联网");
        s1.add("金融");
        s1.add("房产");
        s1.add("融资");
        s1.add("科技");

        Set<String> s2 = new HashSet<String>();
        s2.add("互联网");
        s2.add("开源");
        s2.add("人工智能");
        s2.add("软件");
        s2.add("科技");

        System.out.println(calJackcardSim(s1, s2));

    }
}

运行结果

[科技, 房产, 软件, 融资, 人工智能, 互联网, 开源, 金融]
[科技, 互联网]
0.25

二、向量空间模型

2.1简介

向量空间模型是一个把文本文件表示为标识符（比如索引）向量的代数模型。它应用于信息过滤、信息检索、索引以及相关排序。

文档和查询都用向量来表示。

dj=(w1,j,w2,j,...,wt,j)q=(w1,q,w2,q,...,wt,q)

cosθ=d2?q∥d2∥∥∥q∥∥=∑i=1Nwi,jwi,q∑i=1Nw2i,j￣￣￣￣￣￣√∑i=1Nw2i,q￣￣￣￣￣￣√

2.2、java实现

import java.util.HashMap;
import java.util.HashSet;
import java.util.Map;
import java.util.Set;

/**
 * Created by bee on 17/4/10.
 */
public class Vsm {

    public static double calCosSim(Map<String, Double> v1, Map<String, Double>
            v2) {

        double sclar = 0.0,norm1=0.0,norm2=0.0,similarity=0.0;

        Set<String> v1Keys = v1.keySet();
        Set<String> v2Keys = v2.keySet();

        Set<String> both= new HashSet<>();
        both.addAll(v1Keys);
        both.retainAll(v2Keys);
        System.out.println(both);

        for (String str1 : both) {
            sclar += v1.get(str1) * v2.get(str1);
        }

        for (String str1:v1.keySet()){
            norm1+=Math.pow(v1.get(str1),2);
        }
        for (String str2:v2.keySet()){
            norm2+=Math.pow(v2.get(str2),2);
        }

        similarity=sclar/Math.sqrt(norm1*norm2);
        System.out.println("sclar:"+sclar);
        System.out.println("norm1:"+norm1);
        System.out.println("norm2:"+norm2);
        System.out.println("similarity:"+similarity);
        return similarity;
    }

    public static void main(String[] args) {

        Map<String, Double> m1 = new HashMap<>();
        m1.put("Hello", 1.0);
        m1.put("css", 2.0);
        m1.put("Lucene", 3.0);

        Map<String, Double> m2 = new HashMap<>();
        m2.put("Hello", 1.0);
        m2.put("Word", 2.0);
        m2.put("Hadoop", 3.0);
        m2.put("java", 4.0);
        m2.put("html", 1.0);
        m2.put("css", 2.0);
        calCosSim(m1, m2);

    }
}

运行结果:

[css, Hello]
sclar:5.0
norm1:14.0
norm2:35.0
similarity:0.22587697572631282

三、参考资料

https://zh.wikipedia.org/wiki/%E5%90%91%E9%87%8F%E7%A9%BA%E9%96%93%E6%A8%A1%E5%9E%8B

http://baike.baidu.com/link?url=enqtEW1bEXe0iZvil1MBk8m2upnfmN118p4cgjNpYdoJYe2l-FC5_s_yYQAq_3GUtiQW0jgwfMMBBxM0U16JiRKeFToPQ0fj058H7P8mHlZ5RV7rERN9Je7jdrYdA3gI7SRMUNTDnNyGoGgBJZN7sq

时间： 2024-10-10 21:13:11

Jackcard相似度和余弦相似度(向量空间模型)的java实现的相关文章

Jackcard类似度和余弦类似度(向量空间模型)的java实现

版权声明:本文为博主原创文章,地址:http://blog.csdn.net/napoay,转载请留言. 总结Jackcard类似度和余弦类似度. 一.集合的Jackcard类似度 1.1Jackcard类似度 Jaccard类似指数用来度量两个集合之间的类似性,它被定义为两个集合交集的元素个数除以并集的元素个数. 数学公式描写叙述: J(A,B)=|A∩B||A∪B| 这个看似简单的算法有非常大的用处.比方: 抄袭文档高明的抄袭者为了掩盖自己抄袭的事实,会选择性的抄袭文档中的一些段落,或者对

模式识别之相似度计量---常用相似度计量方法

常用相似性度量(距离相似系数) 在分类聚类算法,推荐系统中,常要用到两个输入变量(通常是特征向量的形式)距离的计算,即相似性度量.不同相似性度量对于算法的结果,有些时候,差异很大.因此,有必要根据输入数据的特征,选择一种合适的相似性度量方法. 令X=(x1,x2,..,xn)T,Y=(y1,y2,...yn)T为两个输入向量, 1.欧几里得距离(Euclidean distance) ‍ 相当于高维空间内向量说表示的点到点之间的距离.由于特征向量的各分量的量纲不一致,通常需要先对各分量进行标准

余弦相似度算法

import java.util.ArrayList;import java.util.List; public class ComputerDecision { //List<?> vector1 ; //List<?> vector2 ; List<Integer> vector1 = new ArrayList<Integer>(); List<Integer> vector2 = new ArrayList<Integer>(

Python简单实现基于VSM的余弦相似度计算

在知识图谱构建阶段的实体对齐和属性值决策.判断一篇文章是否是你喜欢的文章.比较两篇文章的相似性等实例中,都涉及到了向量空间模型(Vector Space Model,简称VSM)和余弦相似度计算相关知识. 这篇文章主要是先叙述VSM和余弦相似度相关理论知识,然后引用阮一峰大神的例子进行解释,最后通过Python简单实现百度百科和互动百科Infobox的余弦相似度计算. 一. 基础知识第一部分参考我的文章: 基于VSM的命名实体识别.歧义消解和指代消解第一步,向量空间模型VSM

模式识别之相似度计量---余弦计算相似度度量关于两句话的相似度

余弦计算相似度度量相似度度量(Similarity),即计算个体间的相似程度,相似度度量的值越小,说明个体间相似度越小,相似度的值越大说明个体差异越大. 对于多个不同的文本或者短文本对话消息要来计算他们之间的相似度如何,一个好的做法就是将这些文本中词语,映射到向量空间,形成文本中文字和向量数据的映射关系,通过计算几个或者多个不同的向量的差异的大小,来计算文本的相似度.下面介绍一个详细成熟的向量空间余弦相似度方法计算相似度向量空间余弦相似度(Cosine Similarity) 余弦相似度用向

Solr相似度名词：VSM(Vector Space Model)向量空间模型

最近想学习下Lucene ,以前运行的Demo就感觉很神奇,什么原理呢,尤其是查找相似度最高的.最优的结果.索性就直接跳到这个问题看,很多资料都提到了VSM(Vector Space Model)即向量空间模型,根据这个模型可以对搜索的结果进行最优化的筛选,目前还不知道如何证明,只能凭借想象应该是这个样子的. 1.看一下TF/IDF 我们先来看下一个叫TF/IDF的概念,一般它用来作为一个搜索关键字在文档或整个查询词组的权重的计算方式.前几天看了吴军老师的数学之美系列文章,这个TF/IDF可以追

向量空间模型（VSM）计算文本相似度

1.定义向量空间模型是一个把文本表示为标引项(Index Term)向量的代数模型,原型系统SMART*. 向量空间模型的定义很简单,文档d,查询q都用向量来表示. 查询和文档都可转化成term及其权重组成的向量表示,都可以看成空间中的点.向量之间通过距离计算得到查询和每个文档的相似度. 我们在向量空间模型中假设term是相互独立互不影响的. 2.模型构建 VSM向量空间模型构建的关键在于三点: 1.标引项term的选择 2.权重计算(Term Weighting):即计算每篇文档中每个ter

相似度算法之余弦相似度

转自:http://blog.csdn.net/u012160689/article/details/15341303 余弦距离,也称为余弦相似度,是用向量空间中两个向量夹角的余弦值作为衡量两个个体间差异的大小的度量. 余弦值越接近1,就表明夹角越接近0度,也就是两个向量越相似,这就叫"余弦相似性". 上图两个向量a,b的夹角很小可以说a向量和b向量有很高的的相似性,极端情况下,a和b向量完全重合.如下图: 如上图二:可以认为a和b向量是相等的,也即a,b向量代表的文本是完全相似的,或

余弦相似度应用

http://www.ruanyifeng.com/blog/2013/03/tf-idf.html TF-IDF与余弦相似性的应用(一):自动提取关键词 http://www.ruanyifeng.com/blog/2013/03/cosine_similarity.html TF-IDF与余弦相似性的应用(二):找出相似文章 http://www.ruanyifeng.com/blog/2013/03/automatic_summarization.html TF-IDF与余弦相似性的应用(