11.1第一次相似度算法测试结果

测试文件在result下面,

1、word2vec还需要丰富训练数据,去噪音,加入博客,新增加预处理的方法。

2、建立评估准确率和召回率的机制

3、去除停用词是不是去多了,增加原文打印的结果

4、原文521条,最终应跑出(521*520)/2对

原文地址:https://www.cnblogs.com/yjybupt/p/9887268.html

时间: 2024-10-19 02:08:46

11.1第一次相似度算法测试结果的相关文章

转:文本相似度算法

文本相似度算法 原文出自:http://www.cnblogs.com/liangxiaxu/archive/2012/05/05/2484972.html 1.信息检索中的重要发明TF-IDF 1.1TF Term frequency即关键词词频,是指一篇文章中关键词出现的频率,比如在一篇M个词的文章中有N个该关键词,则 (公式1.1-1) 为该关键词在这篇文章中的词频. 1.2IDF Inverse document frequency指逆向文本频率,是用于衡量关键词权重的指数,由公式 (公

基于word分词提供的文本相似度算法来实现通用的网页相似度检测

实现代码:基于word分词提供的文本相似度算法来实现通用的网页相似度检测 运行结果: 检查的博文数:128 1.检查博文:192本软件著作用词分析(五)用词最复杂99级,相似度分值:Simple=0.968589 Cosine=0.955598 EditDistance=0.916884 EuclideanDistance=0.00825 ManhattanDistance=0.001209 Jaccard=0.859838 JaroDistance=0.824469 JaroWinklerDi

.NET下文本相似度算法余弦定理和SimHash浅析及应用

在数据采集及大数据处理的时候,数据排重.相似度计算是很重要的一个环节,由此引入相似度计算算法.常用的方法有几种:最长公共子串(基于词条空间).最长公共子序列(基于权值空间.词条空间).最少编辑距离法(基于词条空间).汉明距离(基于权值空间).余弦值(基于权值空间)等,今天我们着重介绍最后两种方式. 余弦相似性 原理:首先我们先把两段文本分词,列出来所有单词,其次我们计算每个词语的词频,最后把词语转换为向量,这样我们就只需要计算两个向量的相似程度. 我们简单表述如下 文本1:我/爱/北京/天安门/

hadoop+mahout部署及20newsgroups经典算法测试

--------------------------------------------------------------------------第一阶段:hadoop的伪分布式安装 第二阶段:mahout的安装 第三阶段:20newsgroups的bayes算法测试------------------------------------------------------------------------- 注意:安装完vmwaretools必须重启centos才可以生效第一阶段:hado

利用word分词提供的文本相似度算法来辅助记忆英语单词

本文实现代码:利用word分词提供的文本相似度算法来辅助记忆英语单词 本文使用的英语单词囊括了几乎所有的考纲词汇共18123词: /**  * 考纲词汇  * @return  */ public static Set<Word> getSyllabusVocabulary(){     return get("/word_primary_school.txt",             "/word_junior_school.txt",       

深入学习图像处理——图像相似度算法

最近一段时间学习并做的都是对图像进行处理,其实自己也是新手,各种尝试,所以我这个门外汉想总结一下自己学习的东西,图像处理的流程.但是动起笔来想总结,一下却不知道自己要写什么,那就把自己做过的相似图片搜索的流程整理一下,想到什么说什么吧. 首先在进行图片灰度化处理之前,我觉得有必要了解一下为什么要进行灰度化处理. 图像灰度化的目的是什么? 将彩色图像转化为灰度图像的过程是图像的灰度化处理.彩色图像中的每个像素的颜色由R,G,B三个分量决定,而每个分量有255中值可取,这样一个像素点可以有1600多

基本算法研究1-冒泡排序算法测试

基本算法研究1-冒泡排序算法测试 1.经典冒泡排序法基本原理 先看一个动态图,感觉比较形象: 冒泡排序(Bubble Sort)是一种简单的排序算法.默认是从小到大排序,即把最大的数据排在最后,相当于每次把最大数据像气泡一样浮到水面一样.它重复地走访过要排序的数列,一次比较两个元素,如果他们的顺序错误就把他们交换过来.走访数列的工作是重复地进行直到没有再需要交换. 基本步骤: 1.比较相邻的元素.如果第一个比第二个大,就交换他们两个.        2.对每一对相邻元素作同样的工作,从开始第一对

余弦方法计算相似度算法实现

http://blog.csdn.net/cscmaker/article/details/7990600 余弦方法计算相似度算法实现 (1)余弦相似性 通过测量两个向量之间的角的余弦值来度量它们之间的相似性.0度角的余弦值是1,而其他任何角度的余弦值都不大于1;并且其最小值是-1.从而两个向量之间的角度的余弦值确定两个向量是否大致指向相同的方向.所以,它通常用于文件比较. 详见百科介绍(点击打开链接) (2)算法实现的中未使用权重(IDF ---逆文档频率),使用词项的出现次数作为向量空间的值

jmeter 算法测试-所有测试参数和结果写入一个文件

最近工作比较忙,而忙起来又忘了截图,所以记录下思路和方法,不懂的可以给我留言.. 首先请求数据参数化,可以做一个csv文件按行排列数据,也可以分开写,分开写的目的在于后面可以随机搭配,这样比较符合算法测试了(要尽可能覆盖) 执行后在查看结果树中查看 用正则从结果树中提取需要的参数值,在beanshell PostProcessor中写入文件即可. 我写入的是txt文件,所以结果出来后转换成excel即可.有时间在配图说详细点..