相似文本文档分析之SimHash算法

SimHash算法:

simhash算法的输入是一个向量,输出是一个 f 位的签名值。为了陈述方便,假设输入的是一个文档的特征集合,每个特征有一定的权重。比如特征可以是文档中的词,其权重可以是这个词出现的次数。 simhash 算法如下:
1,将一个 f 维的向量 V 初始化为 0 ; f 位的二进制数 S 初始化为 0 ;
2,对每一个特征:用传统的 hash 算法对该特征产生一个 f 位的签名 b 。对 i=1 到 f :如果b 的第 i 位为 1 ,则 V 的第 i 个元素加上该特征的权重;否则,V 的第 i 个元素减去该特征的权重。
3,如果 V 的第 i 个元素大于 0 ,则 S 的第 i 位为 1 ,否则为 0 ;
4,输出 S 作为签名。

时间: 2024-08-28 18:31:12

相似文本文档分析之SimHash算法的相关文章

快速生成较大文本文档的两种方法

在学习用FTP发送文件的过程中,需要用到一个比较大的文件进行传输测试.因此百度了一下如何生成指定大小文件的方法,发现在WINDOWS下有两种方法比较实用,记录如下: 第一种方法: 在运行窗口中输入CMD命令回车,进入命令行模式. 在此界面下输入:"fsutil file creatnew test.txt 1024"即可产生一个占用空间为1024字节,名为test.txt的文本. 命令中1024即为该文件占用空间大小,可以任意指定.比如输入1048576就可以产生一个1M大小的文件.当

《新建文本文档》贾瑜

我的笔记本电脑出了点问题,苦笑不得.2010年花了6000元买的机器,重装了约7次系统,最后稳定在现在这个舆论口碑很差的VISTA系统.但我用了大概一年左右,再也没出过问题,虽然慢是慢了点,好在稳定,也就懒得换了.不过我最近发现了一个奇怪的现象——右键点击桌面,新建,文本文档.名为新建文本文档的文件,总会显示有1KB的占用空间,因为文档不是空白的,每个新建的文档,一打开就会写着“你好”两个字.起初我以为是电脑系统的彩蛋,于是找了计算机学院的师兄,他整了大半天也没弄清楚是怎么回事.因为也并不影响实

c#读写文本文档-1-用file类

1 using System; 2 using System.Collections.Generic; 3 using System.Linq; 4 using System.Text; 5 using System.IO; 6 7 namespace txtread 8 { 9 class Program 10 { 11 static void Main(string[] args) 12 { 13 // //File 优点:命令简单,可以读各种类型,但是耗内存,因为是以下子全读入内存了 14

右键新建文本文档消失解决办法

解决办法一: 开始-程序-附件-记事本 粘贴以下内容,然后另存后缀名为   右键新建文本.reg    导入注册表就可以了 Windows Registry Editor Version 5.00 [HKEY_CLASSES_ROOT\.txt] @="txtfile" "Content Type"="text/plain" [HKEY_CLASSES_ROOT\.txt\ShellNew] "NullFile"="

读写文本文档

StreamReader SReader = new StreamReader(“C:\1.txt”, Encoding.Default);//路径与编码 str = SReader.ReadToEnd(); SReader.Close(); FileStream fs1 = new FileStream(“C:\1.txt”, FileMode.Create, FileAccess.Write);//创建写入文件,此方法创建文档,如存在则覆盖 StreamWriter sw = new Str

笔记本右键菜单新建文本文档,记事本怎么都没有了,怎么恢复

问题:无法打开此安装包.请确认该程序包存在,并且您有权限访问它 方法一:建议是下载<WINDOWS 优化大师>点击系统优化,选择系统个性设置,点击顶上的更多设置你就可以设置你的右键菜单了方法二:你先通过:开始----程序----附件----记事本 来打开一个空的记事本程序,然后将下面的这段注册表代码复制粘贴进去,将此记事本文档另存为 1.reg 注册表文档,也可以先保存记事本,然后将 新建文本文档.txt 重命名为 1.reg 注册表项目,然后将它双击“导入”合并即可: Windows Reg

winfrom文本文档打开

using System; using System.Collections.Generic; using System.ComponentModel; using System.Data; using System.Drawing; using System.Linq; using System.Text; using System.Threading.Tasks; using System.Windows.Forms; using System.IO;//导入命名空间 namespace W

Python读写文本文档详解

以下3步问正确的程序片段: 1.写文件 #! /usr/bin/python3 'makeTextFile.py -- create text file' import os def write_file(): "used to write a text file." ls = os.linesep #get filename fname = input("Please input filename:") while True: if os.path.exists(

Windows右击无新建文本文档怎么办

右击无新建文本文档2008-07-26 16:51 刚在网上找的,在运行项输入notepad,把下面的复制进去,然后保存为123.reg,双击导入. REGEDIT4 [HKEY_CLASSES_ROOT\.txt] @="txtfile" "Content Type"="text/plain" [HKEY_CLASSES_ROOT\.txt\ShellNew] "NullFile"="" [HKEY_CL