如何统计文件重复率

假设某个目录下有N个文件夹,每个文件夹下是某个人的项目代码,一个人一个文件夹,代码有可能文件名不同,但内容可能相同

程序执行时,通过指定路径,分析出某个人和其他人的重复率,如:

被比较者姓名    比较者姓名1   重复率

张三                   李四               90

张三                   王五               30

重复率是所有文件比较完成后,每个文件的重复率平均值,在分析的过程中,要有分析的过程情况,如:

**************欢迎使用xxx查重系统*************************

此次查重总共需要分析【20】人

开始分析第【1】人张三

正在分析【张三】和【李四】,完成度【30%】,当前重复率【50%】

分析完成【张三】和【李四】,重复率为【90%】

开始分析第【2】人【王五】

。。。

最后输出整体比对结果:

此次查重总共分析【20】人,用时【20分钟】

结果如下:

被比较者姓名    比较者姓名1   重复率

张三                   李四               90

张三                   王五               30

原文地址:https://www.cnblogs.com/java-ty/p/9803296.html

时间: 2024-10-29 16:03:15

如何统计文件重复率的相关文章

付费代理个人测评及选取——重复率、可用率、响应时间、稳定性、价格(只供参考)

由于公司业务要求,西瓜代理已经不满足需求,准备更换新的代理IP池,所以调研测试了一下市面上的各家付费代理(免费代理可用率低故不考虑),功能限制和价格情况等如何,以便从中挑选满足要求的代理. 1.目标站 2.情报收集 整理套餐的价格和类型,API频率,每秒提取上限,每天提取上限,使用时长等信息: (ps:这里建表格很费劲,所以传的图,如果图片看不清,请单独打开图片或者下载,超清哦!) 备注: 使用时长和可用率来源 (1)目标网站上写的(2)联系客服告知的 类型大体上可以分为两类,API(请求对方接

python 代码统计文件的行数

#!/usr/bin/python #encofing:utf8 # 统计文件的行数 import sys def lineCount(fd): n = 0 for i in fd: n += 1 return n fd = sys.stdin print lineCount(fd)

Linux 下统计文件夹大小及文件数量

[查看文件夹大小] # /lib 目录大小 du -sh /lib # /lib 子目录大小  du -sh /lib/*   # 查看 /lib 目录下普通文件大小 find /lib -type f | xargs ls -la | awk -F ' ' 'BEGIN{sum=0} {sum+=$5} END{printf "%d bytes\n", sum}' [统计文件数量] # 查看 /lib 目录的总文件数(包含7种文件类型.包含 /lib 目录自身) find /lib 

头文件重复引用

Q:.h头文件中的ifndef/define/endif 的作用? A:防止该头文件被重复引用. 说明: 有些头文件重复包含只是增加了编译工作的工作量,不会引起太大的问题,仅仅是编译效率低一些. 有的会引起错误,比如在头文件中定义了全局变量(虽然这种方式不被推荐,但确实是C规范允许的) . 如果头文件被循环包含,有的编译器会智能处理,和只include一次一样:有的会报错,有的直接死锁,导致编译程序崩溃(这个只有很低级的编译器才会出现在几乎看不到了). 不管怎样,用ifnde xxx #defi

给定一个英文原文,统计文件里面一共有多少个不同的英文单词

wordsCounter.cpp // wordsCounter.cpp : Defines the entry point for the console application.// #include "stdafx.h"#include "wordsCounter.h" #ifdef _DEBUG#define new DEBUG_NEW#undef THIS_FILEstatic char THIS_FILE[] = __FILE__;#endif ////

C/C++函数重复定义、头文件重复包含、互相包含问题

1.避免头文件重复包含 // test.h 此段宏的意思是如果定义了宏变量TEST_H_则不再定义它 #ifndef TEST_H_ #define TEST_H_ //头文件内容 #endif 或者 // test.h 告诉预编译器只包含一次 #pragma once 2.避免重复定义 不要将函数定义放置在头文件里面,正确的做法是头文件放置函数声明,源文件放置函数定义.因为源文件是分别编译的,假如头文件放置了函数定义,包含该头文件的每一个源文件都会定义相应的函数,从而导致重复定义.但是几种情况

LNK1179 无效或损坏的文件: 重复的 COMDAT“_IID_IDispatchEx”

fatal error LNK1179: invalid or corrupt file: duplicate comdat  "XXX" LNK1179 无效或损坏的文件: 重复的 COMDAT“_IID_IDispatchEx” 解决方法,找到(ocx和dll都是类似的) 1 #import "Flash.ocx"  named_guids 改为 1 #import "Flash.ocx"  named_guids, exclude(&quo

清空文件的内容 和 统计文件的大小的命令

清空文件的内容:true > 文件名  (或 echo “”> 文件名) 统计文件的大小:du -h --max-depth=1 /usr/local/nginx/logs/* (*表示logs文件夹里的所有文件) 统计文件夹的大小:du -sh 文件夹

Linux 下使用 wc 统计文件夹下所有文件的代码行数(包括子目录)

wc 命令用于统计文件内容的行数.单词数.字母数. 但是如果想统计一个目录下所有文件的行数,wc 并没有提供递归统计. 不过,可以结合 find 命令,例如: $ wc -l `find -name *.c` 其中,-l 参数是统计行数,find -name *.c 是查找当前目录(包含子目录)下所有的C文件,` ` 是 shell 中的替换命令. 当然,实现方法有很多,我只是觉得这个比较简单易记. 测试效果如下: 最后,附一下 wc 的使用帮助(man wc) NAME wc - print