shell统计重复次数

(1)

awk -F, ‘{a[$2]++}END{for (i in a) print i" "a[i]}‘ 文件名.txt

(2)

cat 文件名.txt |cut -d, -f2 |sort |uniq -c |sort -n

时间： 2024-08-24 11:54:21

shell统计重复次数的相关文章

列表去重统计重复次数

Map<String,Object> courseMap = new HashMap<>(); for(vo tv: volist){ String key = tv.getCourseId() + "_" + tv.getCalendarId() + "_" + tv.getClassId();String value = tv.getContent() + "(" + 1 + ")";boolean

用Hash Table(哈希散列表)实现统计文本每个单词重复次数（频率）

哈希表在查找方面有非常大应用价值,本文记录一下利用哈希散列表来统计文本文件中每个单词出现的重复次数,这个需求当然用NLP技术也很容易实现. 一.基本介绍 1.Hash Key值:将每个单词按照字母组成通过一个乘子循环运算得出一个小于29989的整数,29989是一个比较大的质数.0~29989即为Key值. 2.哈希函数: 1 //哈希函数 2 unsigned int hashIndex(const char* pWord) //返回hash表的索引(即hash指针数组的下标) 3 { 4 a

【学】从一个数组中找出重复最多的元素，并统计重复个数

通过json,将数组中的值都传给json中的键,利用json中的键是不能重复的性能,同时如果遇到重复的键,那就让这个键的值自增1,这样就能统计出重复次数上面的方法可以得出一个json,但是还不够,因为无法比较json里的键或者值的大小,就要再将Json里的每组数据组成一个个小的json装到一个数组中,将统计的数量赋给每个json中的值,利用数组的sort的比较函数进行排序即可 function myMaxElement(arr){ var json = {}; for (var i=0; i<

海量日志数据__怎么在海量数据中找出重复次数最多的一个

问题一: 怎么在海量数据中找出重复次数最多的一个算法思想: 方案1:先做hash,然后求模映射为小文件,求出每个小文件中重复次数最多的一个,并记录重复次数. 然后找出上一步求出的数据中重复次数最多的一个就是所求(如下). 问题二: 网站日志中记录了用户的IP,找出访问次数最多的IP. 算法思想: IP地址最多有2^32=4G种取值可能,所以不能完全加载到内存中. 可以考虑分而治之的策略: map 按照IP地址的hash(IP)%1024值,将海量日志

awk 统计出现次数--转

知识点: 1)数组数组是用来存储一系列值的变量,可通过索引来访问数组的值. Awk中数组称为关联数组,因为它的下标(索引)可以是数字也可以是字符串. 下标通常称为键,数组元素的键和值存储在Awk程序内部的一个表中,该表采用散列算法,因此数组元素是随机排序. 数组格式:array[index]=value 1.Nginx日志分析日志格式:'$remote_addr - $remote_user [$time_local] "$request" $status $body_bytes_

使用shell统计出出现次数排名top10的网址(在博客园中没找到，特转一下）

转自:http://blog.csdn.net/guaguastd/article/details/8332757 使用shell统计出出现次数排名top10的网址分类: Shell脚本2012-12-19 17:17 286人阅读评论(0) 收藏举报统计排名 [plain] view plaincopy #!/bin/sh foo() { if [ $# -ne 1 ]; then echo "Usage:$0 filename"; exit -1 fi egrep -o &

从数据库统计出某张表中某个字段重复次数

最近有一个新需求就是在数据表里面查询出某个字段重复了多少次进而对其进行排名分析,那么问题来了,SQL该怎么写呢既然要统计次数肯定要用到COUNT,那么最后得到的SQL就是 SELECT TOP 100 field1,field1Count = COUNT(field1) FROM table1 GROUP BY field1 ORDER BY field1Count DESC 这句SQL的意思就是从table1中统计出field1字段冲重复次数并选出排名前100的field1 好记性不如烂笔头

python_exercise_给定一个只包含正整数的非空数组,返回该数组中重复次数最多的前N个数字 ,返回的结果按重复次数从多到少降序排列(N不存在取值非法的情况)

# 设定给出的非空数组为list_a,如下list_a = [8,1,3,5,1,2,45,8,5,7,7,8,8,8,8,8,8,5,5] # 将list_a去重,留下唯一值list_a_set = set(list_a) # 将list_a去重后的值作为字典的key放到字典中list_a_dict = {x:None for x in list_a_set} # 遍历将list_a去重后的唯一值,统计唯一值出现的次数.把次数作为字典的value放到字典中for l in list_a_set

Java web--Filter过滤器分IP统计访问次数

分IP统计访问次数即网站统计每个IP地址访问本网站的次数. 分析因为一个网站可能有多个页面,无论哪个页面被访问,都要统计访问次数,所以使用过滤器最为方便. 因为需要分IP统计,所以可以在过滤器中创建一个Map,使用IP为key,访问次数为value.当有用户访问时,获取请求的IP,如果IP在Map中存在,说明以前访问过,那么在访问次数上加1,即可:IP在Map中不存在,那么设置次数为1. 那么问题来了! 问题一:为什么使用Map存放? Map是一个由键值对组成的数据结构,其中所有的key组成一