shell统计特征数量

今天太懒了,不想一个特征一个特征去统计,随手写了个脚本

#!/bin/bash
dir_bas=$(cd $(dirname ${0});pwd)
A=`cat $dir_bas/feat`
feat_bas=$1
total=0
for B in $A
do
    echo $B
    count=`grep "$B" $feat_bas | wc -l`
    echo $count
    ((total=$count+$total))
done

echo "total feat num is $total"

  统计个数那个很坑,我忘了shell对空格要求严啊,

`expr $count + $total`

脚本运算

1、两个数相加

变量1=`expr $变量2 + $变量3`
    变量1=`expr $变量2 + 常数`

2、两个数相减

变量1=`expr $变量2 - $变量3`
    变量1=`expr $变量2 - 常数

3、两个数相乘

变量1=`expr $变量2 \* $变量3`
    变量1=`expr $变量2 \* 常数`

4、两个数相除

变量1=`expr $变量2 / $变量3`
    变量1=`expr $变量2 / 常数`

时间: 2024-12-17 14:15:10

shell统计特征数量的相关文章

LeetCode:Count Primes - 统计质数数量

1.题目名称 Count Primes(统计质数数量) 2.题目地址 https://leetcode.com/problems/count-primes/ 3.题目内容 英文:Count the number of prime numbers less than a non-negative number, n. 中文:统计正整数n以内(不含n本身)质数的数量 4.一个TLE的方法 从1到n,考察每个数字是否为质数.这个方法由于花费时间较长,不能满足题目中对时间的要求. 一段实现此方法的Jav

做统计特征需要注意的事项

1.要清楚的知道如果有两个样本他们的特征相似,是否就真的代表他们在现实世界中对预测结果的影响是相似的,否则这个就不是特征. 2.要避免陷入自己计算自己的怪圈,会导致过拟合. 3.采用一个样本的统计特征会比这个样本的本身的特征来预测效果要好. 4.要相信人类才是这个世界的最高智慧,建立模型的时候合理思考究竟是什么对预测的结果会有影响,这些影响是怎么组织起来的,这些思考是建立模型的关键. 5.合理的计算方式来自于对于原始数据合理的理解. 原文地址:http://blog.51cto.com/yixi

Linux作业(三)-shell统计某文章中出现频率最高的N个单词并排序输出出现次数

Linux课上的作业周三交,若有考虑不周到的地方,还请多多不吝赐教. shell处理文本相关的经常使用命令见此博客 # #假设输入两个參数 则第一个为统计单词的个数.第二个为要统计的文章 #假设输入一个參数 则默认统计单词的个数为10 # 详细思路: 将各种符号用换行替换(tr命令) 大写改小写(tr命令) 排序.统计单词个数并除去反复 (sort和uniq) 按出现次数的高低排序(sort) 打印N个须要统计的单词 #!/bin/bash if [ $# -ne 2 -a $# -ne 1 ]

shell统计当前网络连接情况

当TCP连接数量非常大时,对当前的内部IP,外部IP的连接情况进行统计 [[email protected] account_tcp]# cat account_tcp.sh  #!/bin/bash #统计当前网络连接情况 netstat -na | awk '/^tcp/{s[$6]++}END{for(key in s)print key,s[key]}' > /root/account_tcp/state.txt #统计Local Address的TCP连接数 netstat -na |

shell统计日志信息

一般应用中都会使用log4j记录日志信息,并每天生成一个日志文件,每个文件以当天的日期结尾. 如何统计并分析这些日志信息? 最简单的,使用shell脚本进行统计分析: 下面的脚本就将最近一周的日志文件的行数进行了统计并罗列出来,还和上周的进行了比较. 可以将分析出来的信息输出到一个特定文件中,将该文件发送邮件或给web服务进行显示. date echo "========================================================" echo &qu

一条shell统计代码行数

Xcode统计代码,用shell命令即可,非常简单.打开终端,进入你的工程目录,执行下列代码 find . -name "*.m" -or -name "*.h" -or -name "*.html" -or -name "*.c" |xargs wc -l 如果要统计ios开发代码,包括头文件的,命令如下 find . -name "*.m" -or -name "*.h" -or -

shell 统计GMT0 时区的数据

和某个供应商核对数据,对方是GMT+0时区,我方报表默认北京时间,无法修改为GMT0, 对excel中按照小时级别的数据导出到excel处理,然后转为文本文件,shell转为GMT0进行统计: 前期处理: 先将时间转为"2016-05-01 00:08:00" 格式的数据,便于时间戳的比较. 去除无效的","和"$"符号,便于shell文本处理. 先解决一天的问题,然后循环调用脚本 解决多天的问题. # for i in `seq 2016050

shell统计ip访问情况并分析访问日志

有日志 1.log,部分内容如下: 112.111.12.248 – [25/Sep/2013:16:08:31 +0800]formula-x.haotui.com“/seccode.php?update=0.5593110133088248″ 200″http://formula?x.haotui.com/registerbbs.php” “Mozilla/4.0 (compatible; MSIE 6.0; Windows NT 5.1;SV1;)”61.147.76.51 – [25/S

变量类型|数据类型|统计特征|

生物统计学-描述统计 首先必须明确:生物实验的总体是无穷个,而研究人员做生物实验得到的数据永远是样本.因为不同类别的变量指向不同的统计方法,所以必须首先明确变量类型. 变量类型有: 其中,类别变量的本质是字符串,数值变量的本质是数值型,所以,虽然有些类别变量表现为数字,但将它们做运算的结果是没有任何意义的. 数据类型的分类依据有: 获取方式(观测数据:实验数据).衡量尺度(数值型数据:顺序数据:分类数据).属性(定性数据:定量数据).数学性质(离散数据:连续数据).....: 其中,二次数据需注