使用shell统计出出现次数排名top10的网址(在博客园中没找到,特转一下)

转自:http://blog.csdn.net/guaguastd/article/details/8332757

使用shell统计出出现次数排名top10的网址

分类: Shell脚本2012-12-19 17:17 286人阅读 评论(0) 收藏 举报

统计排名

[plain] view plaincopy

  1. #!/bin/sh
  2. foo()
  3. {
  4. if [ $# -ne 1 ];
  5. then
  6. echo "Usage:$0 filename";
  7. exit -1
  8. fi
  9. egrep -o "http://[a-zA-Z0-9.]+\.[a-zA-Z]{2,3}" website | awk ‘{ count[$0]++ } END { printf("%-30s %s\n","wensite","count"); for(ind in count) { printf("%-30s %d\n",ind,count[ind]); } }‘ | sort -nrk 2 | head -n 10 >websorted2.txt;
  10. }
  11. foo website

例子:

文件website中的内容:

http://www.google.com
http://www.baidu.com
http://www.sina.com
http://www.bjtu.edu.cn
http://www.codeproject.com
http://www.csdn.com
http://www.sohu.com
http://www.yahoo.com
http://mail.163.com
http://www.bjtu.edu.cn
http://www.codeproject.com
http://www.csdn.com
http://www.sohu.com
http://www.yahoo.com
http://mail.163.com
http://www.codeproject.com
http://www.csdn.com
http://www.sohu.com
http://www.yahoo.com
http://mail.163.com
http://www.qq.com
http://www.hao123.com
http://www.163.com
http://youku.com
http://taobao/com
http://www.bjtu.edu.cn
http://www.codeproject.com
http://www.csdn.com
http://www.sohu.com
http://www.yahoo.com
http://mail.163.com
http://www.codeproject.com
http://www.csdn.com
http://www.sohu.com
http://www.yahoo.com
http://mail.163.com
http://www.qq.com
http://www.hao123.com
http://www.163.com
http://youku.com
http://taobao/com

生成的文件内容为(即结果)

http://www.yahoo.com           5
http://www.sohu.com            5
http://www.csdn.com            5
http://www.codeproject.com     5
http://mail.163.com            5
http://www.bjtu.edu.cn         3
http://youku.com               2
http://www.qq.com              2
http://www.hao123.com          2
http://www.163.com             2

时间: 2024-10-11 01:27:02

使用shell统计出出现次数排名top10的网址(在博客园中没找到,特转一下)的相关文章

PageRank 计算博客园用户排名

PageRank 通过网页与网页之间的链接关系计算各网页权重,一般权重高的网页特点是:链接向它的网页数量多.链向它的网页其权重也较高.PageRank 就是通过这样的连接关系,一轮轮迭代计算后得出各网页的权重. 思路拓展一下,其实人与人之间也是连接着的,在社会的人际关系网中,每个人的社会地位和身价也是不同的.以微博为例,我们都有关注者和粉丝(类似网页之间的链接),可以发现所谓的“大V”基本上粉丝数量多,并且粉丝里不乏很多其他“大V”,所以这个帐号的价值就大. 同样博客园也具有类似的社交关系,用户

11月微博博客日均覆盖数TOP10:网易博客升至第七

IDC评述网(idcps.com) 12月31日报道:据国际统计机构Alexa公布的最新数据显示,在11月,国内微博博客网站日均覆盖数十强之战中,新浪微博力压全雄,以日均覆盖数43,090.4毫无悬念地拿下冠军宝座.另外,网易博客取代51.com排名第7,而51.com则跌至第8,两者名次互换.下面,请看IDC评述网对相关数据的整理与分析. (图1)11月微博博客网站日均用户覆盖数TOP10 根据图1,可知在11月微博博客网站日均用户覆盖数十强中,较上月覆盖数成功实现上涨的共有5家网站,分别是腾

博客园积分与排名升级攻略(转)

博客园积分算法探讨 今天在dudu的<博客园FAQ>上看到了博客积分算法规则.因为同样是搞互联网的,平时工作也涉及到用户积分算法的设计,所以特把此问题拿出来分析探讨.初衷只是纯学术的研究探讨,并不构成对博客园积分机制的意见建议. 我们先来看看现行规则,用公式表示为:-------------------------------------------------------------------BlogScore = BeRead + 10 * BeComment + 50 * Commen

一篇博客分清shell中的状态返回值-return-break-continue-exit

一篇博客分清shell中的状态返回值-return-break-continue-exit 一.break.continue.exit.return的区别和对比 条件与循环控制及程序返回值命令知识表 命令 说明 break n 如果省略n,则表示跳出整个循环,n表示跳出循环的层数 continue n 如果省略n,则表示跳出本次循环,忽略本次循环剩余代码,进入循环的下一次循环.n表示退到第n层继续循环 exit n 表示退出当前shell程序,n为上一次程序执行的状态返回值,n也可以省略,在下一

PageRank实践-博客园用户PageRank排名

博客园用户由关注和粉丝的关系,这与网页的链接关系很类似,于是我就爬了博客园的粉丝与关注用户,然后计算了一下用户的PageRank排名,注意本排名仅仅是个人娱乐,不代表任何利益,而且可能计算有误,望大家不要较真. 关于PageRank的原理和计算方法参看上一篇文章,这篇文章主要介绍一下博客园用户PageRank的结果. 目前博客园用户超过了17万,我以自己为启点,不断的爬取用户的粉丝和关注,最终爬到的用户是132483,还剩4万多的用户没有爬取到,我分析这部分用户是既没有粉丝也不关注其他用户的孤岛

黄聪:博客园的积分和排名算法探讨,积分是怎么计算的?(转)

我们先来看看现行规则,用公式表示为:-------------------------------------------------------------------BlogScore = BeRead + 10 * BeComment + 50 * CommentBlogScore:博客积分BeRead:个人博客所有随笔和文章的阅读数之和BeComment:个人博客被评论总数Comment: 个人所发表的评论总数---------------------------------------

李文忠博客:网站关键词排名起伏的原因与解决方案

大家好,我是李文忠,由于今年注册公司.网站备-案等各种烦琐的事情,博客停止更新有一段时间了,最近这两个月(5\6月)很多站长反应出现网站关键词排名起伏等情况,今天我给大家总结一下关于这个问题的原因以及解决方案.大概整理了以下几点常见因素: 1.新站审核期 很多新站的站长都会遇到这种问题,比如:百度收录后可能有部分关键词参与了排名,但过几天又消失了,这是普遍的一种现象,这种情况非常正常,大家不要大惊小怪,网站关键词稳定排名是需要一定的网站权重的,而这个网站权重是通过各种工作慢慢积累的,刚上线的新站

企业shell面试题:获取51CTO博客列表按时间倒序排序

企业shell面试题:获取51CTO博客列表倒序排序考试题 老男孩教育培训机构需求:需求入下: 请把http://oldboy.blog.51cto.com 地址中的所有博文,按照时间倒序列表如下: 2013-09-13 运维就是一场没有硝烟的战争 http://oldboy.blog.51cto.com/2561410/1296694 2016-04-17 运维人员写项目方案及推进项目的基本流程思路 http://oldboy.blog.51cto.com/2561410/1764820 附加

博客园添加访问次数统计

1. 先到http://www.amazingcounters.com/sign-up.php   这个地址去申请一个帐户,申请时填写好自己的资料,比如 你的统计风格样式.要统计的地址.要统计的类型,是浏览量(PV) 还是 访客数(UV),或者你也可以2个都统计:这些统计数据都是可以任意修改的哟,不过我们最好还是以真实的访问量为主吧: 2. 在上述网站的"Get HTML Code See Statistics"菜单中找到需要添加的HtmLCOde: 3. 进入博客园后台管理- >