PageRank实践-博客园用户PageRank排名

  博客园用户由关注和粉丝的关系,这与网页的链接关系很类似,于是我就爬了博客园的粉丝与关注用户,然后计算了一下用户的PageRank排名,注意本排名仅仅是个人娱乐,不代表任何利益,而且可能计算有误,望大家不要较真。

  关于PageRank的原理和计算方法参看上一篇文章,这篇文章主要介绍一下博客园用户PageRank的结果.

  目前博客园用户超过了17万,我以自己为启点,不断的爬取用户的粉丝和关注,最终爬到的用户是132483,还剩4万多的用户没有爬取到,我分析这部分用户是既没有粉丝也不关注其他用户的孤岛,当然也有可能是我的爬虫写得有遗漏,过几天把我的爬虫的代码贴上来,欢迎讨论。对每一个用户我只保存了粉丝,整个数据集也不大就6M。数据样本如下:


 1 fengfenggirl    cnlmgsoft    277560    color-my-life    Fyhong    419935    371927    const-zhou    missliuxin...
2 218920
3 224437
4 12taotie21 573803 cnlmgsoft 224437 Nine09 539558...
5 24la uniquejim cacotopia yisuifeng QMM2008 335590 shouhuqingtian konglj zdh8675 224437...
6 277560
7 316295
8 322242 cnwisdom zoyobar...
9 335590
10 371927 niuox huiyuan oooweb...
11 399140
12 10jschen 633583 best001 584842 forever97 575086 587400 sunshine052697 574805...
13 -wang-xin
14 372465774y 624534 tylf lyf123456 ...
15 0803yijia 549203 zmx354 liuxueyang zhengnanlee guoyongzhi xufulong...
16 20120125llcai nextbin ...

  每一行的各个字段以制表符分割,第一个字段代表一个用户,后面的字段代表他的粉丝,最后使用PageRank排序结果前200名如下(详细的排名请查看github上面的完整数据):


  0      0.00559543389986    lhb25                66     0.000839802055831    jerrylead            132    0.000464649968582    hustskyking
1 0.00457861589323 artech 67 0.000833647231893 csn0721 133 0.000458310574066 JimmyZheng
2 0.00439329342095 fish-li 68 0.000828602702426 eaglet 134 0.000451509136221 dodolook
3 0.00393014836031 000001 69 0.000818678206783 beniao 135 0.000451048409885 gaizai
4 0.00393014836031 0001 70 0.000781009199057 rupeng 136 0.000450369395804 phinecos
5 0.00393014836031 dudu 71 0.000754836771681 sanshi 137 0.000450102114477 nowpaper
6 0.00315076898523 lyj 72 0.000749149076496 wangkewei 138 0.000445602888412 frank_xl
7 0.00300910902218 TomXu 73 0.000741413361512 kirinboy 139 0.000442521410475 ruxpinsp1
8 0.00272168636951 rubylouvre 74 0.000740698500873 chenxizhang 140 0.000439402499162 qingyuan
9 0.00256966010597 JimmyZhang 75 0.000722860735431 yuyijq 141 0.000427917952603 baochuan
10 0.00242987369757 jirigala 76 0.000722021879128 58top 142 0.00041817863625 zhuweisky
11 0.00238636097728 qcban 77 0.000717196812281 jv9 143 0.000415590246827 baihmpgy
12 0.00218337144565 miloyip 78 0.000713309956094 downmoon 144 0.000414863586334 tianzhiliang
13 0.00202387545442 forfuture1978 79 0.000712931083674 _franky 145 0.000406360753369 umlonline
14 0.00200080883492 JeffreyZhao 80 0.00071008430007 zilongshanren 146 0.000405027243026 txw1958
15 0.00180311556327 alamiye010 81 0.000709773595766 joy2code 147 0.000403621369751 stbchina
16 0.00179344687661 hooray 82 0.000694651345766 sunyanjun 148 0.000403471248176 floyd
17 0.00177395295468 cmt 83 0.000692124060749 anlyren 149 0.000398579917088 allenlooplee
18 0.00173637317457 over140 84 0.00068499542403 chsword 150 0.000398043610639 caishen
19 0.00170248721809 shanyou 85 0.000682697374397 hongru 151 0.000395246211179 aaronjs
20 0.00169417353984 Terrylee 86 0.000678516894529 JustinYoung 152 0.000395044745313 yukaizhao
21 0.00165895793516 anytao 87 0.000678253562893 xupengnannan20070617 153 0.000391600920775 tuyile006
22 0.00164250012239 KnightsWarrior 88 0.000664346256225 sousuo 154 0.000386480255528 SkyD
23 0.00163404242748 leoo2sk 89 0.000659000873003 stephen-liu74 155 0.000385813562829 n216
24 0.0015867004652 cloudgamer 90 0.000645190114367 jillzhang 156 0.000384859816501 zhenyulu
25 0.00157206987057 yanyangtian 91 0.000639805405321 oomusou 157 0.000381315147481 mgen
26 0.00151782986607 zhangziqiu 92 0.000633773311489 jyk 158 0.000377958934106 chijianqiang
27 0.00145718118778 CareySon 93 0.000631192551604 coderzh 159 0.000376790827048 ASPNET2008
28 0.00142864529219 huangxincheng 94 0.000628179146865 watsonyin 160 0.000376300128719 lyhabc
29 0.00142758541204 cj723 95 0.000617749271244 daxnet 161 0.00037496306572 liulun
30 0.0014104459643 zhoujg 96 0.00061571700696 BoyXiao 162 0.000374854268881 1-2-3
31 0.00140381820508 cathsfz 97 0.000609563080558 legendxian 163 0.00037171956696 JamesLi2015
32 0.00134909418054 qianxudetianxia 98 0.000608238546219 figure9 164 0.000370085957417 muer
33 0.00134100259104 xiaotie 99 0.000604060696156 imzzk 165 0.000369012949264 insus
34 0.00133776828872 skynet 100 0.000597831675166 TerryBlog 166 0.00036789785174 netfocus
35 0.0013369243297 liufan9 101 0.000596593669623 xia520pi 167 0.000367261738214 think
36 0.00122243869035 wuhuacong 102 0.000595559622174 geniusvczh 168 0.000366509550838 wzmaodong
37 0.00121439398183 xinz 103 0.000588081279089 zhuqil 169 0.000365882641305 chaobaojun
38 0.00120528885399 iamzhanglei 104 0.000579142567842 msdnchina 170 0.000364146066026 aimeng
39 0.00117578460101 vamei 105 0.000574180577448 luminji 171 0.000364098343275 yangecnu
40 0.00117432516897 justinw 106 0.000569553203514 winter-cn 172 0.000362235159778 kym
41 0.00116040478506 mjios 107 0.00056055122828 Darren_code 173 0.000362209734608 peterzb
42 0.00115355039845 gnielee 108 0.000560118201546 hjf1223 174 0.000358489264721 fly_dragon
43 0.00106982877704 milkmap 109 0.000557755250807 fnng 175 0.000356926628981 aawolf
44 0.00106534599722 TankXiao 110 0.000555306869254 ltp 176 0.000354342530963 gpcuster
45 0.0010611910923 chenkai 111 0.00055188993395 libaoheng 177 0.000353226742077 wiky
46 0.00105983298622 Dotaer 112 0.000550798519006 jesse2013 178 0.00035215068631 Zhouyongh
47 0.0010580592702 janes 113 0.000541981446005 tangfl 179 0.000351032518182 Wayou
48 0.00105743026705 yjmyzz 114 0.000541961317788 117366 180 0.000350266904469 unruledboy
49 0.00100424003251 Ninputer 115 0.00053225201126 savez 181 0.000349991353774 hanyonglu
50 0.000978618911661 wayfarer 116 0.000529697353877 rollenholt 182 0.000348049998578 Cson
51 0.000959090630618 snandy 117 0.000518744635334 zgx 183 0.000348010394 nasa
52 0.000952870579771 yuphone 118 0.000506852604678 finallyliuyu 184 0.000347546628824 foundation
53 0.000944206640849 webabcd 119 0.000503195130736 vivounicorn 185 0.0003467346093 Mainz
54 0.000942886098192 GrayZhang 120 0.000499612226552 huyong 186 0.000345302956411 zhili
55 0.000936371495381 tornadomeet 121 0.000491492631774 yexiaochai 187 0.00034387142685 finehappy
56 0.000927699906653 fygh 122 0.0004858924052 shenyisyn 188 0.000343308835642 wzrong
57 0.00092224520015 LeftNotEasy 123 0.000483944706833 liping13599168 189 0.000339232814841 CherryGhost
58 0.000917665521254 del 124 0.000483169482172 heyuquan 190 0.000338320079531 dingxue
59 0.00090687531771 daizhj 125 0.000481856466941 alexis 191 0.000336633934176 walkingp
60 0.000902658595585 anderslly 126 0.000480967075313 zhouyinhui 192 0.00033592487401 bitfan
61 0.000897056326625 cyq1162 127 0.000476976373658 wangiqngpei557 193 0.000334400262734 sufei
62 0.000887219467957 procoder 128 0.000475209157316 elecpiano 194 0.000331969121912 linzheng
63 0.000876091270804 haogj 129 0.000470927740775 GoodHelper 195 0.000329300169164 ldp615
64 0.000863664667552 hegezhou_hot 130 0.000469568951533 tonyqus 196 0.000327718955248 ccdev
65 0.000857316073332 Solstice 131 0.000469507292112 jkisjk 197 0.000327212369838 feisky
199 0.000326931048717 xuesong
200 0.0003254232371 QLJ1314

  第一列是排名,然后是PageRank值,接着是用户id。

  排名第一的lhb25是前端高手梦想天空(山边小溪),他的粉丝数量超过7K,绚丽的东西大家都喜欢。PageRank排名靠前不管要求粉丝多,还需要粉丝有质量,也就是粉丝的排名也要靠前。我的排名在了1743名,需要加油啊,我能排在2000左右,还多亏排名第八rubylouvre司徒正美,如果没有这位牛人,我的排名至少下降500名。

  奇妙的发现第3、4、5名的000001、0001、dudu都是同一个人——博客园的管理员大哥

  接下来我取前50名,我用Gephi画了一些社交关系图。

  

  这是总排名前50的关系图,这里每一个结点是一个用户,点的大小是用按着50个用户PageRank排名确定的大小,这里的排名跟之前的不一样,因为有人被众多50外的用户关注,但只被50内的几个用户关注,那他的排名就降低了。

  第一名总是比较抢眼,排名第一的ChenKai粉丝数为600,比lbn25、dudu少很多,为什么他的结点这么大,我把图放大后又发现了一个奇妙的事,这位大哥竟然有一条弧指向自己,我以为是我的数据错了,看了一下他的粉丝,发现他真的关注了他自己,很想知道他是怎么做到的^_^,他成了一个上一篇文章说到的陷阱结点。

  下面以入度作为结点大小设置指标的关系图

  在前50的牛人中以入读作为结点大小应该更合理,这样chenkai的环就不能起到太大的提升作用。

  最后,还是想说本排名仅供娱乐,请不要较真,能进前200的都是牛人,我等千里之外的还得想你们学习。

  另外如果需要用户链接关系的数据,我已经放在github上,需要的即可下载,不用再爬数据,以免给管理员带来麻烦。

感谢阅读,转载请注明出处:http://www.cnblogs.com/fengfenggirl/

PageRank实践-博客园用户PageRank排名,布布扣,bubuko.com

时间: 2024-10-28 08:24:13

PageRank实践-博客园用户PageRank排名的相关文章

PageRank 计算博客园用户排名

PageRank 通过网页与网页之间的链接关系计算各网页权重,一般权重高的网页特点是:链接向它的网页数量多.链向它的网页其权重也较高.PageRank 就是通过这样的连接关系,一轮轮迭代计算后得出各网页的权重. 思路拓展一下,其实人与人之间也是连接着的,在社会的人际关系网中,每个人的社会地位和身价也是不同的.以微博为例,我们都有关注者和粉丝(类似网页之间的链接),可以发现所谓的“大V”基本上粉丝数量多,并且粉丝里不乏很多其他“大V”,所以这个帐号的价值就大. 同样博客园也具有类似的社交关系,用户

博客园积分与排名升级攻略(转)

博客园积分算法探讨 今天在dudu的<博客园FAQ>上看到了博客积分算法规则.因为同样是搞互联网的,平时工作也涉及到用户积分算法的设计,所以特把此问题拿出来分析探讨.初衷只是纯学术的研究探讨,并不构成对博客园积分机制的意见建议. 我们先来看看现行规则,用公式表示为:-------------------------------------------------------------------BlogScore = BeRead + 10 * BeComment + 50 * Commen

python网络爬虫(14)博客园用户信息爬取

说明 这里只放代码,方案技术没有更变 代码说明 需要cookies绕过登录,使用selenium在Firefox下模拟.需要安装geck...?插件,另外,数据存储在sqlite,需要安装. Spider.py import HtmlDownloader import HtmlParser import DataOutput import UrlManager import re from selenium import webdriver class Spider(object): def _

博客园的模拟登陆(Simulated Login)

查看正常情况下登录博客园时本地浏览器向博客园的服务器发送的数据 依据上一步得到的由本地浏览器发送给博客园服务器的数据包内容进行模拟登陆 scrapy模拟登陆博客园 Reference 1.查看正常情况下登录博客园时本地浏览器向博客园的服务器发送的数据 首先打开博客园登录界面,填入登录用户名和密码,按快捷键 Ctrl+Alt+I 打开开发者管理器,然后点击登录 按钮,则可以在开发者管理器里看到发送的数据包内容. 数据包内容的查看位置如下图所示. 下面贴出了该数据包的内容 1. General 1.

Python爬虫入门教程 54-100 博客园等博客网站自动评论器

爬虫背景 爬虫最核心的问题就是解决重复操作,当一件事情可以重复的进行的时候,就可以用爬虫来解决这个问题,今天要实现的一个基本需求是完成"博客园" 博客的自动评论,其实原理是非常简单的,提炼一下需求 基本需求 登录博客园<不实现,登录单独编写博客> 调用评论接口 返回请求结果 确定流程之后,基本就是找突破口的环节了 实际的去评论一下,然后不管你用什么抓包工具都可以,只要抓取到你想要的数据,即可 评论API如下 Request URL: https://www.cnblogs.

黄聪:博客园的积分和排名算法探讨,积分是怎么计算的?(转)

我们先来看看现行规则,用公式表示为:-------------------------------------------------------------------BlogScore = BeRead + 10 * BeComment + 50 * CommentBlogScore:博客积分BeRead:个人博客所有随笔和文章的阅读数之和BeComment:个人博客被评论总数Comment: 个人所发表的评论总数---------------------------------------

简易nodejs爬虫抓取博客园指定用户的文章及浏览量

需要安装nodejs和cheerio模块 实现了自定义用户,自定义页数,抓取完毕自动停止无重复 可以按需修改文章类和评论的类名 用法: 首先 npm install cheerio 执行 node cnblog [username] 文件结果保存在res/cnblog.txt //cnblog.jsvar http = require('http') var fs = require('fs') var path = require('path') var cheerio = require('

如何为博客园侧边栏添加用户头像

1 进入管理 ,设置用户头像 2 在网页上单击右键,查看网页源码. 找到 <img id="preview_large" src="//pic.cnblogs.com/avatar/1008336/20170819160756.png" class="preview-image" style=""/> 3 复制该段代码到,打开博客园-管理-设置-博客侧边栏公告 保存 4 打开博客查看,会发现侧边栏多出头像.

博客园_用户体验

用户体验 1是否提供良好的体验给用户(同时提供价值)? :cnblogs可以给IT技术人员们提供良好的用户体验及用户价值. 2评价cnblogs.com的用户体验 :总的来说cnblogs的用户体验还是不错的.虽然他的界面设计很朴实无华,但是他面向的群体主要是IT技术人员,主要目的是为IT技术人员们提供一个纯净的技术交流空间.所以过多炫酷的界面设计也是多余的.在这里这是知识与技术的交流与探讨.我觉得cnblogs最别致的一点是它支持用户的“个人定制”. 例如: a. b. c. d. e. 只要