月薪30k的资深程序员用Python爬取了知乎百万用户!并数据分析!

数据量:3,289,329 人。

数据采集工具:分布式 python 爬虫

分析工具:ElasticSearch + Kibana

分析角度:地理位置、男女比例、各类排名、所在高校、活跃程度等。

请各位注意:

以下所有分析结果都基于我抓取到的这300万用户的个人信息,非权威分析,仅供参考。

数据抓取时间为2017年7月份,用户数据会随着时间推移而变化,所以该报告具有一定时效性。

蓝色为男生,红色为女生。具体数据为:

男生:1,202,234 人,占 51.55%。

女生:1,129,874 人,占 48.45%。

知乎用户都是哪里人?

再来看看全国(全球?)都有哪些地方的人在玩知乎:

由上图可以看到,知乎用户中学生用户占据多数,其它的比如产品经理、程序员、运营、HR数量也不少。我们看一下具体的排名(前十名):

由上图可以看到,知乎用户中“学生”的比重独占鳌头,我们把“学生”去掉,来看看正经些的知乎职业排名:

知乎主流职业的性别分布:

上面这张饼图的内圈表示各主流职业在前十名中所占的比重,外圈表示该职业从业者中的男女比例,蓝色为男性,红色为女性。我们再用一张直方图来表示:

看完了知乎各职业的性别分布,我们再用一张热力图来观察知乎主流职业(前五名)在各个地区的分布情况,颜色越深,代表该职业在该地区的人数越多:

这里我为了展示方便,去掉了产品经理,你只需要知道产品经理在各地人数都是最多的…… 不明白知乎上怎么这么多产品经理,可能是为了方便宣传他们的产品?

我们再列出详细的比重排名:

以上展示的结果不一定准确,可能有很大一部分学生用户没有填写自己的学校。仅从上图可以看出,知乎活跃高校用户从大到小依次是:浙江大学、武汉大学、华中科技大学、中山大学、北京大学、上海交通大学、复旦大学、南京大学、四川大学、清华大学。

既然分析到学校了,我们顺便看看各高校的男女比例,嘿嘿。

发现一个有意思的现象,各高校大部分都是男生在玩知乎……

再看一下哪些高校在知乎获得的赞数最多:

北京玩知乎最多的高校依次是:北京大学、北京邮电大学、中国传媒大学、中国人民大学、清华大学。

上海玩知乎最多的高校依次是:上海交通大学、复旦大学、同济大学、上海大学、上海财经大学。

杭州玩知乎最多的高校依次是:浙江大学、浙江工业大学、杭州电子科技大学、浙江大学,计算机科学、浙江大学,软件工程。浙江大学是重度用户啊……

排名依次是:武汉大学、浙江大学、中山大学、华南理工大学、北京大学、华中科技大学、复旦大学、上海交通大学、西北农林科技大学。

好了,高校分析告一段落,我们再来看看知乎用户的各类排名。

知乎赞数最多的100位大V

下图中词云的字越大,表示收到的赞数越多:

我们再来一张直方图,配合着看:

张佳玮大大无可争议的获得第一名,360+万赞,恐怖。其次是马前卒、唐缺、vczh、肥肥猫、朱炫、Seasee Youl、ze ran、鬼木知、豆子。知乎获赞总数前五名有两位都是作家(张佳玮和唐缺),看来作家在知乎回答问题获赞方面还是很吃香,果然表达能力是观点获得认可的一个重要支撑 。

知乎关注者最多的100位大V

下图词云的字越大,表示关注者越多,看看有没有你熟悉的大V 呢?:

同样我们配合着一张直方图来看:

具体的排名为:

知乎回答问题数最多的10位大V从大到小依次为:vczh、李东、赵钢、另一只袜子、四海之内、M3小蘑菇、kun yu、白猫转转风、yskin、肛里拉出个电锯。微软的工作貌似很闲,看轮子哥(vczh)整天刷知乎……

我们再来加上这几位用户在知乎的获得的赞数,看看“回答问题的数量”和“获得的赞数”之间有没有什么联系:

再来看看他们最多参加过多少场 live:

最多的那个大V竟然参加过 1600+ 场 live,真的很有精力和金钱,哈哈。

进群:125240963

原文地址:https://www.cnblogs.com/py1357/p/9161671.html

时间: 2024-10-04 01:02:27

月薪30k的资深程序员用Python爬取了知乎百万用户!并数据分析!的相关文章

你距离月薪30k的iOS程序员,只差了一个完善的职业规划

前言: 一直以来程序员这一职业都给人高薪资的印象,近年来随着互联网行业的快速发展,程序员更是人满为患,然而很多人关注的却是程序员的薪资,而非职业本身. 一批批程序员进入工作岗位,但是很多人并没有对自己的职业生涯有清醒的认识和系统的规划,由此会在职业发展过程中遇到很多问题. 在此我整理出自己对程序员的职业规划的一些见解,希望能帮助到他人,也是自己对职业生涯规划思考的一次总结. 一.程序员是好职业吗? 虽然很多程序员总是调侃自己,但是这个问题我想对于大多数程序员都是肯定的,包括我自己. 不说什么改变

资深程序员用Python实现数据驱动的接口自动化测试!

2. 方案 针对上面的API,在做接口测试时,需要的测试用例动辄会多达10+, 这个时候采用数据驱动的方式将共性的内容写入配置文件或许会更合适. 这里考虑把API.参数.以及预期结果预行在格式化的CSV里保存,利用csv组件从CSV里读取URL.参数以及预期结果,Requests组件发起请求,将响应结果与预期结果进行比对,最后把比对结果写到结果CSV. 流程如下图 3. 实现 (1) 在上代码之前,先安装好如下几个组件: csv 读写CSV文件 json requests 发起请求,获取响应结果

python爬取中国知网部分论文信息

爬取指定主题的论文,并以相关度排序. 1 #!/usr/bin/python3 2 # -*- coding: utf-8 -*- 3 import requests 4 import linecache 5 import random 6 from bs4 import BeautifulSoup 7 8 if __name__=="__main__": 9 keywords='通信' ### 查询的主题 10 n=0 11 target='http://search.cnki.ne

我身边那些资深程序员,他们是怎么突破年薪百万的?

随着这两年,社交圈的扩大,也让我逐渐认识到了越来越多的年薪百万的资深程序员,也刷新了我过去无知的认知.他们其实非常低调,鲜有对外吹嘘自己收入,一直兢兢业业的在技术上驰骋人生,当然,这样的人已经是程序员中前10%了,绝大部分程序员的瓶颈在年薪60w-70w左右,就是天花板了,优秀的人总是喜欢和更优秀的人结交,因为总想上一个台阶.今天来分享下我认识的这些老司机是怎么突破年薪百万(这里的年薪百万以上就是工作的净值,不包含各种副业,各种投资理财带来的收益) 1.老司机A 背景:某TMD技术专家 学历:研

【Python】Java程序员学习Python(五)— 函数的定义和使用

不想做一个待宰的羔羊!!!!要自己变得强大.... 函数的定义和使用放在最前边还是有原因的,现在语言趋于通用,基本类型基本都是那些,重点还是学习对象的使用方法,而最根本的还是方法的使用,因此优先介绍,方法的目的还是重用和封装 一.方法的定义 方法的定义使用关键词def来定义,定义格式如下: def 方法名(参数定义): 方法体 方法名:方法名的规范同变量名规范一样 参数定义:比较复杂,后面会进行讲解 冒号:这个类似于Java的{},必不可少 方法体:方法实现的功能在此定义即可 简单的例子: #定

一位资深程序员大牛给予Java初学者的学习建议(转)

一位资深程序员大牛给予Java初学者的学习建议 这一部分其实也算是今天的重点,这一部分用来回答很多群里的朋友所问过的问题,那就是我你是如何学习Java的,能不能给点建议? 今天我是打算来点干货,因此咱们就不说一些学习方法和技巧了,直接来谈每个阶段要学习的内容甚至是一些书籍.这一部分的内容, 同样适用于一些希望转行到Java的同学. 在大家看之前,我要先声明两点. 1.由于我本人是Java后端开发出身,因此所推荐的学习内容是Java Web和Java后端开发的路线, 非Java Web和Java后

给Lisp程序员的Python简介

给Lisp程序员的Python简介 作者:Peter Norvig,译者:jineslong<[email protected]> 这是一篇为Lisp程序员写的Python简介(一些Python程序员告诉我,这篇文章对他们学习Lisp也有帮助,尽管这不是我的本意).基本上,Python可以看作一个拥有“传统”语法(Lisp社区称之为“中缀”或者“m-lisp”语法)的Lisp方言.一个来自comp.lang.python的帖子说到“我一直不明白为什么LISP是一个不错的想法,直到我开始玩上了P

月薪8000的程序员和月薪2万的程序员差别在哪里?

如果你是一个程序员,目前月薪8000,但是你希望老板给自己开出月薪2万,需要怎么做? 要回答这个问题,我们先来聊聊程序员这份工作. 程序猿,又称码农或攻城狮,在行业外看来,这是一个光鲜亮丽的白领甚至金领职业--坐在电脑旁边喝喝咖啡敲敲键盘就能收入过万,这么好的事情哪里找去!但是程序员自己都知道,这份工作的真实体验并不那么令人愉快,我们细数一下程序员的七大恨吧.一恨客户需求天天修改,二恨单身成狗千百载,三恨年年岁岁都加班,四恨领导不懂瞎指挥,五恨客户无良骗方案,六恨谁都让我修电脑,七恨职业病多挣钱

转载:一位资深程序员大牛给予Java初学者的学习路线建议

一位资深程序员大牛给予Java初学者的学习路线建议 java学习这一部分其实也算是今天的重点,这一部分用来回答很多群里的朋友所问过的问题,那就是我你是如何学习Java的,能不能给点建议?今天我是打算来点干货,因此咱们就不说一些学习方法和技巧了,直接来谈每个阶段要学习的内容甚至是一些书籍.这一部分的内容,同样适用于一些希望转行到Java的同学. 在大家看之前,我要先声明两点.1.由于我本人是Java后端开发出身,因此所推荐的学习内容是Java Web和Java后端开发的路线,非Java Web和J