据媒体报道,中国目前的单身成年女性的数量已经超过一个多亿,也就是说14.3%的成年女性处于单身状态,与日本全国人口总数基本相当。
知己知彼,百战不殆。如果你是一个单身女性,你可以看到自己的某些影子;如果是单身男生,你需要了解目标人群的特点;如果是已婚男士,要相信“天下凤凰一般美!!!”
说 明
开始本文之前有几点说明:
1、本文数据主要来自于某婚恋网站的爬虫搜索数据;
2、该网站上的女生默认为单身;
3、该网站上的个人信息默认为真实;
4、爬取的样本数据具有充分的代表性。
5.很多初学者,对大数据的概念都是模糊不清的,大数据是什么,能做什么,学的时候,该按照什么线路去学习,学完往哪方面发展,想深入了解,想学习的同学欢迎加入大数据学习qq群:458345782,有大量干货(零基础以及进阶的经典实战)分享给大家,并且有清华大学毕业的资深大数据讲师给大家免费授课,给大家分享目前国内最完整的大数据高端实战实用学习流程体系。
一、基本概况
爬取该网站18~37岁之间的女生个人主页信息,总体数量在5000左右,地域范围涵盖三十多个省(自治区、直辖市)。数据质量方面:身高、体重和工作等部分信息缺省。
二、人群年龄与星座分布
从年龄直方图看,基本满足正态分布,在24岁和32岁左右存在两个较大的波峰。18~23岁正处于大学教育阶段,校园恋情比较多,因此该年龄阶段在网站注册人数较少;26岁处于两个波峰之间,是剩下比较少的年纪,说明这个年龄阶段的比较抢手。
从星座分布来看,风相星座中的双子座(11.47%)和天秤座(10.58%)的优异成绩勇夺前两名,有意思的是,同属风相星座的水瓶座以5.51%垫底。按照一般的理解,风相星座想象力丰富,擅长社交,语言表达能力强,但性格变化多端,有喜新厌旧和情绪化的毛病,这也许是呈现两极分化的原因吧。而自带招黑体质的×××座(8.78%)表现相对中庸。
三、外貌协会特点
从身高分布直方图上看,身高的众数为165CM,主要分布区间为160~170。
从体重分布直方图上看,体重集中于48~53kg之间,基本满足正态分布规律。
从外貌自我描述的关键词上看,“迷人”、“秀气”、“可爱”高居三甲,同时“长发”看起来是一个很重要的特征,有意思的是还有人将“爱笑”、“健康”作为自我外貌的描述关键词。
四、个性和爱好
从个性描述上看,“温柔”、“开朗”、“活泼”的女生占据了单身女性的大多数,估计和人群分布规律类似。比较吸引眼球的关键词“简单”。我觉得此处的简单,可能就是所谓的“喂马劈柴周游世界”“从明天起关心粮食和蔬菜”吧。
从爱好上看,“旅游”、“逛街”、“聚会交友”爱好榜前三名。这也很好理解,主要的爱好其实是买买买,可以逛街买,也可以旅游买,买了之后可以聚会交友,而后带上朋友一起买。。。
五、受教育情况
受教育程度上看,本科占据了绝大多数,这和人群的分布规律基本一致。
六、工作和收入
职业分布情况见下图:
令人比较吃惊的是各位单身的收入,不想评论了,都这么高。。。
七、全国分布情况
可以看出,经济发达的上海、北京等大城市的数量比较多,与黑河腾冲线人口分布规律一致。
八、数据相关性
选取年龄、身高、星座、省份、学历、收入、职业等7个维度的刻画数据,分别计算Pearson、Spearman和Kendall相关系数。
结论基本一致:收入和职业的相关性较强(Pearson相关系数=0.46),其次是收入和年龄、学历的相关性。一个有趣的发现是身高和学历竟然存在微弱的相关性,Pearson相关系数为0.26;而星座与其他各项的相关性最弱,所以经常说的XX星座擅长考试的说法应该是没有依据的吧。
九、小结
单身女生分析报告基本完成。从统计结论上看,与人群分布规律基本一致,也与外界的认知基本统一。不过也有几点有意思的发现:比如年龄分布的双峰特点、风相星座的两极分化、“旅游逛街交友”的三大爱好以及身高和学历间的微弱相关性。
数据里蕴含着丰富的宝藏,只要挖掘,总会有所发现。
原文地址:http://blog.51cto.com/14042734/2313379