大数据揭秘: 原来单身女生有这些特点...,掌握大数据,你远远不止会这些

据媒体报道,中国目前的单身成年女性的数量已经超过一个多亿,也就是说14.3%的成年女性处于单身状态,与日本全国人口总数基本相当。

知己知彼,百战不殆。如果你是一个单身女性,你可以看到自己的某些影子;如果是单身男生,你需要了解目标人群的特点;如果是已婚男士,要相信“天下凤凰一般美!!!”

说 明

开始本文之前有几点说明:

1、本文数据主要来自于某婚恋网站的爬虫搜索数据;

2、该网站上的女生默认为单身;

3、该网站上的个人信息默认为真实;

4、爬取的样本数据具有充分的代表性。

5.很多初学者,对大数据的概念都是模糊不清的,大数据是什么,能做什么,学的时候,该按照什么线路去学习,学完往哪方面发展,想深入了解,想学习的同学欢迎加入大数据学习qq群:458345782,有大量干货(零基础以及进阶的经典实战)分享给大家,并且有清华大学毕业的资深大数据讲师给大家免费授课,给大家分享目前国内最完整的大数据高端实战实用学习流程体系。

一、基本概况

爬取该网站18~37岁之间的女生个人主页信息,总体数量在5000左右,地域范围涵盖三十多个省(自治区、直辖市)。数据质量方面:身高、体重和工作等部分信息缺省。

二、人群年龄与星座分布

从年龄直方图看,基本满足正态分布,在24岁和32岁左右存在两个较大的波峰。18~23岁正处于大学教育阶段,校园恋情比较多,因此该年龄阶段在网站注册人数较少;26岁处于两个波峰之间,是剩下比较少的年纪,说明这个年龄阶段的比较抢手。

从星座分布来看,风相星座中的双子座(11.47%)和天秤座(10.58%)的优异成绩勇夺前两名,有意思的是,同属风相星座的水瓶座以5.51%垫底。按照一般的理解,风相星座想象力丰富,擅长社交,语言表达能力强,但性格变化多端,有喜新厌旧和情绪化的毛病,这也许是呈现两极分化的原因吧。而自带招黑体质的×××座(8.78%)表现相对中庸。

三、外貌协会特点

从身高分布直方图上看,身高的众数为165CM,主要分布区间为160~170。

从体重分布直方图上看,体重集中于48~53kg之间,基本满足正态分布规律。

从外貌自我描述的关键词上看,“迷人”、“秀气”、“可爱”高居三甲,同时“长发”看起来是一个很重要的特征,有意思的是还有人将“爱笑”、“健康”作为自我外貌的描述关键词。

四、个性和爱好

从个性描述上看,“温柔”、“开朗”、“活泼”的女生占据了单身女性的大多数,估计和人群分布规律类似。比较吸引眼球的关键词“简单”。我觉得此处的简单,可能就是所谓的“喂马劈柴周游世界”“从明天起关心粮食和蔬菜”吧。

从爱好上看,“旅游”、“逛街”、“聚会交友”爱好榜前三名。这也很好理解,主要的爱好其实是买买买,可以逛街买,也可以旅游买,买了之后可以聚会交友,而后带上朋友一起买。。。

五、受教育情况

受教育程度上看,本科占据了绝大多数,这和人群的分布规律基本一致。

六、工作和收入

职业分布情况见下图:

令人比较吃惊的是各位单身的收入,不想评论了,都这么高。。。

七、全国分布情况

可以看出,经济发达的上海、北京等大城市的数量比较多,与黑河腾冲线人口分布规律一致。

八、数据相关性

选取年龄、身高、星座、省份、学历、收入、职业等7个维度的刻画数据,分别计算Pearson、Spearman和Kendall相关系数。

结论基本一致:收入和职业的相关性较强(Pearson相关系数=0.46),其次是收入和年龄、学历的相关性。一个有趣的发现是身高和学历竟然存在微弱的相关性,Pearson相关系数为0.26;而星座与其他各项的相关性最弱,所以经常说的XX星座擅长考试的说法应该是没有依据的吧。

九、小结

单身女生分析报告基本完成。从统计结论上看,与人群分布规律基本一致,也与外界的认知基本统一。不过也有几点有意思的发现:比如年龄分布的双峰特点、风相星座的两极分化、“旅游逛街交友”的三大爱好以及身高和学历间的微弱相关性。

数据里蕴含着丰富的宝藏,只要挖掘,总会有所发现。

原文地址:http://blog.51cto.com/14042734/2313379

时间: 2024-10-27 01:14:33

大数据揭秘: 原来单身女生有这些特点...,掌握大数据,你远远不止会这些的相关文章

大数据揭秘网购诈骗:一万人中约有一人被骗

网络购物如今已经成为人们主流的消费方式,而木马犯罪产业也大规模"转行",把攻击重心从游戏盗号转向网购消费者身上,利用钓鱼网站结合电话诈骗.木马劫持等方式盗取网购资金,致使许多网购用户利益受损. 360互联网安全中心日前发布的<2014年上半年中国网购安全报告>(简称<网购安全报告>)基于大数据统计分析,今年上半年360网购先赔服务共接到网络欺诈报案约1.3万例,占开启网购先赔服务用户的比例接近万分之一.这意味着,每一万名网购消费者中,就有一个人实际遭遇网购损失.

大数据开发经验分享:女生学大数据开发优势

在大数据时代下,大数据开发工程师和数据分析师都是非常多的人想要进入的行业.那么,作为女生学大数据难度大吗?女生学习大数据开发有什么优势吗?今天,我们针对此问题做个解答.一.与男性相比,女性在沟通上更有优势众所周知,做大数据就是为了服务于客户,虽然说做出项目可以满足于客户需求,但是如何完整地表达出你所做的项目初衷,则是不少男性大数据工程师的硬伤.女性给人平易近人的感觉,在与客户的沟通中会给客户以好感,自然能够减少与客户的沟通障碍.二.外界对女性工程师的期望值不高现在我们总是在强调男女平等,但是由于

游戏大数据揭秘 游戏运营最赚钱的办法在这里!

王者荣耀每天收入以亿为单位,羡慕马化腾一个游戏就赚的盆满钵满,那么游戏行业为什么这么赚钱,游戏运营在这其中至关重要,比如说某游戏公司的精细化商业化运营,可以根据玩家在付费和活跃维度的不同,在同一个商业化活动中设计不同的礼包和折扣.比如部分抽奖,可以有效保护付费玩家的体验,根据玩家在游戏内喜好的模式,在付费活动的推荐列表中推荐其可能更有付费意愿的道具,提升转化率,也可以优化游戏内商城..把用户分为高,中,低付费群里,每一个类别都设计不同的符合其心理账户的礼包道路,并对这些群体进行追踪和分析,当然了

【大数据】2015 Bossie评选-20个最佳开源大数据技术

2015-10-10 张晓东 东方云洞察东方云洞察 InfoWorld在分布式数据处理.流式数据分析.机器学习以及大规模数据分析领域精选出了2015年的开源工具获奖者,下面我们来简单介绍下这些获奖的技术工具. 1. Spark 在Apache的大数据项目中,Spark是最火的一个,特别是像IBM这样的重量级贡献者的深入参与,使得Spark的发展和进步速度飞快. 与Spark产生最甜蜜的火花点仍然是在机器学习领域.去年以来DataFrames API取代SchemaRDD API,类似于R和Pan

大数据架构和模式(四)——了解用于大数据解决方案的原子模式和复合模式

摘要:本文中介绍的模式有助于定义大数据解决方案的参数.本文将介绍最常见的和经常发生的大数据问题以及它们的解决方案.原子模式描述了使用.处理.访问和存储大数据的典型方法.复合模式由原子模式组成,并根据大数据解决方案的范围进行分类.由于每个复合模式都有若干个维度,所以每个模式都有许多变化.复合模式使得业务和技术用户可以应用一个结构化方法为大数据问题建立范围,并定义高级的解决方案. 简介 本系列的 第 3 部分 介绍了大数据解决方案的逻辑层.这些层定义了各种组件,并对它们进行分类,这些组件必须处理某个

数据自生长机制:数博会揭示大数据成功的新逻辑

在大数据领域,我国已经出现4家估值超过100亿美元的超级独角兽企业,分别是蚂蚁金服(估值750亿美元).滴滴出行(估值500亿美元).美团点评(估值178.8亿美元).今日头条(估值103亿美元),4家估值之和占我国大数据独角兽总估值比例达到67.1%. 2017年5月27日,在贵阳数博会上,北京市长城企业战略研究所(简称"长城战略咨询")发布了<2016中国大数据独角兽企业发展报告>(简称<报告>).根据该<报告>,2016年中国大数据(准)独角兽

《Spark大数据分析:核心概念、技术及实践》大数据技术一览

本节书摘来自华章出版社<Spark大数据分析:核心概念.技术及实践>一书中的第1章,第1节,作者穆罕默德·古勒(Mohammed Guller)更多章节内容可以访问云栖社区"华章计算机"公众号查看. 大数据技术一览 我们正处在大数据时代.数据不仅是任何组织的命脉,而且在指数级增长.今天所产生的数据比过去几年所产生的数据大好几个数量级.挑战在于如何从数据中获取商业价值.这就是大数据相关技术想要解决的问题.因此,大数据已成为过去几年最热门的技术趋势之一.一些非常活跃的开源项目都

大数据架构和模式(四)了解用于大数据解决方案的原子模式和复合模式

本文收藏于:http://kb.cnblogs.com/page/510982/ 作者: Divakar等  来源: DeveloperWorks  发布时间: 2015-01-29 18:21   推荐: 0   原文链接   [收藏] 摘要:本文中介绍的模式有助于定义大数据解决方案的参数.本文将介绍最常见的和经常发生的大数据问题以及它们的解决方案.原子模式描述了使用.处理.访问和存储大数据的典型方法.复合模式由原子模式组成,并根据大数据解决方案的范围进行分类.由于每个复合模式都有若干个维度,

想学大数据发展的小伙伴注意了,这十大点你清楚吗

现在由于人工智能的大热,这方面的人才稀缺,薪资水平不用说,行业中的NO.1,所以各路人马纷纷集结互联网行业,有转行的,有转岗的.对于初学者在学习这方面肯定有许多疑问,是什么疑问呢,我在这里一 一给你解答. 分享之前我还是要推荐下我自己创建的大数据学习交流Qun: 710219868 进Qun聊邀请码填写 南风(必填)我就知道是你了 一.首先要搞清楚一个概念,什么是大数据. 大数据又称巨量资料,就是数据量大.来源广.种类繁多(日志.视频.音频),大到PB级别,现阶段的框架就是为了解决PB级别的数据