用数据说话:北京房价数据背后的数据

从2014年对楼市的普遍唱衰,到2015年的价格回暖,到底发生了怎样的改变?本文就尝试通过大数据来和丰富的图表,为大家展现数据背后的数据。


数据来源

这些数据是笔者在2014年10月年和2015年10月份两次,在链家官网上抓取的在售二手房数据,2014年约为64000条,2015年总计约7W条。数据源可能会有偏差,因此结论仅供参考。


疯长的房价

从1992年到2015年,北京的房价经历了怎样的疯狂?可以查看下面的图表。

可以看到,1992年到2002年,呈现一个非常稳定的状态。从2008年起,北京的房价如同火箭一般上窜。

有意思的是,如果按照建造时间来绘制图表,会发现在2000年和2004年左右,达到高峰。在6W套二手房中,2000年总共建造了7697套,占比百分之11.21%。

 到了2014年,北京各个区县的二手房价格如下图:

西城区和东城区的平均价格在五万五左右,之所以没有达到网上其他数据所提到的丧心病狂的9万,是因为我们分析的是二手房。目前二环内新楼盘的数量极少,几乎没有讨论的价值。

我们将房价以热力图方式绘制在地图上,就会非常直观:

颜色越深,代表其价格越高。除了西城,东城这些老城区,中关村(包含大量的学区房)和国贸(北京CBD)都价格高企。

如果我们改变缩放等级,进一步缩小地图范围,可以看到最贵的房子,集中在西单,南锣鼓巷,国贸,以及北新桥地区。

这些最贵小区的房价有多贵呢?下面列出排名前十的十个小区的价格:

文华胡同的位置在哪里呢?笔者专门去搜索了一下。这个超牛无比,价格在33万/平的文华胡同在靠近闹市口大街的西单商圈。

更夸张的是,两套房子都是平房,面积分别是12平和15平,其中一套还是1949年建的。中介给出的宣传标语是,最牛实验二小学区房,抢抢抢!这么小的面积,估计是四合院的厢房改造的吧。现在官网上已经下架。


什么样的房子最多?

我们先看,什么类型的楼房最多,下面给出了楼房总体高度的比例。可以看到,二手房中,六层是最多的。国家规定,七层就要装电梯了。因此在2000年以前,大部分的居民楼都是6层。

再看看不同面积的房子所占总数的比例。我们取面积为40-140平米的房子,进行了统计分析,结论如下图:

可见,60平的一室一厅或两室一厅最为常见。90平米的三居和两居也较多。

我们再对二手房存量绘制热力图:

可以看到,二手房主要集中在天通苑,北苑,望京,十里堡和通州。这基本上与北京2004年发布的《北京市城市总体规划2004-2020》的内容相符:

很有意思的是,绿色的区域相当空旷,比如笔者目前所在的三元桥地区,和酒仙桥之间隔了好大一片荒地,晚上夜跑时荒无人烟。


2014年到2015年的房价变化

下面是刚需读者最关心的内容,2014年到2015年的北京房价,经历了怎样的变化?众所周知,2014年房价走低,整体唱衰,甚至有商家打出了降价6000元/平的广告来推销房子。2015年,降准降息政策出炉,公积金贷款比例提高,北京房价回暖,我们知道肯定涨价了。但到底涨了多少呢?

我们按照2014和2015年价格增减的百分比,绘制出下面的房价变化数量比例图。可以看到,房价变化基本呈现正态分布趋势。但均值不在0点,靠近5%左右,整体右移:

经过统计,2014年的平均房价为40125/平,2015年为42535/平。涨价比例5.64%。也就是说,一套三百万的房子,平均涨了16万左右。

我们列出10万元以下单价,2015年小区内二手房数量超过20套的涨价排名前十的小区:

上地房价怎么涨了这么多?即使在北京,7万8的价格都已经是豪宅,可是上地的房子,一般都是普通的住宅。

原因还是学区房,海淀区教改使得这边的房子变化极大。 上地东里小区内建有上地实验小学,该小学可直升一零一中学上地分校,一零一中学上地分校位于上地西里北侧,就是这9年直升的诱惑导致该区域房价直线攀升。可怜天下父母心!

当然,有涨价就有降价:基本上,降价的小区都在非中心城区,例如樱花园就在顺义。


结论

5%的涨幅,已经说明2015年比2014年价格回暖不少。也有少部分郊区小区降价。当然,这种涨幅和之前火箭般的涨价不可同日而语。可以肯定的是,像北京这样的城市,房子几乎是不可能大跌的。但未来的事情,谁知道呢?

安得广厦千万间,大庇天下寒士俱欢颜!

 

文章已经很长,因此没有将更多的内容囊括其中。我们还做了以下的事情:

  • 分析不同小区涨降价的原因并将其可视化到地图上。
  • 同一个小区中,不同的房子价格差别很大,甚至能差两万元。为什么会出现这种情况?
  • 根据房子周边的学校,医院,商场等场所,计算房子的附加价值。
  • 尝试预测不同小区未来的房价趋势。

附录:

链家在去年有约7W条数据,今年的出售二手房已经达到10W套,但是这些房源里有多少水分呢?根据2014年的数据按照编号检查一下重复:一万两千多套房子出现了两次,将近五千套房子出现过三次,甚至有一套房子出现过八次。其中水分可想而知。

同时,2014年的网页数据还会提供地理坐标信息,2015年就不存在了,所以文中涉及到地理信息的图表都是2014年的。另外,虽然对房子的位置描述非常详细,但中介不会告诉你这是几号楼几层。仅仅提供了楼房的总层高。原因不言自明。

同样,数据的准确性也有问题。很多房子价格都是1万,2万,明显是随意标的。也有一部分价格高的离谱,如88万/平。这些数据在处理前都已经筛掉。以免干扰分析结果。

  • 数据采集采用笔者用C#开发的爬虫工具。
  • 数据清洗ETL采用了笔者开发的工具软件。
  • 数据分析采用python.
  • 可视化使用了matplotlib和seaborn.
  • 热力图使用了百度地图API, 按经纬度0.01度为一个子区域,计算其中的平均值作为当前区域的房价/二手房数量。

有任何问题,欢迎讨论!

时间: 2024-10-10 06:14:12

用数据说话:北京房价数据背后的数据的相关文章

让数据说话:2014智能手机市场恶战仍将继续

笔者按:在这个数据为王的时代,数据在我们的生活中扮演着越来越重要的角色.不管是形形色色的市场调研数据,还是与生活密不可分的多彩数据,都在宣示着数据的威力.特别是对于企业来说,详尽的数据几乎意味着一切,是公司下一步乃至未来战略的指示标.君不见,手机厂商都在追求销售数据,以证明自己在行业内的地位? 对于销售数据的追求,不仅仅是国内手机厂商特别狂热,全球所有手机厂商都在孜孜不倦的研究如何提升自己的出货量.在这个残酷的行业,出货量或许意味着一切--江湖地位.话语权.上下游定价权--想要获得尊重和地位,就

向别人介绍项目, 不妨尝试简洁、情景式、数据说话

在日常工作中,我们时常需要向同事.朋友.甚至投资人介绍自己的项目,不一样的介绍方式会导致不同的效果.而介绍的难点在于: 1.如何引起别人的兴趣?2.听者的背景迥异,他们大都没有你的行业背景,介绍得越多,听者的疑问可能越多,如何避免?3.由于自己在项目上的投入,对项目有某种情结,如何避免夸大其辞,而保持客观? 通常,我们会以"陈述"的方式介绍: 我们在做一件事......提供......产品.服务,具体的工作包括...... 但是,如果我们以"故事"的方式介绍,会不会

你觉得产品经理该不该拿数据说话?

首先产品经理拿数据说话一定是没有错的. 如果产品经理对数据抽取漫无目的,花了时间,但并不能产生指导性的产品设计思路.对此,我的理解是这样的:你的产品经理似乎没有搞清楚产品的价值功能,目标涣散,导致把控不了价值数据. 我们先弄懂几个概念: A. 价值数据? 数据分析本身是衡量一切后续产品改进的结果性指标. 这也正符合管理学大师彼得·格鲁克说过的:「If you can't measure it,you can't improve it.」 比起感性的推测,数据无疑是很靠谱的东西.而对于产品经理来说

智云通CRM:大数据时代,用简单方式让数据说话

数据会说话吗?在大数据时代,数据不光会说话,还会驱动企业决策,让企业往正确的方向发展. 信息化技术的飞速发展,造就了大量信息的爆发性增长,海量信息被IT系统所传输.使用.保留和存储,成为海量的数据,大数据时代已经来临.在大数据时代,数据不仅仅是信息的简单记录和保存,更是蕴藏着巨大商业价值的"宝藏",数据已经成为了企业的重要战略资产,数据分析则对企业的商业发展起着举足轻重的作用,成为企业重点关注的领域. 数据分析困局 据Gartner相关数据表明,2014年全球花费810亿美元在业务分析

用数据说话,外贸产品选择(中篇)-google趋势分析法

在上篇文章<用数据说话,贸B2C产品选择(上篇)-热门搜索法>中我们能搜索出来几种产品了,那我们就拿上次搜索出来的热门产品来做一个趋势分析.我们经过几个站点挑出了几种热卖产品Wedding dress(婚纱),hearing aid(助听器),wigs(假发),nail polish(指甲油),oil painting.我们如今挑出来了5种产品. 我们如今要借助工具google trends工具来对这几类产品做分析. 首先,从这几种产品里,我们应该可以了解到外贸b2c领域里边比較热门的产品有:

用数据说话,外贸B2C产品选择(上篇)-热门搜索法

当选择了外贸这条路,那就是选择了跟外国人做生意.那面对全球这么大的市场到底选什么样的产品才能脱颖而出?什么样的产品才是全球卖家喜欢的呢?什么样的产品才能让自己财源滚滚?我想这都是所有刚开始外贸创业的人的共同痛苦的地方. 其实对于外贸做什么产品呢?每个外贸生意人都会有自己的想法.对于米兰网创业初,选择的就是婚纱这样一个产品,他们认为是体积不大,重量不重,价格适中,每个老外都要经历婚礼,市场前景广阔:对于主做3C产品的DX来说,那认为数码产品标准化,体积小,重量轻,产品更新快,几乎每个人都需要:对于

用数据说话!图表控件LightningChart .NET助力开发人员打造全新数据分析体验

在我们开发项目时,经常需要将一些数据统计,并以图表形式显示出来.图形图表的可视化数据表现形式已成为一种趋势.当然,现如今的图表控件种类繁多,各有各的优势.身为开发人员的你是否也难以抉择?如果您的行业属于科学和研究,工程,经济和金融,贸易,医药,能源,太空和防御等对数据要求比较苛刻的行业:如果您希望快速处理庞大数据:如果您追求卓越的性能,那么这款控件-LightningChart .NET,将会是你不二的选择. LightningChart .NET是用于WPF和Windows窗体的最快的2D和3

Cocos数据篇[3.4](3) ——XML数据操作

[唠叨] XML 即 可扩展标记语言,在游戏开发中,常用于保存游戏数据信息,如最高分.游戏等级等信息,和描述一些资源等. 加载动画的plist文件.瓦片地图编辑器到处的地图格式tmx文件,实际上都是特定格式的xml文件. 另外 UserDefault 单例类保存的数据,也是存储在xml文件中的. Cocos2d-x 已经加入了 tinyxml2库 用于xml的解析.3.x版本位于external/tinyxml2下. 本节要介绍的就是:如何使用 tinyxml2库 来操作处理xml文件. [参考

小数据大道理:新书《大数据运营》众筹启示

2015年7月,我的***作<大数据运营>在众筹网发起30天的图书预售活动,筹资金额5000元,从项目发起的两天半时间,即周五下午到周日晚上,就超额完成了预定目标,非常的震撼.最终,总共得到102名支持者的支持,除了两位无私支持者一位,恰好是100为获得实物回报的支持者,总筹资金额7999元,超额完成了预定目标. 通过众筹网的图书推广活动,也获取到支持者的订单数据,具体包括下单时间.配送地点.购书数量.购书金额.与笔者的社会关系等.由于只有102位支持者,所以订单数据量很小,所有就不能称之为&