链家广州二手房的数据与分析——数据分析2

继续上一篇的工作继续分析广州链家二手房的数据。

Normality Test



用nortest package 的 ad.test() 分别对三个主要因素(面积,总价和均价)进行正态分布检验,结果显示这三个变量都不满足正态分布,而 Q-Q Plot 的表现方式就更直观了:

房子的面积

ad.test(house$area) #p-value < 2.2e-16 reject normality
qqnorm(house$area)
qqline(house$area, col = 2, lwd=2)

房子的总价

ad.test(house$total_price) #p-value < 2.2e-16 reject normality
qqnorm(house$total_price)
qqline(house$total_price, col = 2, lwd=2)

房子的单价

ad.test(house$unit_price) #p-value < 2.2e-16 reject normality
qqnorm(house$unit_price)
qqline(house$unit_price, col = 2, lwd=2)

因为房子的面积,总价和单价这三个变量均不满足正态分布,所以就不能对这三个变量进行 ANOVA 和线性回归等分析了。

Cluster Analysis



接下来我们可以将可知的房源划分归类。房子分类后对于卖家和中介而言就可以更精准地找到目标的客户群体,对于买家而言也可以避免花更多的时间去了解不合适的房子从而加快交易速度(毕竟房子总是蹭蹭蹭地往上涨不给人思考的时间~)我会用简单方便的 K-Mean 算法对房子实现分类的工作。

在开始聚类分析之前心里要大概有个数,到底这些房子应该分为几类才合适?聚类的原则就是组内的差距要小而组间的差距要大。我只选择面积和单价这两个最为重要的变量进行分析,并计算了不同分组的情况下的组内离差平方和:

tot.wssplot <- function(data, nc, seed=1){
                tot.wss <- (nrow(data)-1)*sum(apply(data,2,var))
                for (i in 2:nc){
                  set.seed(seed)
                  tot.wss[i] <- kmeans(data, centers=i, iter.max = 500)$tot.withinss
                }
                plot1 <- ggplot(data=data.frame(1:nc,tot.wss), aes(x=1:nc, y=tot.wss, group=1)) +
                          geom_line(color="#007CFF", linetype="solid", size=1.0)+
                          geom_point(color="#FF6666")+
                          scale_x_continuous(limits=c(0, 10),breaks = seq(0,10,2))+
                          scale_y_continuous(limits=c(10000, 45000),breaks = seq(10000, 45000,5000))+
                          xlab('Number of Cluster')+
                          ylab('Within groups sum of squares')
}
temp <- data.frame(scale(house[,c("area", "unit_price")]))
plot2 <- tot.wssplot(temp, nc = 10)
print(plot2)

由上图的计算结果,我选择了将房子分为5类, 结果还不错。

set.seed(1)
group <- kmeans(x = temp, centers = 5, iter.max = 500)
print(group)
#K-means clustering with 5 clusters of sizes 7336, 3448, 16948, 19842, 3906
#(between_SS / total_SS =  74.7 %)

Interpreting Results

将分类的结果作为数据的一个新变量 house$group ,然后分组计算各组的房子的面积,总价和单价。

Group Area Total Price Unit Price Count
1 74.86566 154.5091 20766.57 7336
2 86.89919 595.8457 67492.40 3448
3 79.08328 310.8258 39814.88 16948
4 58.04336 179.4360 31160.86 19842
5 142.63028 460.6121 30534.02 3906

另外,第一组的房子集中的区域为市桥,新塘南,桥南等地;第二组的房子集中在东山口,淘金,天河公园等地;第三组的房子集中在京溪,昌岗,金碧等;第四组的房子集中在江燕路,西关,大石,祈福新村等;第五组的房子集中在麓景,荔城等。

综合上述的信息,我认为可以将广州的二手房大致分为以下5类:

  1. 上车盘型:这组的房子大多位于市郊而且面积适中,价格较低。对于资金不够充裕的买家来说也是一个能够得着的选择。
  2. 区域中心型(好地段):这组的房子大多位于广州市的黄金地段(或是交通或是学位等因素),均价是远远超过广州二手房均价的,而且物以稀为贵在房子上也能验证。这组的房子数量并不多。
  3. 刚需型: 这组的房子大多位于广州市内,虽然不算很好的地段,但是至少交通配套等设施会比市郊的房子要好。面积适中,价格适中,房源充足。
  4. “老破小”型:这组的房子面积偏小,但是其集中所处的区域多处于江燕路和西关等老城区,所以其价格也不会很便宜,因为把这组的房子定义为“老破小”型。打引号的原因是这组内的房子不一定一一满足即老又小又破的特征,但是由数据推测该组的大多数房子会满足老破小其一的特征。
  5. 大户型: 这组的房子面积较大,很容易就知道是包括别墅,复式等大户型的房子了。

通过绘制房子分组与房子建筑年代的图形,可以确定第4组就是老房子居多了,基本80s的房子都属于第4组的房子。

绘制房子分组与房子是否近地铁的图形,可以确定第2组是大部分是近地铁(代表交通发达)的好位置的房子,而第1组则符合预期猜测多为市郊的房子远离地铁。

最后,说了那么多,买房子就还是看看银行卡的余额……

原文地址:https://www.cnblogs.com/yukiwu/p/11333349.html

时间: 2024-08-30 07:47:34

链家广州二手房的数据与分析——数据分析2的相关文章

上海链家网二手房成交数据爬取

# 本文以浦东新区为例--其他区自行举一反三 import requests import pandas as pd import pprint import csv import pandas as pd from bs4 import BeautifulSoup url='https://sh.lianjia.com/chengjiao/{areo}/pg{page}/' data=[] #定义区列表 arealist=['beicai','biyun','caolu','chuansha'

43.scrapy爬取链家网站二手房信息-1

首先分析:目的:采集链家网站二手房数据1.先分析一下二手房主界面信息,显示情况如下: url = https://gz.lianjia.com/ershoufang/pg1/显示总数据量为27589套,但是页面只给返回100页的数据,每页30条数据,也就是只给返回3000条数据. 2.再看一下筛选条件的情况: 100万以下(775):https://gz.lianjia.com/ershoufang/pg1p1/(p1是筛选条件参数,pg1是页面参数) 页面返回26页信息100万-120万(47

爬取链家任意城市租房数据(北京朝阳)

1 #!/usr/bin/env python 2 # -*- coding: utf-8 -*- 3 # @Time : 2019-08-16 15:56 4 # @Author : Anthony 5 # @Email : [email protected] 6 # @File : 爬取链家任意城市租房数据.py 7 8 9 import requests 10 from lxml import etree 11 import time 12 import xlrd 13 import os

使用python抓取并分析北京链家地产二手房信息

1 import requests 2 import time 3 from bs4 import BeautifulSoup 4 5 #设置列表页URL的固定部分 6 url='http://bj.lianjia.com/ershoufang/' 7 #设置页面页的可变部分 8 page=('pg') 9 10 #设置请求头部信息 11 headers = {'User-Agent':'Mozilla/5.0 (Windows NT 6.1) AppleWebKit/537.11 (KHTML

链家北京二手房数据分析

环境: R 研究对象: 1. 二手房数据的区域特征 2. 二手房数据的面积特征 1. 导入原始数据 setwd("/Users/mac/Desktop/lianjia/") d = read.csv("/Users/mac/Desktop/lianjia/Lianjia.csv") 2. 数据清洗 - 将数据设置为数据框格式,并查看数据汇总信息 as.data.frame(d) summary(d) - 初步观察:一共有11个变量,目标变量为Price - 移除第六

python 学习 - 爬虫入门练习 爬取链家网二手房信息

import requests from bs4 import BeautifulSoup import sqlite3 conn = sqlite3.connect("test.db") c = conn.cursor() for num in range(1,101): url = "https://cs.lianjia.com/ershoufang/pg%s/"%num headers = { 'User-Agent': 'Mozilla/5.0 (Windo

Python高级应用程序设计任务要求(主题链家二手车)

内容简介 链家二手房成交信息(福州) 本文主要使用了multiprocessing模块创建多个进程对象,使用Queue将多个进程联系在一起,也就是线程之间的通信多个对链家的二手房进行数据的爬取,处理,存储等操作. 结构:主从模式: 主控制节点 从爬虫节点 分析与设计 系统主要核心有两大调度器 1.控制调度器 主要负责管理三个进程:一:负责将地址传递给爬虫节点,二:负责读取爬虫节点返回的数据,三:负责将数据提取进程中提交的数据进行数据持久化 2.爬虫调度器 爬虫节点主要是包括两个功能,下载html

使用python抓取并分析数据—链家网(requests+BeautifulSoup)(转)

本篇文章是使用python抓取数据的第一篇,使用requests+BeautifulSoup的方法对页面进行抓取和数据提取.通过使用requests库对链家网二手房列表页进行抓取,通过BeautifulSoup对页面进行解析,并从中获取房源价格,面积,户型和关注度的数据. 准备工作 首先是开始抓取前准备工作,导入需要使用的库文件,这里主要使用的是requests和BeautifulSoup两个.Time库负责设置每次抓取的休息时间.这里并非全部,后续还会在过程中导入新的库. 抓取列表页 开始抓取

上海二手房8月排名:链家、悟空找房、中原、太平洋、我爱我家、易居、房天下、iwjw、房多多、房好多、q房网、、、

链家称王 房多多领跑电商平台 近日,云房数据公布了8月上海房产中介成交数据,从排行榜来看,前五名分别为,总计占上海二手房市场份额达41%. 具体来看,老牌中介方面,链家德佑8月成交9864套遥遥领先,占据上海市场五分之一份额:互联网电商平台方面,房多多本月共成交1406套二手房,一举超越房天下,成为电商中介平台的领头羊.此外,志远本月3057套销售,升至第二名,成为本月最大黑马. TOP10企业占上海二手房市场份额过半 据云房数据统计,2016年8月上海二手房住宅共成交52380套.根据交易方式