链家北京二手房数据分析

环境: R

研究对象:

1. 二手房数据的区域特征

2. 二手房数据的面积特征

1. 导入原始数据

setwd("/Users/mac/Desktop/lianjia/")
d = read.csv("/Users/mac/Desktop/lianjia/Lianjia.csv")

 

2. 数据清洗

- 将数据设置为数据框格式,并查看数据汇总信息

as.data.frame(d)
summary(d)

- 初步观察:一共有11个变量,目标变量为Price

- 移除第六列ID信息,不具有分析价值。添加新的特征每平米房价 PerPrice (总价/面积),并调整列的顺序。

d <- d[,-6]
dp <- d$Price/d$Size
d2 <- transform(d,PerPrice=dp)

  

3. 数据可视化

3.1 区域特征分析

#各大区二手房每平米房价对比
means1 <- aggregate(d2$PerPrice, by=list(d2$Region), FUN = mean)
#https://www.rdocumentation.org/packages/stats/versions/3.6.2/topics/aggregate
means1 <- means1[order(means1$x, decreasing = T),]
a1 <- means1$x
bar1 <- barplot(a1, names.arg = means1$Group.1, family=‘STXihei‘, ylim = c(0,15), main = "各大区每平米房价")

  • 二手房均价:西城区的房价最贵均价大约11万/平,因为西城在二环以里,且是热门学区房的聚集地。其次是东城大约10万/平,然后是海淀大约8.5万/平,其它均低于8万/平。
  • 二手房房数量:从数量统计上来看,目前二手房市场上比较火热的区域。海淀区和朝阳区二手房数量最多,差不多都接近3000套,毕竟大区,需求量也大。然后是丰台区,近几年正在改造建设,有赶超之势。
  • 二手房总价:通过箱型图看到,各大区域房屋总价中位数都都在1000万以下,且房屋总价离散值较高,西城最高达到了6000万,说明房屋价格特征不是理想的正太分布。
#各大区二手房数量
amount <- table(d2$Region)
bar2 <- barplot(sort(amount, decreasing = T), main = "各大区二手房数量", horiz = F, ylim = c(0,4000))

 

原文地址:https://www.cnblogs.com/zfkepic/p/12147888.html

时间: 2024-10-08 07:29:38

链家北京二手房数据分析的相关文章

43.scrapy爬取链家网站二手房信息-1

首先分析:目的:采集链家网站二手房数据1.先分析一下二手房主界面信息,显示情况如下: url = https://gz.lianjia.com/ershoufang/pg1/显示总数据量为27589套,但是页面只给返回100页的数据,每页30条数据,也就是只给返回3000条数据. 2.再看一下筛选条件的情况: 100万以下(775):https://gz.lianjia.com/ershoufang/pg1p1/(p1是筛选条件参数,pg1是页面参数) 页面返回26页信息100万-120万(47

链家广州二手房的数据与分析——数据分析2

继续上一篇的工作继续分析广州链家二手房的数据. Normality Test 用nortest package 的 ad.test() 分别对三个主要因素(面积,总价和均价)进行正态分布检验,结果显示这三个变量都不满足正态分布,而 Q-Q Plot 的表现方式就更直观了: 房子的面积 ad.test(house$area) #p-value < 2.2e-16 reject normality qqnorm(house$area) qqline(house$area, col = 2, lwd=

使用python抓取并分析北京链家地产二手房信息

1 import requests 2 import time 3 from bs4 import BeautifulSoup 4 5 #设置列表页URL的固定部分 6 url='http://bj.lianjia.com/ershoufang/' 7 #设置页面页的可变部分 8 page=('pg') 9 10 #设置请求头部信息 11 headers = {'User-Agent':'Mozilla/5.0 (Windows NT 6.1) AppleWebKit/537.11 (KHTML

上海链家网二手房成交数据爬取

# 本文以浦东新区为例--其他区自行举一反三 import requests import pandas as pd import pprint import csv import pandas as pd from bs4 import BeautifulSoup url='https://sh.lianjia.com/chengjiao/{areo}/pg{page}/' data=[] #定义区列表 arealist=['beicai','biyun','caolu','chuansha'

python 学习 - 爬虫入门练习 爬取链家网二手房信息

import requests from bs4 import BeautifulSoup import sqlite3 conn = sqlite3.connect("test.db") c = conn.cursor() for num in range(1,101): url = "https://cs.lianjia.com/ershoufang/pg%s/"%num headers = { 'User-Agent': 'Mozilla/5.0 (Windo

链家二手房成交爬虫

逐渐有了买房的想法,研究一段时间之后,发现各大网站都没有给出一个完整的房价统计数据和走势.好在链家网的每一条二手房成交记录都有对应的网页.如果能把每一套房的成交信息(面积,单价,总价,成交时间,户型,版块,行政区等等)拿到,存入db或者excel中,那么要分析历史走势就容易多了.此程序就是能够抓取链家网二手房成交记录的爬虫 获取所有成交记录url 以成都为例,打开https://cd.lianjia.com/chengjiao/ 可以看到所有已经成交的二手房.每一页显示30个记录,点击记录的标题

上海二手房8月排名:链家、悟空找房、中原、太平洋、我爱我家、易居、房天下、iwjw、房多多、房好多、q房网、、、

链家称王 房多多领跑电商平台 近日,云房数据公布了8月上海房产中介成交数据,从排行榜来看,前五名分别为,总计占上海二手房市场份额达41%. 具体来看,老牌中介方面,链家德佑8月成交9864套遥遥领先,占据上海市场五分之一份额:互联网电商平台方面,房多多本月共成交1406套二手房,一举超越房天下,成为电商中介平台的领头羊.此外,志远本月3057套销售,升至第二名,成为本月最大黑马. TOP10企业占上海二手房市场份额过半 据云房数据统计,2016年8月上海二手房住宅共成交52380套.根据交易方式

使用python抓取并分析数据—链家网(requests+BeautifulSoup)(转)

本篇文章是使用python抓取数据的第一篇,使用requests+BeautifulSoup的方法对页面进行抓取和数据提取.通过使用requests库对链家网二手房列表页进行抓取,通过BeautifulSoup对页面进行解析,并从中获取房源价格,面积,户型和关注度的数据. 准备工作 首先是开始抓取前准备工作,导入需要使用的库文件,这里主要使用的是requests和BeautifulSoup两个.Time库负责设置每次抓取的休息时间.这里并非全部,后续还会在过程中导入新的库. 抓取列表页 开始抓取

Python的scrapy之爬取链家网房价信息并保存到本地

因为有在北京租房的打算,于是上网浏览了一下链家网站的房价,想将他们爬取下来,并保存到本地. 先看链家网的源码..房价信息 都保存在 ul 下的li 里面 ? 爬虫结构: ? 其中封装了一个数据库处理模块,还有一个user-agent池.. 先看mylianjia.py # -*- coding: utf-8 -*- import scrapy from ..items import LianjiaItem from scrapy.http import Request from parsel i