链家新房爬虫

# 链家新房爬虫

**今日目标**

爬取最新地区以及对应的房价
```python
import requests
import re
import csv

class LianjiaSpider(object):
    def __init__(self):
        self.url=‘https://cq.lianjia.com/ershoufang/pg{}/‘
        self.headers={‘User-Agent‘: ‘Mozilla/5.0‘}

    #获取网址
    def get_page(self,url):
        res=requests.get(url,headers=self.headers)
        html=res.content.decode()
        #直接调用解析函数
        self.parse_page(html)

    #解析数据
    def parse_page(self,html):

        pattern=re.compile(‘<div class="houseInfo"><span.*?data-el="region">(.*?)</a>.*?<div class="totalPrice"><span>(.*?)</span>‘,re.S)
        r_list=pattern.findall(html)
        self.write_page(r_list)

    #保存
    def write_page(self,r_list):
        film_list=[]
        with open(‘lianjia.csv‘,‘a‘) as f:
            writer = csv.writer(f)
            for r in r_list:
            # 把处理过的数据定义成元组
                t=(r[0].strip(),r[1]+‘万‘)
                film_list.append(t)
                writer.writerows(film_list)

    def main(self):
        for page in range(1,11):
            url=self.url.format(page)
            self.get_page(url)
            print(‘正在打印{}页‘.format(page))

if __name__ == ‘__main__‘:
     spider=LianjiaSpider()
     spider.main()
```

原文地址:https://www.cnblogs.com/cxiaolong/p/11234872.html

时间: 2024-08-30 11:41:51

链家新房爬虫的相关文章

链家网爬虫同步VS异步执行时间对比

异步执行时间 import time import asyncio import aiohttp from lxml import etree start_time = time.time() async def get_url(url): session = aiohttp.ClientSession() response = await session.get(url) result = await response.text() terr = etree.HTML(result) ret

链家二手房成交爬虫

逐渐有了买房的想法,研究一段时间之后,发现各大网站都没有给出一个完整的房价统计数据和走势.好在链家网的每一条二手房成交记录都有对应的网页.如果能把每一套房的成交信息(面积,单价,总价,成交时间,户型,版块,行政区等等)拿到,存入db或者excel中,那么要分析历史走势就容易多了.此程序就是能够抓取链家网二手房成交记录的爬虫 获取所有成交记录url 以成都为例,打开https://cd.lianjia.com/chengjiao/ 可以看到所有已经成交的二手房.每一页显示30个记录,点击记录的标题

Python爬虫项目--爬取链家热门城市新房

本次实战是利用爬虫爬取链家的新房(声明: 内容仅用于学习交流, 请勿用作商业用途) 环境 win8, python 3.7, pycharm 正文 1. 目标网站分析 通过分析, 找出相关url, 确定请求方式, 是否存在js加密等. 2. 新建scrapy项目 1. 在cmd命令行窗口中输入以下命令, 创建lianjia项目 scrapy startproject lianjia 2. 在cmd中进入lianjia文件中, 创建Spider文件 cd lianjia scrapy genspi

python链家网高并发异步爬虫and异步存入数据

python链家网二手房异步IO爬虫,使用asyncio.aiohttp和aiomysql 很多小伙伴初学python时都会学习到爬虫,刚入门时会使用requests.urllib这些同步的库进行单线程爬虫,速度是比较慢的,后学会用scrapy框架进行爬虫,速度很快,原因是scrapy是基于twisted多线程异步IO框架. 本例使用的asyncio也是一个异步IO框架,在python3.5以后加入了协程的关键字async,能够将协程和生成器区分开来,更加方便使用协程. 经过测试,平均1秒可以爬

python爬虫:爬取链家深圳全部二手房的详细信息

1.问题描述: 爬取链家深圳全部二手房的详细信息,并将爬取的数据存储到CSV文件中 2.思路分析: (1)目标网址:https://sz.lianjia.com/ershoufang/ (2)代码结构: class LianjiaSpider(object): def __init__(self): def getMaxPage(self, url): # 获取maxPage def parsePage(self, url): # 解析每个page,获取每个huose的Link def pars

链家的互联网转型,房产中介变成全产业链服务商

这两天链家战略升级的发布会成为房产和互联网行业热议的话题,房产O2O再次成为业界关注焦点.由传统二手房中介出身的链家,通过互联网化转型由中介角色转变成综合房产服务平台,旗下各条业务线也得到了扩张,这再一次印证了互联网+的爆发力和市场价值. 链家互联网化转型,服务质量.互联网金融.数据营销成核心 链家只用半年时间就成功并购了成都伊诚.上海德佑.深圳中联.高策机构.杭州盛世管家等公司,线下的扩张速度达到了前所未有的程度.而链家选择并购的方式扩张主要目的是为快速搭建能覆盖全国主要城市的房产O2O全产业

Python的scrapy之爬取链家网房价信息并保存到本地

因为有在北京租房的打算,于是上网浏览了一下链家网站的房价,想将他们爬取下来,并保存到本地. 先看链家网的源码..房价信息 都保存在 ul 下的li 里面 ? 爬虫结构: ? 其中封装了一个数据库处理模块,还有一个user-agent池.. 先看mylianjia.py # -*- coding: utf-8 -*- import scrapy from ..items import LianjiaItem from scrapy.http import Request from parsel i

杭州链家二手房数据分析

杭州链家二手房数据 项目说明 练习爬虫相关技术,从网络上抓取数据,保存到本地csv文件和mongodb数据库I中,参考网络上相关资源实现二手房数据可视化,后面继续完善回归分析部分和预测分析. 项目实现 1. 数据获取 二手房数据可以从网络中获取即通过编写爬虫脚本从链家官网中获取相应数据.二手房数据主要采集房源区县信息.房源小区信息.房源户型.楼层信息.朝向信息.房屋面积信息.房屋建筑时间信息和房屋总价信息.具体实现以代码说明. 1.1 观察页面信息 红色方框中信息需要采集,但是缺少房源区县信息.

Python爬取链家二手房数据——重庆地区

最近在学习数据分析的相关知识,打算找一份数据做训练,于是就打算用Python爬取链家在重庆地区的二手房数据. 链家的页面如下: 爬取代码如下: import requests, json, time from bs4 import BeautifulSoup import re, csv def parse_one_page(url): headers={ 'user-agent':'Mozilla/5.0' } r = requests.get(url, headers=headers) so