爬取链家任意城市租房数据(北京朝阳)

  1 #!/usr/bin/env python
  2 # -*- coding: utf-8 -*-
  3 # @Time    : 2019-08-16 15:56
  4 # @Author  : Anthony
  5 # @Email   : [email protected]
  6 # @File    : 爬取链家任意城市租房数据.py
  7
  8
  9 import requests
 10 from lxml import etree
 11 import time
 12 import xlrd
 13 import os
 14 import xlwt
 15 from xlutils.copy import copy
 16
 17 # 伪装请求
 18 headers = {
 19     ‘User-Agent‘: ‘Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/47.0.2526.106 BIDUBrowser/8.7 Safari/537.36‘
 20 }
 21
 22 xlsInfo = {}
 23
 24 def catchHouseDetail(url):
 25     # 通过requests模块模拟get请求
 26     page_text = requests.get(url, headers=headers, stream=True)
 27
 28     # 将互联网上获取的页面数据加载到etree对象中
 29     tree = etree.HTML(page_text.text)
 30
 31     # 定位页面标签位置装入一个list中
 32     li_list = tree.xpath(‘//div[@class="content w1150"]/div[@class="content__article"]/div[@class="content__list"]/div‘)
 33     all_house_list = []
 34     # 遍历列表中每一个字段
 35     for li in li_list:
 36         info = []
 37         # 房屋标题
 38         # houseTitles = li.xpath(‘.//div[@class="content__list--item--main"]/p[@class="content__list--item--bottom oneline"]/i/text()‘)
 39         # print(*houseTitles)
 40         # 租房方式
 41         houseWay = li.xpath(‘.//div[@class="content__list--item--main"]/p[@class="content__list--item--title twoline"]/a/text()‘)[0].strip().split(‘ ‘)[0].split(‘·‘)[0]
 42         # 月租金额
 43         houseMoney = li.xpath(‘.//div[@class="content__list--item--main"]/span[@class="content__list--item-price"]/em/text()‘)[0]+‘元/月‘
 44         # 小区名称
 45         plotName = li.xpath(‘.//div[@class="content__list--item--main"]/p[@class="content__list--item--title twoline"]/a/text()‘)[0].strip().split(‘ ‘)[0].split(‘·‘)[1]
 46         # 房屋大小
 47         houseSize = li.xpath(‘.//div[@class="content__list--item--main"]/p[@class="content__list--item--des"]/text()‘)[4].strip()
 48         # 房屋户型
 49         houseType = li.xpath(‘.//div[@class="content__list--item--main"]/p[@class="content__list--item--title twoline"]/a/text()‘)[0].strip().split(‘ ‘)[1]
 50         # 房屋朝向
 51         houseOrientation = li.xpath(‘.//div[@class="content__list--item--main"]/p[@class="content__list--item--title twoline"]/a/text()‘)[0].strip().split(‘ ‘)[2]
 52         # 区域位置
 53         communityArea = li.xpath(‘.//div[@class="content__list--item--main"]/p[@class="content__list--item--des"]/a/text()‘)[0]
 54         # 地铁站名称
 55         subwayArea = li.xpath(‘.//div[@class="content__list--item--main"]/p[@class="content__list--item--des"]/a/text()‘)[1]
 56         # 小区名称
 57         # plotName = li.xpath(‘.//div[@class="content__list--item--main"]/p[@class="content__list--item--des"]/a/text()‘)[2]
 58         # 发布时间
 59         releaseTime = li.xpath(‘.//div[@class="content__list--item--main"]/p[@class="content__list--item--time oneline"]/text()‘)[0]
 60
 61         info.append(houseWay)
 62         info.append(houseMoney)
 63         info.append(plotName)
 64         info.append(houseSize)
 65         info.append(houseType)
 66         info.append(houseOrientation)
 67         info.append(communityArea)
 68         info.append(subwayArea)
 69         info.append(releaseTime)
 70
 71         all_house_list.append(info)
 72     if if_xls_exits() == True:
 73         write_excel_xls_append(xlsInfo["xlsName"],all_house_list)
 74
 75 # print(catchHouseDetail(‘https://bj.lianjia.com/zufang/chaoyang/pg1‘))
 76
 77
 78 #获取数据写入xls表格中
 79 def write_excel_xls(path, sheet_name, value):
 80     index = len(value)  # 获取需要写入数据的行数
 81     workbook = xlwt.Workbook()  # 新建一个工作簿
 82     sheet = workbook.add_sheet(sheet_name)  # 在工作簿中新建一个表格
 83     for i in range(0, index):
 84         for j in range(0, len(value[i])):
 85             sheet.write(i, j, value[i][j])  # 像表格中写入数据(对应的行和列)
 86     workbook.save(path)  # 保存工作簿
 87     print("xls格式表格写入数据成功!")
 88
 89
 90
 91 def write_excel_xls_append(path, value):
 92     index = len(value)  # 获取需要写入数据的行数
 93     workbook = xlrd.open_workbook(path)  # 打开工作簿
 94     sheets = workbook.sheet_names()  # 获取工作簿中的所有表格
 95     worksheet = workbook.sheet_by_name(sheets[0])  # 获取工作簿中所有表格中的的第一个表格
 96     rows_old = worksheet.nrows  # 获取表格中已存在的数据的行数
 97     new_workbook = copy(workbook)  # 将xlrd对象拷贝转化为xlwt对象
 98     new_worksheet = new_workbook.get_sheet(0)  # 获取转化后工作簿中的第一个表格
 99     for i in range(0, index):
100         for j in range(0, len(value[i])):
101             new_worksheet.write(i + rows_old, j, value[i][j])  # 追加写入数据,注意是从i+rows_old行开始写入
102     new_workbook.save(path)  # 保存工作簿
103     print("xls格式表格【追加】写入数据成功!")
104
105
106
107
108 def if_xls_exits():
109     while True:
110         book_name_xls = ‘北京链家租房信息表.xls‘
111         sheet_name_xls = ‘房屋信息‘
112         value_title = [["租房方式", "月租金额", "小区名称", "房屋大小", "房屋户型", "房屋朝向", "区域位置", "地铁站名称", "房屋发布时间"], ]
113         if os.path.exists(‘./%s‘%book_name_xls):
114             xlsInfo["xlsName"] = book_name_xls
115             return True
116         else:
117             write_excel_xls(book_name_xls, sheet_name_xls, value_title)
118             continue
119
120
121
122
123
124 def catch():
125     pages = [‘https://bj.lianjia.com/zufang/chaoyang/pg{}/‘.format(x) for x in range(1,100)]
126     for page in pages:
127         try:
128             info = catchHouseDetail(page)
129         except:
130             pass
131         time.sleep(2)
132
133
134 if __name__ == ‘__main__‘:
135     catch()

 效果图:

原文地址:https://www.cnblogs.com/ipyanthony/p/11365950.html

时间: 2024-11-05 22:43:19

爬取链家任意城市租房数据(北京朝阳)的相关文章

爬取链家任意城市二手房数据(天津)

1 #!/usr/bin/env python 2 # -*- coding: utf-8 -*- 3 # @Time : 2019-08-16 12:40 4 # @Author : Anthony 5 # @Email : [email protected] 6 # @File : 爬取链家任意城市二手房数据.py 7 8 9 import requests 10 from lxml import etree 11 import time 12 import xlrd 13 import o

Python爬虫项目--爬取链家热门城市新房

本次实战是利用爬虫爬取链家的新房(声明: 内容仅用于学习交流, 请勿用作商业用途) 环境 win8, python 3.7, pycharm 正文 1. 目标网站分析 通过分析, 找出相关url, 确定请求方式, 是否存在js加密等. 2. 新建scrapy项目 1. 在cmd命令行窗口中输入以下命令, 创建lianjia项目 scrapy startproject lianjia 2. 在cmd中进入lianjia文件中, 创建Spider文件 cd lianjia scrapy genspi

Python爬取链家二手房数据——重庆地区

最近在学习数据分析的相关知识,打算找一份数据做训练,于是就打算用Python爬取链家在重庆地区的二手房数据. 链家的页面如下: 爬取代码如下: import requests, json, time from bs4 import BeautifulSoup import re, csv def parse_one_page(url): headers={ 'user-agent':'Mozilla/5.0' } r = requests.get(url, headers=headers) so

python爬虫:爬取链家深圳全部二手房的详细信息

1.问题描述: 爬取链家深圳全部二手房的详细信息,并将爬取的数据存储到CSV文件中 2.思路分析: (1)目标网址:https://sz.lianjia.com/ershoufang/ (2)代码结构: class LianjiaSpider(object): def __init__(self): def getMaxPage(self, url): # 获取maxPage def parsePage(self, url): # 解析每个page,获取每个huose的Link def pars

Python的scrapy之爬取链家网房价信息并保存到本地

因为有在北京租房的打算,于是上网浏览了一下链家网站的房价,想将他们爬取下来,并保存到本地. 先看链家网的源码..房价信息 都保存在 ul 下的li 里面 ? 爬虫结构: ? 其中封装了一个数据库处理模块,还有一个user-agent池.. 先看mylianjia.py # -*- coding: utf-8 -*- import scrapy from ..items import LianjiaItem from scrapy.http import Request from parsel i

告诉你那里最受欢迎,python爬取全国13个城市旅游数据

前言 文的文字及图片来源于网络,仅供学习.交流使用,不具有任何商业用途,版权归原作者所有,如有问题请及时联系我们以作处理. PS:如有需要Python学习资料的小伙伴可以加点击下方链接自行获取http://t.cn/A6Zvjdun 抓取数据 通过请求https://piao.qunar.com/ticket/list.htm?keyword=北京,获取北京地区热门景区信息,再通过BeautifulSoup去分析提取出我们需要的信息. 这里爬取了前4页的景点信息,每页有15个景点.因为去哪儿并没

43.scrapy爬取链家网站二手房信息-1

首先分析:目的:采集链家网站二手房数据1.先分析一下二手房主界面信息,显示情况如下: url = https://gz.lianjia.com/ershoufang/pg1/显示总数据量为27589套,但是页面只给返回100页的数据,每页30条数据,也就是只给返回3000条数据. 2.再看一下筛选条件的情况: 100万以下(775):https://gz.lianjia.com/ershoufang/pg1p1/(p1是筛选条件参数,pg1是页面参数) 页面返回26页信息100万-120万(47

爬取链家网租房图 使用ImagesPipeline保存图片

# 爬虫文件 # -*- coding: utf-8 -*- import scrapy import os from urllib import request from lianjia.items import LianjiaItem class LianjiaspiderSpider(scrapy.Spider): name = 'lianjiaSpider' # allowed_domains = ['www.xxx.com'] start_urls = ['https://bj.lia

python 学习 - 爬虫入门练习 爬取链家网二手房信息

import requests from bs4 import BeautifulSoup import sqlite3 conn = sqlite3.connect("test.db") c = conn.cursor() for num in range(1,101): url = "https://cs.lianjia.com/ershoufang/pg%s/"%num headers = { 'User-Agent': 'Mozilla/5.0 (Windo