对于房天下租房信息进行爬取

代码

import re

import requests
from lxml.html import etree

url_xpath = '//dd/p[1]/a[1]/@href'
title_xpath = '//dd/p[1]/a[1]/@title'
data_xpaht = '//dd/p[2]/text()'
headers = {
    'rpferpr': 'https://sh.zu.fang.com/',
    'User-Agent': 'Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/75.0.3770.90 Safari/537.36'
}
rp = requests.get('https://sh.zu.fang.com/', headers=headers)
rp.encoding = rp.apparent_encoding
html = etree.HTML(rp.text)
url = html.xpath(url_xpath)
title = html.xpath(title_xpath)
data = re.findall('<p class="font15 mt12 bold">(.*?)</p>', rp.text, re.S)
mold_lis = []
house_type_lis = []
area_lis = []
for a in data:
    a = re.sub('?O', '平方米', a)
    mold = re.findall('\r\n\s.*?(\S.*?)<span class="splitline">', a)
    house_type_area = re.findall('</span>(.*?)<span class="splitline">', a)
    try:
        mold_lis.append(mold[0])
        house_type_lis.append(house_type_area[0])
        area_lis.append(house_type_area[1])
    except:
        pass

data_zip = zip(title, url, mold_lis, house_type_lis, area_lis)

with open('info.txt', 'a', encoding='utf8') as fa:
    for a in data_zip:
        fa.write(str(a))
        fa.write('\n')

未完待续

后续接着对于分区进行爬取

arpa_dict = {
    '不限':'house',
    '浦东':'house-a025',
    '嘉定':'house-a029',
    '宝山':'house-a030',
    '闵行':'house-a018',
    '松江':'house-a0586',
    '普陀':'house-a028',
    '静安':'house-a021',
    '黄浦':'house-a024',
    '虹口':'house-a024',
    '青浦':'house-a024',
    '奉贤':'house-a024',
    '金山':'house-a024',
    '杨浦':'house-a024',
    '徐汇':'house-a024',
    '长宁':'house-a024',
    '崇明':'house-a0996',
    '上海周边':'house-a01046',
}

原文地址：https://www.cnblogs.com/pythonywy/p/11259941.html

时间： 2025-01-12 23:58:47

对于房天下租房信息进行爬取的相关文章

足球竞猜网页的信息进行爬取并且对信息分析

说明一.项目介绍对于足球竞猜网页的信息进行爬取并且对信息分析二.部分代码展示 import requests from lxml.html import etree headers = {'Referer': 'http://www.okooo.com/jingcai/', 'User-Agent': 'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/75.0.3770.10

爬虫10-股票信息定向爬取

股票信息定向爬取功能描述: 目标获取上交所和深交所所有股票的名称和交易信息输出保存在文件中技术路线 requests bs4 re 候选爬取网站: 新浪股票 http://finance.sina.com.cn/stock/ 百度股票 https://gupiao.baidu.com/stock/ 网站选取: 原则股票信息静态存在于HTML页面中,非js代码生成,没有robots协议限制方法浏览器F12,源代码查看等不要纠结于某个网站,多找信息源尝试 (在视频里老师表示新浪股票

Python爬虫实例：爬取B站《工作细胞》短评——异步加载信息的爬取

<工作细胞>最近比较火,bilibili 上目前的短评已经有17000多条. 先看分析下页面右边 li 标签中的就是短评信息,一共20条.一般我们加载大量数据的时候,都会做分页,但是这个页面没有,只有一个滚动条. 随着滚动条往下拉,信息自动加载了,如下图,变40条了.由此可见,短评是通过异步加载的. 我们不可能一次性将滚动条拉到最下面,然后来一次性获取全部的数据.既然知道是通过异步来加载的数据,那么我们可以想办法直接去获取这些异步的数据. 打开 Network 查看分析 http 请求,可以

麦田厦门下区信息数据爬取

刚开始爬取的时候没有用headers伪装成是浏览器,导致麦田北京和福州小区把我的ip给禁掉了,还好后来发现原因也还剩下厦门小区没被我弄坏,代码如下: #-*- coding:utf-8 -*- import requests from bs4 import BeautifulSoup page_url = "http://xm.maitian.cn/xqall" headers = {"User-Agent":"Mozilla/5.0 (X11; Linu

专利事务所信息Python爬取

数据来源:http://www.acpaa.cn/ 目前事务所的信息没有做反爬限制,还是很容易拿到数据的没有用html解析工具,直接上正则,结果就是需要处理很多乱七八糟的空格...为了能将日期顺利的插入到数据库,做了很多转换.这个代码没用多线程. 下面是代码,Python版本为3.5,需要安装pymsql,mysql # -*- coding: UTF-8 -*- import http.client import re import pymysql def saveAgency(code,

使用http.cookiejar带cookie信息登录爬取方法 -《狗嗨默示录》-

Login.py # !/usr/bin/env python # -*- coding: utf-8 -*- import urllib.request import urllib.parse import user_info import http.cookiejar import re import time import socket cookie = http.cookiejar.CookieJar() #创建cookieJar保存cookie handler = urllib.req

python-淘宝信息定向爬取

S是类似产品页数 bcoffset直流偏移. item.taobao.com/item.htm?参数.常见参数如下&spm 流量来源&id 淘宝id&ali_trackid 阿里妈妈id&ali_refid --------官方解析文档----------- 淘宝开放平台 - 文档中心http://open.taobao.com/docs/doc.htm?articleId=959&docType=1&treeId=null -----for insta

第三百三十四节，web爬虫讲解2—Scrapy框架爬虫—Scrapy爬取百度新闻，爬取Ajax动态生成的信息

第三百三十四节,web爬虫讲解2-Scrapy框架爬虫-Scrapy爬取百度新闻,爬取Ajax动态生成的信息 crapy爬取百度新闻,爬取Ajax动态生成的信息,抓取百度新闻首页的新闻标题和rul地址有多网站,当你浏览器访问时看到的信息,在html源文件里却找不到,由得信息还是滚动条滚动到对应的位置后才显示信息,那么这种一般都是 js 的 Ajax 动态请求生成的信息我们以百度新闻为列: 1.分析网站首先我们浏览器打开百度新闻,在网页中间部分找一条新闻信息然后查看源码,看看在源码里是否有

python 爬取淘宝模特信息

通过本篇博文,介绍一下我对指定信息进行爬取的时候的思路,顺便贴一下代码. 一.首先获取想要爬取的网站的url链接的规则变化可以看出来该网站页面的url结构简单,变化的只是https://mm.taobao.com/json/request_top_list.htm?page= page的值二.对网站页面的DOM树的结构进行分析,方便我们获取我们想要的内容信息, 我写了个简单的网页分析脚本analyze.py:用来输出DOM树,方便我后面做筛选. # -*- coding:utf-8 -*-