python爬取安居客二手房网站数据（转）

之前没课的时候写过安居客的爬虫，但那也是小打小闹，那这次呢，

还是小打小闹

哈哈，现在开始正式进行爬虫书写

首先，需要分析一下要爬取的网站的结构：

作为一名河南的学生，那就看看郑州的二手房信息吧！

在上面这个页面中，我们可以看到一条条的房源信息，从中我们发现了什么，发现了连郑州的二手房都是这么的贵，作为即将毕业的学生狗惹不起啊惹不起

还是正文吧！！！

由上可以看到网页一条条的房源信息，点击进去后就会发现：

房源的详细信息。

OK！那么我们要干嘛呢，就是把郑州这个地区的二手房房源信息都能拿到手，可以保存到数据库中，用来干嘛呢，作为一个地理人，还是有点用处的，这次就不说了

好，正式开始，首先我采用python3.6 中的requests，BeautifulSoup模块来进行爬取页面，

首先由requests模块进行请求：

# 网页的请求头
header = {
‘user-agent‘: ‘Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/60.0.3112.113 Safari/537.36‘
}
# url链接
url = ‘https://zhengzhou.anjuke.com/sale/‘
response = requests.get(url, headers=header)
print(response.text)

执行后就会得到这个网站的html代码了

通过分析可以得到每个房源都在class="list-item"的 li 标签中，那么我们就可以根据BeautifulSoup包进行提取

# 通过BeautifulSoup进行解析出每个房源详细列表并进行打印
soup = BeautifulSoup(response.text, ‘html.parser‘)
result_li = soup.find_all(‘li‘, {‘class‘: ‘list-item‘})
for i in result_li:
    print(i)

通过打印就能进一步减少了code量，好，继续提取

# 通过BeautifulSoup进行解析出每个房源详细列表并进行打印
soup = BeautifulSoup(response.text, ‘html.parser‘)
result_li = soup.find_all(‘li‘, {‘class‘: ‘list-item‘})
# 进行循环遍历其中的房源详细列表
for i in result_li:
    # 由于BeautifulSoup传入的必须为字符串，所以进行转换
    page_url = str(i)
    soup = BeautifulSoup(page_url, ‘html.parser‘)
    # 由于通过class解析的为一个列表，所以只需要第一个参数
    result_href = soup.find_all(‘a‘, {‘class‘: ‘houseListTitle‘})[0]
    print(result_href.attrs[‘href‘])

这样，我们就能看到一个个的url了，是不是很喜欢

好了，按正常的逻辑就要进入页面开始分析详细页面了，但是爬取完后如何进行下一页的爬取呢

所以，我们就需要先分析该页面是否有下一页

同样的方法就可以发现下一页同样是如此的简单，那么咱们就可以还是按原来的配方原来的味道继续

# 进行下一页的爬取
result_next_page = soup.find_all(‘a‘, {‘class‘: ‘aNxt‘})
if len(result_next_page) != 0:
    print(result_next_page[0].attrs[‘href‘])
else:
    print(‘没有下一页了‘)

因为当存在下一页的时候，网页中就是一个a标签，如果没有的话，就会成为i标签了，所以这样的就行，因此，我们就能完善一下，将以上这些封装为一个函数

import requests
from bs4 import BeautifulSoup

# 网页的请求头
header = {
    ‘user-agent‘: ‘Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/60.0.3112.113 Safari/537.36‘
}

def get_page(url):
    response = requests.get(url, headers=header)

    # 通过BeautifulSoup进行解析出每个房源详细列表并进行打印
    soup = BeautifulSoup(response.text, ‘html.parser‘)
    result_li = soup.find_all(‘li‘, {‘class‘: ‘list-item‘})

    # 进行下一页的爬取
    result_next_page = soup.find_all(‘a‘, {‘class‘: ‘aNxt‘})
    if len(result_next_page) != 0:
        # 函数进行递归
        get_page(result_next_page[0].attrs[‘href‘])
    else:
        print(‘没有下一页了‘)

    # 进行循环遍历其中的房源详细列表
    for i in result_li:
        # 由于BeautifulSoup传入的必须为字符串，所以进行转换
        page_url = str(i)
        soup = BeautifulSoup(page_url, ‘html.parser‘)
        # 由于通过class解析的为一个列表，所以只需要第一个参数
        result_href = soup.find_all(‘a‘, {‘class‘: ‘houseListTitle‘})[0]
        # 先不做分析，等一会进行详细页面函数完成后进行调用
        print(result_href.attrs[‘href‘])

if __name__ == ‘__main__‘:
    # url链接
    url = ‘https://zhengzhou.anjuke.com/sale/‘
    # 页面爬取函数调用
    get_page(url)

好了，那么咱们就开始详细页面的爬取了

哎，怎么动不动就要断电了，大学的坑啊，先把结果附上，闲了在补充，

import requests
from bs4 import BeautifulSoup

# 网页的请求头
header = {
    ‘user-agent‘: ‘Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/60.0.3112.113 Safari/537.36‘
}

def get_page(url):
    response = requests.get(url, headers=header)

    # 通过BeautifulSoup进行解析出每个房源详细列表并进行打印
    soup_idex = BeautifulSoup(response.text, ‘html.parser‘)
    result_li = soup_idex.find_all(‘li‘, {‘class‘: ‘list-item‘})

    # 进行循环遍历其中的房源详细列表
    for i in result_li:
        # 由于BeautifulSoup传入的必须为字符串，所以进行转换
        page_url = str(i)
        soup = BeautifulSoup(page_url, ‘html.parser‘)
        # 由于通过class解析的为一个列表，所以只需要第一个参数
        result_href = soup.find_all(‘a‘, {‘class‘: ‘houseListTitle‘})[0]
        # 详细页面的函数调用
        get_page_detail(result_href.attrs[‘href‘])

    # 进行下一页的爬取
    result_next_page = soup_idex.find_all(‘a‘, {‘class‘: ‘aNxt‘})
    if len(result_next_page) != 0:
        # 函数进行递归
        get_page(result_next_page[0].attrs[‘href‘])
    else:
        print(‘没有下一页了‘)

# 进行字符串中空格，换行，tab键的替换及删除字符串两边的空格删除
def my_strip(s):
    return str(s).replace(" ", "").replace("\n", "").replace("\t", "").strip()
# 由于频繁进行BeautifulSoup的使用，封装一下，很鸡肋
def my_Beautifulsoup(response):
    return BeautifulSoup(str(response), ‘html.parser‘)

# 详细页面的爬取
def get_page_detail(url):
    response = requests.get(url, headers=header)
    if response.status_code == 200:
        soup = BeautifulSoup(response.text, ‘html.parser‘)
        # 标题什么的一大堆，哈哈
        result_title = soup.find_all(‘h3‘, {‘class‘: ‘long-title‘})[0]
        result_price = soup.find_all(‘span‘, {‘class‘: ‘light info-tag‘})[0]
        result_house_1 = soup.find_all(‘div‘, {‘class‘: ‘first-col detail-col‘})
        result_house_2 = soup.find_all(‘div‘, {‘class‘: ‘second-col detail-col‘})
        result_house_3 = soup.find_all(‘div‘, {‘class‘: ‘third-col detail-col‘})
        soup_1 = my_Beautifulsoup(result_house_1)
        soup_2 = my_Beautifulsoup(result_house_2)
        soup_3 = my_Beautifulsoup(result_house_3)
        result_house_tar_1 = soup_1.find_all(‘dd‘)
        result_house_tar_2 = soup_2.find_all(‘dd‘)
        result_house_tar_3 = soup_3.find_all(‘dd‘)
        ‘‘‘
        文博公寓，省实验中学，首付只需70万，大三房，诚心卖，价可谈 270万
        宇泰文博公寓 金水－花园路－文博东路4号 2010年 普通住宅
        3室2厅2卫 140平方米 南北 中层(共32层)
        精装修 19285元/m² 81.00万
        ‘‘‘
        print(my_strip(result_title.text), my_strip(result_price.text))
        print(my_strip(result_house_tar_1[0].text),
              my_strip(my_Beautifulsoup(result_house_tar_1[1]).find_all(‘p‘)[0].text),
              my_strip(result_house_tar_1[2].text), my_strip(result_house_tar_1[3].text))
        print(my_strip(result_house_tar_2[0].text), my_strip(result_house_tar_2[1].text),
              my_strip(result_house_tar_2[2].text), my_strip(result_house_tar_2[3].text))
        print(my_strip(result_house_tar_3[0].text), my_strip(result_house_tar_3[1].text),
              my_strip(result_house_tar_3[2].text))

if __name__ == ‘__main__‘:
    # url链接
    url = ‘https://zhengzhou.anjuke.com/sale/‘
    # 页面爬取函数调用
    get_page(url)

由于自己边写博客，边写的代码，所以get_page函数中进行了一些改变，就是下一页的递归调用需要放在函数后面，以及进行封装了两个函数没有介绍，

而且数据存储到mysql也没有写，所以后期会继续跟进的，thank you!!!

https://www.cnblogs.com/gkf0103/p/7689600.html

原文地址：https://www.cnblogs.com/kenshinobiy/p/10752703.html

时间： 2024-10-25 21:38:49

python爬取安居客二手房网站数据（转）的相关文章

python3 爬虫之爬取安居客二手房资讯(多线程版)

第一步先分析网站结构http://esf.zs.fang.com/ 寻找我们需要获取的信息,点击进去看看, 链接里面信息更加详细,这些就是我们要获取的. 1.我们可以先获取http://esf.zs.fang.com/链接下的所有详细链接http://esf.zs.fang.com/chushou/3_255784229.htm 2.然后可以在详细链接下分析获取我们所需要的数据 3.获取数据之后存取到数据库mongodb 打开管理员工具F12观察http://esf.zs.fang.com/的详

爬取安居客指定市的所有小区信息

在爬取的过程中发现,访问频率太快会导致网站弹出滑动验证,所以设定了时间随机时间延迟,这样子就能保证爬取的信息完整,我选的是青岛市的小区,后续也可以添加输入市名爬取相关内容,二级页面的房子的平均价格是动态生成的,需要发送一个请求得到一个json,请求的url比较复杂,而且还要再发送一次请求,因此直接在一级页面取平均价格,然后传入解析二级页面的函数,这样可以提高效率.代码如下: """ 爬取安居客所有小区信息 """ import requests

Python爬取链家二手房数据——重庆地区

最近在学习数据分析的相关知识,打算找一份数据做训练,于是就打算用Python爬取链家在重庆地区的二手房数据. 链家的页面如下: 爬取代码如下: import requests, json, time from bs4 import BeautifulSoup import re, csv def parse_one_page(url): headers={ 'user-agent':'Mozilla/5.0' } r = requests.get(url, headers=headers) so

python爬取ajax动态生成的数据以抓取淘宝评论为例子

在学习python的时候,一定会遇到网站内容是通过ajax动态请求.异步刷新生成的json数据的情况,并且通过python使用之前爬取静态网页内容的方式是不可以实现的,所以这篇文章将要讲述如果在python中爬取ajax动态生成的数据. 至于读取静态网页内容的方式,有兴趣的可以查看博客内容. 这里我们以爬取淘宝评论为例子讲解一下如何去做到的. 这里主要分为了四步: 一获取淘宝评论时,ajax请求链接(url) 二获取该ajax请求返回的json数据三使用python解析json数据四

python 爬取天猫美的评论数据

笔者最近迷上了数据挖掘和机器学习,要做数据分析首先得有数据才行.对于我等平民来说,最廉价的获取数据的方法,应该是用爬虫在网络上爬取数据了.本文记录一下笔者爬取天猫某商品的全过程,淘宝上面的店铺也是类似的做法,不赘述.主要是分析页面以及用Python实现简单方便的抓取. 笔者使用的工具如下 Python 3--极其方便的编程语言.选择3.x的版本是因为3.x对中文处理更加友好. Pandas--Python的一个附加库,用于数据整理. IE 11--分析页面请求过程(其他类似的流量监控工具亦可).

python爬取B站千万级数据，发现了这些热门UP主的秘密！

Python(发音:英[?pa?θ?n],美[?pa?θɑ:n]),是一种面向对象.直译式电脑编程语言,也是一种功能强大的通用型语言,已经具有近二十年的发展历史,成熟且稳定.它包含了一组完善而且容易理解的标准库,能够轻松完成很多常见的任务.它的语法非常简捷和清晰,与其它大多数程序设计语言不一样,它使用缩进来定义语句. Python支持命令式程序设计.面向对象程序设计.函数式编程.面向切面编程.泛型编程多种编程范式.与Scheme.Ruby.Perl.Tcl等动态语言一样,Python具备垃圾回收

【scrapy实践】_爬取安居客_广州_新楼盘数据

需求:爬取[安居客-广州-新楼盘]的数据,具体到每个楼盘的详情页的若干字段. 难点:楼盘类型各式各样:住宅别墅商住商铺写字楼,不同楼盘字段的名称不一样.然后同一种类型,比如住宅,又分为不同的情况,比如分为期房在售,现房在售,待售,尾盘.其他类型也有类似情况.所以字段不能设置固定住. 解决方案:目前想到的解决方案,第一种:scrapy中items.py中不设置字段,spider中爬的时候自动识别字段(也就是有啥字段就保留下来),然后返回字典存起来.第二种,不同字段的网页分别写规则单独抓取.

Python爬取天气网历史天气数据

我的第一篇博客,哈哈哈,记录一下我的Python进阶之路! 今天写了一个简单的爬虫. 使用python的requests 和BeautifulSoup模块,Python 2.7.12可在命令行中直接使用pip进行模块安装.爬虫的核心是利用BeautifulSoup的select语句获取需要的信息. pip install requests pip install bs4 以武汉市2017年5~7月的历史为例爬取天气网中武汉市的历史天气数据. 7月对应的网址为http://lishi.tianqi

如何用 Python 爬取需要登录的网站？

最近我必须执行一项从一个需要登录的网站上爬取一些网页的操作.它没有我想象中那么简单,因此我决定为它写一个辅助教程. 在本教程中,我们将从我们的bitbucket账户中爬取一个项目列表. 教程中的代码可以从我的 Github 中找到. 我们将会按照以下步骤进行: 提取登录需要的详细信息执行站点登录爬取所需要的数据在本教程中,我使用了以下包(可以在 requirements.txt 中找到): Python 1 2 requests lxml 步骤一:研究该网站打开登录页面进入以下页面