抓取小猪短租1000张列表页内容

代码如下

#!/usr/bin/env python# -*- coding:utf-8 -*-

from bs4 import BeautifulSoupimport requests

def get_page_within(pages):    for page in range(1, pages+1):        wb = requests.get(‘http://bj.xiaozhu.com/search-duanzufang-p{}-0/‘.format(page))        soup = BeautifulSoup(wb.text, ‘lxml‘)        titles = soup.select(‘span.result_title‘)        prices = soup.select(‘span.result_price > i‘)        for title, price in zip(titles, prices):            date = {                ‘title‘: title.get_text(),                ‘price‘: price.get_text()            }            print(date)get_page_within(pages=1000)针对代码解释下
from bs4 import BeautifulSoupimport requests引入beautifulsoup和requests两个库
def get_page_within(pages):构建def函数意思是获取pages张页面的数据
for page in range(1, pages+1):以1为起点循环pages+1个数

wb = requests.get(‘http://bj.xiaozhu.com/search-duanzufang-p{}-0/‘.format(page))
通过.famate让括号内的数切换并且通过for循环和request库解析pages个网址的内容
soup = BeautifulSoup(wb.text, ‘lxml‘)通过beautifulsoup库解析网页内数据

titles = soup.select(‘span.result_title‘)
prices = soup.select(‘span.result_price > i‘)选取title和prices数据
        for title, price in zip(titles, prices):            date = {                ‘title‘: title.get_text(),                ‘price‘: price.get_text()            }            print(date)将获得的内容装到字典里并打印
get_page_within(pages=1000)给def一个值运行def函数



				
时间: 2024-10-24 19:53:19

抓取小猪短租1000张列表页内容的相关文章

抓取小猪短租列表内容并保存在mongodb里

import pymongoimport requestsfrom bs4 import BeautifulSoupclient = pymongo.MongoClient('localhost',27017)xiaozhu = client['xiazhu']sheet_line = xiaozhu['sheet_line']def get_page_within(pages): for page_numb in range(1,pages+1): web_data = requests.ge

Python爬虫入门 | 5 爬取小猪短租租房信息

小猪短租是一个租房网站,上面有很多优质的民宿出租信息,下面我们以成都地区的租房信息为例,来尝试爬取这些数据. 小猪短租(成都)页面:http://cd.xiaozhu.com/1.爬取租房标题 按照惯例,先来爬下标题试试水,找到标题,复制xpath.多复制几个房屋的标题 xpath 进行对比: //[@id="page_list"]/ul/li[1]/div[2]/div/a/span//[@id="page_list"]/ul/li[2]/div[2]/div/a

HttpWebRequest抓取网页内容与直接输入URL得到的内容不一致!球大神帮忙!!

一.前言 我在做一个百度收录情况查询的软件,就是通过软件来批量查询文章链接是否被百度收录,主要是用来查询某个网址的收录次数还有网站的排行数,思路是借鉴别人的. 二.问题描述 首先需要考虑的是能够支持哪些搜索引擎的查询,首先是百度,然后是必应.搜狗.搜搜.360.本来想支持Google但是一想不对,根本不好访问的,所以暂时不算在内.而我们实际要做的就是根据一个网址能够检索出这个网址的在各个搜索引擎的收录次数以及在不同关键词下的网址排行,这里出入的只有网址还有若干的关键词,而输出则是该网址在不同搜索

phpcms列表页内容如何替换?

1.将aboutus.html重新命名为list-aboutus.html: 2.在后台页面,在栏目列表中将栏目列表页模板设置为 list-aboutus.html 3.打开 list-aboutus.html页面,去掉头部和尾部 4.引入公用的头部{template "content","header"}和尾部{template "content","footer"} 5.修改css样式表的路径 <link href=

织梦首页/列表页/内容页直接获取软件模型本地下载地址

当使用软件模型而且只有一个下载地址时,我们都喜欢用本地地址,在列表页时直接输出这个地址,方便访客下载. 打开 /include/extend.func.php 在文件最下面添加个方法 /** * 获取软件模型本地地址 * * @access public * @param string $aid 文章id * @return string */ if (!function_exists('GetDownLink')) { function GetDownLink($aid) { global $

React Native ——实现一个简单的抓取github上的项目数据列表

/** * Sample React Native App * https://github.com/facebook/react-native */ 'use strict'; var React = require('react-native'); var { AppRegistry, StyleSheet, Text, Image, View, TextInput, ListView, } = React; var GIT_URL = 'https://api.github.com/sea

房东要给我涨800房租,生气的我用Python抓取帝都几万套房源信息,我主动涨了1000。

老猫我在南五环租了一个80平两居室,租房合同马上到期,房东打电话问续租的事,想要加房租:我想现在国家正在也在抑制房价,房子价格没怎么涨,房租应该也不会涨,于是霸气拒绝了,以下是聊天记录:确认不续租之后,两三年没找过房的我上网搜索租房,没想到出来一坨自如,蛋壳,贝壳等中介网站:进去看看,各种房照非常漂亮,但是一看房租,想送给自己一首<凉凉>:附近房租居然比我当前房租高1000多RMB:自我安慰下,这些网站房源价格不是真实的,于是切换到我爱我家,链家等大中介平台,结果发现房租价格都差不多:心想这才

淘宝商品列表以及商品详情数据抓取

前段时间老师让我爬取淘宝的商品列表以及其商品详情数据,期间遇到了很多问题.最困难的就是淘宝的价格数据是以Ajax异步加载的,这些数据暂时还没有能力获取到. 下面介绍一下基本思路. 首先,通过抓取商品列表的商品ID获取商品的身份标识,然后根据商品ID跳转到具体的商品列表,对其他属性进行抓取. 观察两条商品列表的URL: https://s.taobao.com/search?q=帽子&imgfile=&commend=all&ssid=s5-e&search_type=ite

Python实现抓取CSDN热门文章列表

1.使用工具: Python3.5 BeautifulSoup 2.抓取网站: csdn热门文章列表 http://blog.csdn.net/hot.html 3.实现代码: __author__ = 'Administrator' import urllib.request import re from bs4 import BeautifulSoup ######################################################## # # 抓取csdn首页文