爬取去哪网景点数据

import urllib.parse
import urllib.request
import requests
from bs4 import BeautifulSoup
import csv
import time
import re

sd=[‘名字‘,‘地址‘,‘价格‘,‘月销量‘,‘景点概述‘]
with open(‘C:\\Users\\惠普\\Desktop\\ac2.csv‘,‘a+‘,newline=‘‘,encoding=‘utf-8‘)as f:
       writers=csv.writer(f)
       writers.writerow(sd)

header={‘User-Agent‘:‘Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/55.0.2883.87 Safari/537.36‘,
‘X-Requested-With‘:‘XMLHttpRequest‘}
base=‘&subject=&sku=‘
for i in range(1,80):
   url=‘http://piao.qunar.com/ticket/list.htm?keyword=%E7%83%AD%E9%97%A8%E6%99%AF%E7%82%B9&region=&from=mpl_search_suggest&page={}‘.format(i)
   url=url+base
   response=requests.get(url,headers=header)
   soup=BeautifulSoup(response.text)
   name=soup.find_all(‘h3‘,{‘class‘:‘sight_item_caption‘})
   address=soup.find_all(‘p‘,{‘class‘:‘address color999‘})
   price=soup.find_all(‘span‘,{‘class‘:‘sight_item_price‘})
   xiaoliang=soup.find_all(‘span‘,{‘class‘:‘hot_num‘})
   note=soup.find_all(‘div‘,{‘class‘:‘intro color999‘})
   with open(‘C:\\Users\\惠普\\Desktop\\ac2.csv‘,‘a+‘,newline=‘‘,encoding=‘utf-8‘)as f:
       writers=csv.writer(f)
       for i in range(len(name)):
           listw=[]
           c=price[i].text.replace(‘¥‘,‘‘).replace(‘起‘,‘‘)
           print(c)
           if c==‘免费‘:
               listw=[name[i].text,address[i].text.replace(‘地址：‘,‘‘),‘0‘,‘0‘,note[i].text]
               writers.writerow(listw)

           else:
               listw=[name[i].text,address[i].text.replace(‘地址：‘,‘‘),c,xiaoliang[i].text,note[i].text]
               writers.writerow(listw)

原文地址：https://www.cnblogs.com/persistence-ok/p/10982403.html

时间： 2024-10-09 00:35:55

爬取去哪网景点数据的相关文章

使用 Scrapy 爬取去哪儿网景区信息

Scrapy 是一个使用 Python 语言开发,为了爬取网站数据,提取结构性数据而编写的应用框架,它用途广泛,比如:数据挖掘.监测和自动化测试.安装使用终端命令 pip install Scrapy 即可. Scrapy 比较吸引人的地方是:我们可以根据需求对其进行修改,它提供了多种类型的爬虫基类,如:BaseSpider.sitemap 爬虫等,新版本提供了对 web2.0 爬虫的支持. 1 Scrapy 介绍 1.1 组成 Scrapy Engine(引擎):负责 Spider.ItemP

25.爬取去哪儿网的商品数据-2

需要注意的问题: 1.首先要获取dep和query参数.2.分析请求的url地址变化,获取routeCount参数. 我配置代码出现的问题: 1.url拼接问题,网站拒绝访问,模拟请求参数设置user-agent和cookie2.获取routeCount参数会报异常,因为有的url返回的数据中无这个参数信息.异常如下: 正常如下: 只有获取了routeCount参数,才能接下来获取所有url的内容信息. 原文地址:https://www.cnblogs.com/lvjing/p/9994340.

【Python3 爬虫】U09_爬取hao6v电影网

目录 1.需求描述 2.实现代码 1.需求描述爬取hao6v电影网的数据,先通过xpath解析第一个页面,获取到每部电影的url详情页地址,然后解析详情页地址,获取出所需的数据页面如下: 2.实现代码 # Author:Logan import requests from lxml import etree HEADERS = { 'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML

利用Scrapy爬取1905电影网

本文将从以下几个方面讲解Scrapy爬虫的基本操作 Scrapy爬虫介绍 Scrapy安装 Scrapy实例--爬取1905电影网相关资料 Scrapy 爬虫介绍 Scrapy是Python开发的一个快速,高层次的屏幕抓取和web抓取框架,用于抓取web站点并从页面中提取结构化的数据.Scrapy用途广泛,可以用于数据挖掘.监测和自动化测试. Scrapy吸引人的地方在于它是一个框架,任何人都可以根据需求方便的修改.它也提供了多种类型爬虫的基类,如BaseSpider.sitemap爬虫等,最

零基础爬取堆糖网图片（一）

零基础爬取堆糖网图片(一) 全文介绍: 首先堆糖网是一个美图壁纸兴趣社区,有大量的美女图片今天我们实现搜索关键字爬取堆糖网上相关的美图. 当然我们还可以实现多线程爬虫,加快爬虫爬取速度涉及内容: 爬虫基本流程 requests库基本使用 urllib.parse模块 json包 jsonpath库图例说明: 请求与响应 sequenceDiagram 浏览器->>服务器: 请求服务器-->>浏览器: 响应爬虫基本流程 graph TD A[目标网站] -->|分析网

python爬取ajax动态生成的数据以抓取淘宝评论为例子

在学习python的时候,一定会遇到网站内容是通过ajax动态请求.异步刷新生成的json数据的情况,并且通过python使用之前爬取静态网页内容的方式是不可以实现的,所以这篇文章将要讲述如果在python中爬取ajax动态生成的数据. 至于读取静态网页内容的方式,有兴趣的可以查看博客内容. 这里我们以爬取淘宝评论为例子讲解一下如何去做到的. 这里主要分为了四步: 一获取淘宝评论时,ajax请求链接(url) 二获取该ajax请求返回的json数据三使用python解析json数据四

Python爬取中国天气网天气

Python爬取中国天气网天气基于requests库制作的爬虫. 使用方法:打开终端输入 "python3 weather.py 北京(或你所在的城市)" 程序正常运行需要在同文件夹下加入一个"data.csv"文件,内容请参考链接:https://www.cnblogs.com/Rhythm-/p/9255190.html 运行效果: 源码: import sys import re import requests import webbrowser from

简单爬取微医网

一.利用request和xpath爬取微医网 #!/usr/bin/env python # -*- coding: utf-8 -*- #author tom import requests from lxml import etree import pymongo #爬取微医网类 class DoctorSpider(): #初始化应该具有的一些属性 def __init__(self): self.headers={'User-Agent': 'Mozilla/5.0 (Windows N

spider爬虫练习，爬取顶点小说网，小说内容。

------------恢复内容开始------------ 我这里练习爬虫的网站是顶点小说网,地址如下: https://www.booktxt.net/ 我这里以爬取顶点小说网里面的凡人修仙传为例子: 首先观察界面: 第一章: 第二章: 由上面可得出规律,每点一次下一章,url后面的数字就会自动加1. 爬虫主要分为3步: 第一步:构建url列表 def url_list(self): url = "https://www.booktxt.net/1_1562/{}.html" ur