2:url有规律的多页面爬取

举例网站:http://www.luoo.net/music/期刊号

e.g:http://www.luoo.net/music/760

打算爬取其title:Hello World;pic;desc:本期音乐为......《8-bit Love》。

步骤:

1):建立项目

  在shell中你对应的目录下:scrapy startproject luoo

  在pycharm中打开luoo文件夹

2):编写items.py

import scrapyclass LuooItem(scrapy.Item):    url = scrapy.Field()    title = scrapy.Field()    pic = scrapy.Field()    desc = scrapy.Field()

3):编写spider  在spiders文件夹下建立luoospider.py

  
import scrapyfrom luoo.items import LuooItem

class LuooSpider(scrapy.Spider):    name = "luoo"    allowed_domains = ["luoo.net"]    start_urls = []    for i in range(750,763):        url = ‘http://www.luoo.net/music/%s‘%(str(i))        start_urls.append(url)

    def parse(self, response):        item = LuooItem()        item[‘url‘] = response.url        item[‘title‘] = response.xpath(‘//span[@class="vol-title"]/text()‘).extract()        item[‘pic‘] = response.xpath(‘//img[@class="vol-cover"]/@src‘).extract()        item[‘desc‘] = response.xpath(‘//div[@class="vol-desc"]/text()‘).extract()        return item4)pipelines.py不动5)在command中进入luoo目录  scrapy list   列出可用的爬虫(luoo)  scrapy crawl luoo -o result.csv(执行爬虫并且以result.csv保存到当前目录下)6)用notepad++打开result.py并且更改格式为ANSI后保存,再用excel打开就不会有乱码了

*遗留to do:1)数据考虑后期迁移到mysql数据库2)单独把图片保存到图片格式的文件夹中
时间: 2024-10-16 07:38:17

2:url有规律的多页面爬取的相关文章

python爬爬爬之单网页html页面爬取

python爬爬爬之单网页html页面爬取 作者:vpoet 日期:大约在夏季 注:随意copy 不用告诉我 #coding:utf-8 import urllib2 Response=urllib2.urlopen("http://www.baidu.com"); Html=Response.read(); print Html; 运行结果: 再看看百度的源码: 是一样,没骗你吧

python--Selenium(动态渲染页面爬取)

上一节,学习了Ajax,Ajax 其实也是JS 动态渲染的页面的一种形式,通过直接分析Ajax,仍然可以借助requests  或者 urllib 来实现数据爬取. 但是JS动态渲染的页面不止Ajax 一种:还有就是像淘宝这种页面,即使是Ajax 获取的数据,但是其Ajax 接口含有很多加密参数,我们直接很难找出其规律,,也就很难直接分析Ajax 来抓取. 为了解决这些问题,可以直接使用模拟浏览器运行的方式来实现,这样就可以做到在浏览器中看到是什么样,抓取的源码就是什么样,也就是可见及可爬.这样

亚马逊商品页面爬取

通过来源审查,访问错误,不支持直接访问: 更改头信息,重新定义 user-agent,模拟浏览器(Mozilla/5.0浏览器标识字段,页面信息不全,可以成功访问): 全代码: import requests      url="https://www.amazon.cn/?tag=baidu250-23&hvadid={creative}&ref=pz_ic_22fvxh4dwf_e"        try: kv={'user-agent':'Mozilla/5.0

爬虫动态渲染页面爬取之selenium驱动chrome浏览器的使用

Selenium是一个用于Web应用程序测试的工具.Selenium测试直接运行在浏览器中,就像真正的用户在操作一样,可以用其进行网页动态渲染页面的爬取. 支持的浏览器包括IE(7, 8, 9, 10, 11),Mozilla Firefox,Safari,Google Chrome,Opera等. 1. 示例 ### selenium的使用 ''' Selenium是一个用于Web应用程序测试的工具. Selenium测试直接运行在浏览器中,就像真正的用户在操作一样. 支持的浏览器包括IE(7

Class 17 - 2 动态渲染页面爬取 — Splash

一.Splash 的使用 Splash 是一个JavaScript 渲染服务,带有 HTTP API的轻量级浏览器,同时对接了 Python 中的 Twisted 和 QT 库.利用它,同样可以实现动态渲染页面的抓取. 实例引入 通过 Splash 提供的 Web 页面来测试其渲染过程.例:在本机 8050 端口上运行 Splash 服务,打开 http://localhost:8050/ 即可看到其 Web 页面: 黑色框显示的是一个渲染示例.上方有个输入框,默认是 http://google

第8章 动态渲染页面爬取

使用 Selenium 使用 Splash Splash 负载均衡 Selenium 爬取淘宝商品 原文地址:https://www.cnblogs.com/pzk7788/p/10536713.html

【Python requests多页面爬取案例】 -- 2019-08-08 20:39:58

原文: http://106.13.73.98/__/96/ import requests from fake_useragent import UserAgent # 随机ua库 class Boring(): def __init__(self, page_scope=(4, 7)): """ :param page_scope: 页码范围 """ self.page_scope = page_scope self.all_id = sel

【Python requests多页面爬取案例】 񩲝

原文: http://blog.gqylpy.com/gqy/321 "```python import requests from fake_useragent import UserAgent # 随机ua库 class Boring(): def __init__(self, page_scope=(4, 7)): """ :param page_scope: 页码范围 """ self.page_scope = page_sco

爬虫系列之股票信息爬取

1. 总述 慕课中这段代码的功能是首先从东方财富网上获得所有股票的代码,再利用我们所获得的股票代码输入url中进入百度股票页面爬取该只股票的详细信息. 1 import requests 2 from bs4 import BeautifulSoup 3 import traceback 4 import re 5 6 7 def getHTMLText(url): 8 try: 9 r = requests.get(url) 10 r.raise_for_status() 11 r.encod