scrapy爬虫初体验

import scrapy

class StackOverflowSpider(scrapy.Spider):
    name="stackoverflow"
    start_urls=["http://stackoverflow.com/questions?sort=votes"]

    def parse(self,response):
        for href in response.css(‘.question-summary h3 a::attr(href)‘):  #得到爬取的地址
            full_url=response.urljoin(href.extract())
            yield scrapy.Request(full_url,callback=self.parse_question)

    def parse_question(self,response):
        yield{
            ‘title‘:response.css(‘h1 a::text‘).extract()[0],
            ‘votes‘:response.css(".question .vote-count-post::text").extract()[0],
            ‘body‘:response.css(".question .post-text").extract()[0],
            ‘tags‘:response.css(‘.question .post-tag::text‘).extract(),
            ‘link‘:response.url,
        }

命令行运行代码 scrapy runspider 文件名.py -o 存储文件名.csv

1.在xx.py文件中找到已定义的爬虫，然后通过抓取引擎运行爬虫

2.具体的抓取过程：

1）使用start_urls作为初始url生成Request，并默认把parse作为它的回调函数。

2）在parse中采用css选择器获得目标的URL，并注册parse_question作为目标URL的回调函数

背后的处理：

1.请求被异步的调度，处理。

2.有一些参数可以控制过程，比如每个域名/ip的并发请求数，请求直接的下载延迟（或者自动调节）

时间： 2024-07-28 18:12:24

scrapy爬虫初体验的相关文章

Node.js 网页瘸腿爬虫初体验

延续上一篇,想把自己博客的文档标题利用Node.js的request全提取出来,于是有了下面的初哥爬虫,水平有限,这只爬虫目前还有点瘸腿,请看官你指正了. // 内置http模块,提供了http服务器和客户端功能 var http=require("http"); // 内置文件处理模块 var fs=require('fs'); // 创建一个将流数据写入文件的WriteStream对象 var outstream=fs.createWriteStream('./1.txt'); /

【Python3爬虫】爬取美女图新姿势--Redis分布式爬虫初体验

一.写在前面之前写的爬虫都是单机爬虫,还没有尝试过分布式爬虫,这次就是一个分布式爬虫的初体验.所谓分布式爬虫,就是要用多台电脑同时爬取数据,相比于单机爬虫,分布式爬虫的爬取速度更快,也能更好地应对IP的检测.本文介绍的是利用Redis数据库实现的分布式爬虫,Redis是一种常用的菲关系型数据库,常用数据类型包括String.Hash.Set.List和Sorted Set,重要的是Redis支持主从复制,主机能将数据同步到从机,也就能够实现读写分离.因此我们可以利用Redis的特性,借助req

【Python3爬虫】学习分布式爬虫第一步--Redis分布式爬虫初体验

python2.7 爬虫初体验爬取新浪国内新闻_20161130

python2.7 爬虫初学习模块:BeautifulSoup requests 1.获取新浪国内新闻标题 2.获取新闻url 3.还没想好,想法是把第2步的url 获取到下载网页源代码再去分析源代码获取新闻详情页发表时间新闻来源等数据结合MySQLdb模块导入到数据库 4.疑惑:期望是整体获取这些字段发表时间发布标题新闻详情内容新闻来源任重而道远..都想拜个老师带带了.. #coding:utf-8 import requests from bs4 import Beau

Java爬虫初体验

年关将近,工作上该完成的都差不多了,就剩些测试完改改的活,上午闲着就接触学习了一下爬虫,收益还是有的,纠结了很久的正则表达式终于搞得差不多了,Java的Regex和JS上还是有区别的,JS上的"\w"Java得写成"\\w",因为Java会对字符串中的"\"做转义,还有JS中"\S\s"的写法(指任意多的任意字符),Java可以写成".*" 博主刚接触爬虫,参考了许多博客和问答贴,先写个爬虫的Overvie

python初体验之小小爬虫

小月月是个懒家伙,博客更新好慢... 前几天拿到某公司的面试题,要求在Linux/Ubuntu/Debian/Suse/Centos下用python2.7开发一个爬虫,抓取百度新闻搜索结果的前三页标题+url. 这可把对python一窍不通的小月月难住了,肿么办呢...哦,最简单有效直接的方法就是网上查资料,ok,go~! 首先感谢http://www.1point3acres.com/bbs/thread-83337-1-1.html跟http://blog.csdn.net/column/d

【Spark深入学习 -15】Spark Streaming前奏-Kafka初体验

----本节内容------- 1.Kafka基础概念 1.1 出世背景 1.2 基本原理 1.2.1.前置知识 1.2.2.架构和原理 1.2.3.基本概念 1.2.4.kafka特点 2.Kafka初体验 2.1 环境准备 2.2 Kafka小试牛刀 2.2.1单个broker初体验 2.2.2 多个broker初体验 2.3 Kafka分布式集群构建 2.3.1 Kafka分布式集群构建 2.3.2 Kafka主题创建 2.3.3 生产者生产数据 2.3.4消费者消费数据 2.3.5消息的

Python之Scrapy爬虫框架安装及简单使用

题记:早已听闻python爬虫框架的大名.近些天学习了下其中的Scrapy爬虫框架,将自己理解的跟大家分享.有表述不当之处,望大神们斧正. 一.初窥Scrapy Scrapy是一个为了爬取网站数据,提取结构性数据而编写的应用框架. 可以应用在包括数据挖掘,信息处理或存储历史数据等一系列的程序中. 其最初是为了页面抓取 (更确切来说, 网络抓取 )所设计的, 也可以应用在获取API所返回的数据(例如 Amazon Associates Web Services ) 或者通用的网络爬虫. 本文档将

erlang 初体验

最近测试了一下 erlang的坑... 如不出意外.... 大家第一眼看到这语法... 心里第一句一定是"我擦.这TM都是啥!!!!!" 没有变量!!! 没有结构体!!! 没有循环!!! 好吧,至少我是这样想的. 找了半天..连个if也不知道怎么写.. 这记录一些基本常识.. -module(module_name) %%定义模块括号内的要和文件名相同. -export([fun1/1 fun2/2]) %%这里是导出2个函数对外使用函数名/参数名. 一个简单的函数定义如下 f