python 网络爬虫框架scrapy使用说明

1 创建项目
scrapy startproject tutorial

2 定义Item
import scrapy
class DmozItem(scrapy.Item):
    title = scrapy.Field()
    link = scrapy.Field()
    desc = scrapy.Field()
paser完后的数据保存到item列表，在传给pipeline使用

3 编写第一个爬虫(Spider), 保存在 tutorial/spiders 目录下的 dmoz_spider.py, 爬虫要根据文件名来启动。
import scrapy

class DmozSpider(scrapy.Spider):
    name = "dmoz"
    allowed_domains = ["dmoz.org"]
    start_urls = [
        "http://www.dmoz.org/Computers/Programming/Languages/Python/Books/",
        "http://www.dmoz.org/Computers/Programming/Languages/Python/Resources/"
    ]

def parse(self, response):
            item = DmozItem()
            item[‘title‘] = sel.xpath(‘a/text()‘).extract()
            item[‘link‘] = sel.xpath(‘a/@href‘).extract()
            item[‘desc‘] = sel.xpath(‘text()‘).extract()
            yield item

start_urls设置要爬的URL列表
parse成员函数在爬完一个页面后调用从页面里提取信息，保存到之前定义的item字典列表里。注意DmozItem为第二步定义的类

4 pipeline
当Item在Spider中被收集之后，它将会被传递到Item Pipeline，一些组件会按照一定的顺序执行对Item的处理。在settings.py里定义pipeline处理顺序。
pipline处理数据，同时决定是否将数据传入下一个pipeline

import json

class JsonWriterPipeline(object):

def __init__(self):
self.file = open(‘items.jl‘, ‘wb‘)

def process_item(self, item, spider):
        line = json.dumps(dict(item)) + "\n"
        self.file.write(line)
        return item

5 启动爬虫
scrapy crawl dmoz

时间： 2024-08-24 21:28:32

python 网络爬虫框架scrapy使用说明的相关文章

Python网络爬虫之Scrapy框架（CrawlSpider）

目录 Python网络爬虫之Scrapy框架(CrawlSpider) CrawlSpider使用爬取糗事百科糗图板块的所有页码数据 Python网络爬虫之Scrapy框架(CrawlSpider) 提问:如果想要通过爬虫程序去爬取"糗百"全站数据新闻数据的话,有几种实现方法? 方法一:基于Scrapy框架中的Spider的递归爬取进行实现(Request模块递归回调parse方法). 方法二:基于CrawlSpider的自动爬取进行实现(更加简洁和高效). CrawlSpider使

爬虫学习 16.Python网络爬虫之Scrapy框架（CrawlSpider）

爬虫学习 16.Python网络爬虫之Scrapy框架(CrawlSpider) 引入提问:如果想要通过爬虫程序去爬取"糗百"全站数据新闻数据的话,有几种实现方法? 方法一:基于Scrapy框架中的Spider的递归爬取进行实现(Request模块递归回调parse方法). 方法二:基于CrawlSpider的自动爬取进行实现(更加简洁和高效). 今日概要 CrawlSpider简介 CrawlSpider使用基于CrawlSpider爬虫文件的创建链接提取器规则解析器今日详

Python开源爬虫框架scrapy的了解与认识

很多学习Python编程语言的朋友都会学习Python网络爬虫技术,也有专门学习网络爬虫技术的,那么如何学习Python爬虫技术呢,今天就给大家讲讲使用Python抓取数据时非常受欢迎的Python抓取框架scrapy,下面一起学习下Scrapy的架构,便于更好的使用这个工具. 一.概述下图显示了Scrapy的大体架构,其中包含了它的主要组件及系统的数据处理流程(绿色箭头所示).下面就来一个个解释每个组件的作用及数据的处理过程. 二.组件 1.Scrapy Engine(Scrapy引擎) S

python网络爬虫实战-Scrapy,深入理解scrapy框架，解决数据抓取过程

一前言二网络爬虫简介审查元素简单实例 1 requests安装 2 简单实例三爬虫实战小说下载 1 实战背景 2 小试牛刀 3Beautiful Soup 3整合代码优美壁纸下载 1实战背景 2实战进阶 3整合代码爱奇艺VIP视频下载 1实战背景 2实战升级 3编写代码四总结一前言强烈建议:请在电脑的陪同下,阅读本文.本文以实战为主,阅读过程如稍有不适,还望多加练习. 本文的实战内容有: 网络小说下载(静态网站) 优美壁纸下载(动态网站) 爱奇艺VIP视频下载二

Python网络爬虫实战-Scrapy视频教程 Python系统化项目实战课程 Scrapy技术课程

课程目录01.scrapy是什么.mp4Python实战-02.初步使用scrapy.mp4Python实战-03.scrapy的基本使用步骤.mp4Python实战-04.基本概念介绍1-scrapy命令行工具.mp4Python实战-05.本概念介绍2-scrapy的重要组件.mp4Python实战-06.基本概念介绍3-scrapy中的重要对象.mp4Python实战-07.scrapy内置服务介绍.mp4Python实战-08.抓取进阶-对"西刺"网站的抓取.mp4Python

快速部署网络爬虫框架scrapy

1. 安装Anaconda,因为Anaconda基本把所有需要依赖的环境都一键帮我们部署好了,不需要再操心其他事了,进官网选择需要下载的版本:https://www.anaconda.com/download/ 2. 安装完Anaconda,添加环境变量,见截图 3. 验证Anaconda是否安装OK,打开开始菜单,选择 ,输入命令conda,出现截图的情况就说明装好了,环境变量也是OK的 4. 接下来就是安装scrapy,在刚才的Anaconda Prompt,输入命令:conda inst

2017.08.04 Python网络爬虫之Scrapy爬虫实战二天气预报

1.项目准备:网站地址:http://quanzhou.tianqi.com/ 2.创建编辑Scrapy爬虫: scrapy startproject weather scrapy genspider HQUSpider quanzhou.tianqi.com 项目文件结构如图: 3.修改Items.py: 4.修改Spider文件HQUSpider.py: (1)先使用命令:scrapy shell http://quanzhou.tianqi.com/ 测试和获取选择器: (2)试验选择

【转】Python练习，网络爬虫框架Scrapy

一.概述下图显示了Scrapy的大体架构,其中包含了它的主要组件及系统的数据处理流程(绿色箭头所示).下面就来一个个解释每个组件的作用及数据的处理过程. 二.组件 1.Scrapy Engine(Scrapy引擎) Scrapy引擎是用来控制整个系统的数据处理流程,并进行事务处理的触发.更多的详细内容可以看下面的数据处理流程. 2.Scheduler(调度) 调度程序从Scrapy引擎接受请求并排序列入队列,并在Scrapy引擎发出请求后返还给他们. 3.Downloader(下载器) 下载器

2017.07.26 Python网络爬虫之Scrapy爬虫框架

1.windows下安装scrapy:cmd命令行下:cd到python的scripts目录,然后运行pip install 命令然后pycharmIDE下就有了Scrapy: 在cmd下运行scrapy命令,出错!!!: 解决方法: 在Python的Lib\site-packages文件夹下新建一个sitecustomize.py: import sys sys.setdefaultencoding('gb2312') 再次在cmd下运行scrapy,成功: 2.Scrapy选择器和XPat

猜你喜欢

C# ExecuteScalar用法

using System; using System.Data; using System.Text; using System.Windows.Forms; using System.Data.Sq ...

Python第一天---第一个Python程序

1.我的环境是windows下,需要安装notepad++,安装Python2,配置环境变量(百度下可以见) 2.打开cmd窗口-----输入I: [输入要在哪个磁盘存储python代码(我的在I: ...

hdu5176（并查集）

传送门:The Experience of Love 题意:一个叫Gorwin的女孩和一个叫Vivin的男孩是一对情侣.他们来到一个叫爱情的国家,这个国家由N个城市组成而且只有N−1条小道(像一棵树) ...

（转）mq常用命令

(暂时放一放) 创建队列管理器crtmqm qmgrname 删除队列管理器dltmqm [-z] qmgrname 启动队列管理器strmqm qmgrname 停止队列管理器endmqm –i Q ...

Fisher-Yates 乱序算法

这两篇博客[1][2]的模式是我心仪的一种科技博客的方式,提供源代码,显示运行图形结果,通俗地介绍理论原理. 直接把结论摘录下来吧. 随机算法如果写成如下形式 randomIndex = random ...

视频运行库AVICAP32.DLL说明收藏

视频运行库AVICAP32.DLL说明收藏2008-09-28 09:04 // ----------------------------------------------------------- ...

Python学习笔记8（迭代器、生成器、装饰器）

1.列表生成式要想学习生成器和迭代器,首先得了解另外一个概念,列表生成式. 想要生成一个0~9的列表的时候,首先想到的就是range(0,10) >>>a = range(0,10 ...

thinkPHP16---伪静态

url伪静态通常是为了满足更好的SEO效果,thinkPHP支持伪静态url设置,可以通过设置URL_HTML_SUFFIX的参数随意在URL的最后添加你想要的静态后缀,而不会影响当前操作的正常执 ...

Raid0

参考:http://blog.chinaunix.net/uid-639516-id-2692517.html

git版本回退的一个问题

有时候我们想在本地修改远程已经提交的某个历史,如果我们在本地修改之后,然后push会有问题,比如说我们先看一下现在的状态: $ git status On branch dev Your branch ...

【Android界面实现】Starting an Activity（Activity生命周期金字塔模型）

转载请注明:http://blog.csdn.net/zhaokaiqiang1992 本文翻译自http://developer.android.com/training/basics/activi ...

【转】编程思想之正则表达式

什么是正则表达式? 正则表达式(Regular Expression)就是用某种模式去匹配一类字符串的公式.如你要在一篇文章中查找第一个字是"罗"最后一个字是"浩&quo ...

Tomcat服务器与HTTP协议

Tomcat服务器与HTTP协议一． Tomcat服务器 1.tomcat服务器 1.web :网页,它代表的是网络上的资源.(java技术开发动态的web资源,即动态web页面,在Java中,动 ...

CentOS7 下DNS的搭建

DNS(Domain Name System,域名系统),因特网上作为域名和IP地址相互映射的一个分布式数据库,能够使用户更方便的访问互联网.通过主机名,最终得到该主机名对应的IP地址的过程叫做域名解 ...

untiy数据包的输出、加载和卸载

1:untiy数据包的输出: BuildPipeline.BuildAssetBundle将任意类型的资源打包成AssetsBundle文件. BuildPipeline.BuildAssetBund ...

Unix & Linux大学教程（二）：

第11章 shell Shell两大家族:Bourne shell家族(Bourne Shell.bash.FreeBSD.Korn Shell.Pdksh.Zsh)和C-Shell家族(C-She ...

利用云服务器搭建内网映射服务器

应用背景:众所周知,随着公网IP地址的短缺,即使电信联通这样的一级运营商在提供宽带服务的时候有时候也会使用私网IP地址,更不用说长城.鹏博士这样的二级运营商了,肯定都是提供的私网IP地址,那么对于一个 ...

java代码性能优化总结(转载)

原文链接:http://developer.51cto.com/art/201511/496263.htm 前言代码优化,一个很重要的课题.可能有些人觉得没用,一些细小的地方有什么好修改的,改与不改 ...

BNU 34974 MATLAB大法好

题目链接:http://www.bnuoj.com/bnuoj/problem_show.php?pid=34974 MATLAB大法好 Time Limit: 8000ms Memory Limit ...

nodejs-io.js-安装及卸载

安装下载编译版的io.js 然后 ./configure make make install 来自为知笔记(Wiz)

专题

随机推荐

© 2024 憋错料 | info#biecuoliao.com | 10 q. 0.022 s.