（六--一）scrapy框架简介和基础应用

一什么是scrapy框架

官方解释

Scrapy是一个为了爬取网站数据，提取结构性数据而编写的应用框架。 可以应用在包括数据挖掘，信息处理或存储历史数据等一系列的程序中。

其最初是为了 页面抓取 (更确切来说, 网络抓取 )所设计的， 也可以应用在获取API所返回的数据(例如 Amazon Associates Web Services ) 或者通用的网络爬虫

自己理解

Scrapy是一个为了爬取网站数据，提取结构性数据而编写的应用框架，非常出名，非常强悍。所谓的框架就是一个已经被集成了各种功能（高性能异步下载，队列，分布式，解析，持久化等）的具有很强通用性的项目模板。对于框架的学习，重点是要学习其框架的特性、各个功能的用法即可

二 scrapy框架的安装

　Linux：

      pip3 install scrapy

　　Windows：

      a. pip3 install wheel

      b. 下载twisted http://www.lfd.uci.edu/~gohlke/pythonlibs/#twisted

      c. 进入下载目录，执行 pip3 install Twisted?17.1.0?cp35?cp35m?win_amd64.whl

      d. pip3 install pywin32

      e. pip3 install scrapy

三基本使用

步骤:

　　1 创建工程

　　2 进去第二层目录--创建爬虫应该程序

　　3 编写爬虫文件

　　4 修改setting文件

　　5 执行爬虫

具体:

　　1 创建工程

scrapy startproject 项目名称

# 例如 

scrapy startproject first_project

　　2 进去第二层目录--创建爬虫应该程序

cd project_name（进入项目目录）

scrapy genspider 应用名称 爬取网页的起始url （例如：scrapy genspider qiubai www.qiushibaike.com）

# 例如

cd first_projectscrapy genspider qiubai www.qiushibaike.com

　　3 编写爬虫文件--在执行完前2步之后,会在项目的spiders中生成一个应用名(qiubai)的py文件,文件源码如下

import scrapy

class QiubaiSpider(scrapy.Spider):　　# 应用名称
    name = ‘qiubai‘　　# 允许爬取的域名[如果遇见不是该域名下的url则爬取不到]
    allowed_domains = [‘www.qiushibaike.com‘]　　# 起始url
    start_urls = [‘https://www.qiushibaike.com/‘]
　　# 访问起始url并获取结果后的回调函数,该函数的response参数就是向起始的url发送请求后,获取的响应对象,该函数返回值必须为可迭代对象或者NULL
    def parse(self, response):
        print(response)

　　4 修改setting文件

# 19行USER_AGENT = ‘Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/71.0.3578.98 Safari/537.36‘
# 22行
ROBOTSTXT_OBEY = False

　　5 执行爬虫

scrapy crawl  应用名称# 例如scrapy crawl  qiubai

原文地址：https://www.cnblogs.com/a438842265/p/10208913.html

时间： 2024-10-25 14:54:23

（六--一）scrapy框架简介和基础应用的相关文章

scrapy框架简介和基础应用

scrapy框架简介个基础应用简介一.什么是Scrapy? Scrapy是一个为了爬取网站数据,提取结构性数据而编写的应用框架,非常出名,非常强悍. 所谓的框架就是一个已经被集成了各种功能(高性能异步下载,队列,分布式,解析,持久化等)的具有很强通用性的项目模板. 对于框架的学习,重点是要学习其框架的特性.各个功能的用法即可. 二.安装 Linux: pip3 install scrapy Windows: a. pip3 install wheel b.

爬虫学习 10.scrapy框架简介和基础应用

爬虫学习 10.scrapy框架简介和基础应用今日概要 scrapy框架介绍环境安装基础使用今日详情一.什么是Scrapy? Scrapy是一个为了爬取网站数据,提取结构性数据而编写的应用框架,非常出名,非常强悍.所谓的框架就是一个已经被集成了各种功能(高性能异步下载,队列,分布式,解析,持久化等)的具有很强通用性的项目模板.对于框架的学习,重点是要学习其框架的特性.各个功能的用法即可. 二.安装 Linux: ``pip3 install scrapy Windows: ``a. p

python爬虫----scrapy框架简介和基础应用

一.什么是scrapy? scrapy是一个为了爬取网站数据,提取结构性数据而编写的应用框架,非常出名,非常强悍.所谓的框架就是一个已经被集成了各种功能(高性能异步下载,队列,分布式,解析,持久化等)的具有很强通用性的项目模板. 二.安装 Linux: pip3 install scrapy Windows: a. pip3 install wheel b. 下载twisted http://www.lfd.uci.edu/~gohlke/pythonlibs/#twisted c. 进入下载目

scrapy框架简介和基础应用(python爬虫)

一.什么是scrapy? scrapy是一个为了爬取网站数据,提取结构性数据而编写的应用框架,非常出名,非常强悍,所谓的框架就是一个已经被集成了各种功能(高性能异步下载,队列,分布式,持久化等)的具有很强通用性的项目模板,对于框架学习,重点是要学习其框架的特性,各个功能的用法即可. 二.安装 Linux: pip3 install scrapy Windows: a. pip3 install wheel b. 下载twisted http://www.lfd.uci.edu/~gohlke/p

爬虫（5）- Scrapy 框架简介与入门

Scrapy 框架 Scrapy是用纯Python实现一个为了爬取网站数据.提取结构性数据而编写的应用框架,用途非常广泛. 框架的力量,用户只需要定制开发几个模块就可以轻松的实现一个爬虫,用来抓取网页内容以及各种图片,非常之方便. Scrapy 使用了 Twisted['tw?st?d](其主要对手是Tornado)异步网络框架来处理网络通讯,可以加快我们的下载速度,不用自己去实现异步框架,并且包含了各种中间件接口,可以灵活的完成各种需求. 制作 Scrapy 爬虫一共需要4步: 新建项目 (

Scrapy 框架简介

Scrapy 框架介绍 Scrapy一个开源和协作的框架,其最初是为了页面抓取 (更确切来说, 网络抓取 )所设计的,使用它可以以快速.简单.可扩展的方式从网站中提取所需的数据.但目前Scrapy的用途十分广泛,可用于如数据挖掘.监测和自动化测试等领域,也可以应用在获取API所返回的数据(例如 Amazon Associates Web Services ) 或者通用的网络爬虫. Scrapy 是基于twisted框架开发而来,twisted是一个流行的事件驱动的python网络框架.因此Sc

爬虫(十六)：Scrapy框架(三) Spider Middleware、Item Pipeline、对接Selenium

1. Spider Middleware Spider Middleware是介入到Scrapy的Spider处理机制的钩子框架. 当Downloader生成Response之后,Response会被发送给Spider,在发送给Spider之前,Response会首先经过Spider Middleware处理,当Spider处理生成Item和Request之后,Item Request还会经过Spider Middleware的处理. Spider Middleware有三个作用: 我们可以在D

scrapy框架简介与安装启动

Scrapy 是一个专业的.高效的爬虫框架,它使用专业的 Twisted 包(基于事件驱动的网络引擎包)高效地处理网络通信,使用 lxml(专业的 XML 处理包).cssselect 高效地提取 HTML 页面的有效信息,同时它也提供了有效的线程管理. 安装scrapy pip3 install scrapy 在windows如果报错的话按以下方式安装(缺少环境,或者直接下载VS): pip3 install wheel 下载twisted https://www.lfd.uci.edu/~g

vue框架：框架简介，基础实例成员，基础指令，js对象方法补充

1.指令 2.实例成员 3.组件 4.项目开发 1)定义:JavaScript渐进式框架 ? 渐进式:可以控制一个页面的一个标签,也可以控制一系列的标签,也可以控制整个页面,甚至可以控制整个前台项目 2)优势: ? 有指令(分支结构,循环结构...) 复用页面结构等 ? 有实例成员(过滤器,监听), 可以对渲染的数据进行二次格式化 ? 有组件(模板的复用或组合),快速搭建页面 ? ? 虚拟dom:所有文件加载到内存中 ? 数据的双向绑定 ? 单页面应用 ? 数据驱动 3)为什么学习vue: ?

（六--一）scrapy框架简介和基础应用

一 什么是scrapy框架

二 scrapy框架的安装

三 基本使用

步骤:

具体:

（六--一）scrapy框架简介和基础应用的相关文章

一什么是scrapy框架

三基本使用