scrapy框架简介与安装启动

  Scrapy 是一个专业的、高效的爬虫框架,它使用专业的 Twisted 包(基于事件驱动的网络引擎包)高效地处理网络通信,使用 lxml(专业的 XML 处理包)、cssselect 高效地提取 HTML 页面的有效信息,同时它也提供了有效的线程管理。

安装scrapy

pip3 install scrapy

在windows如果报错的话按以下方式安装(缺少环境,或者直接下载VS):
    pip3  install wheel
    下载twisted   https://www.lfd.uci.edu/~gohlke/pythonlibs/#twisted
    进入下载目录,执行  pip3 install Twisted?17.1.0?cp35?cp35m?win_amd64.whl
    pip3   install  pywin32
    pip3   install  scrapy

项目创建与启动

#scrapy项目创建scrapy startproject  xxx(项目名)-----创建爬虫项目    cd xxx(项目名)--------必须要进入项目文件    scrapy genspider  xx(爬虫文件)   url(起始url,后期可修改)--------创建爬虫应用#scrapy项目启动scrapy crawl xx(爬虫文件)----需要进入爬虫文件所在的目录
scrapy crawl 爬虫文件 --nolog:该种执行形式不会显示执行的日志信息

    

    

 项目中创建的默认爬虫文件

 1 import scrapy
 2
 3
 4 class FirstbaiduSpider(scrapy.Spider):
 5     name = ‘firstBaidu‘#爬虫文件(应用)名
 6     # allowed_domains = [‘https://www.baidu.com/‘]#域名限定,一般直接注释
 7     start_urls = [‘https://www.baidu.com//‘]#起始url,创建应用时指定的,可修改
 8
 9     def parse(self, response):#自动访问起始URL并获取结果后的回调函数,参数respons为起始请求的响应对象,可以直接调用封装好的xpath解析
10         pass

默认创建的爬虫文件

 
 
    

原文地址:https://www.cnblogs.com/open-yang/p/11328936.html

时间: 2024-08-29 20:32:36

scrapy框架简介与安装启动的相关文章

scrapy框架简介和基础应用

scrapy框架简介个基础应用 简介 一.什么是Scrapy? Scrapy是一个为了爬取网站数据,提取结构性数据而编写的应用框架,非常出名,非常强悍. 所谓的框架就是一个已经被集成了各种功能(高性能异步下载,队列,分布式,解析,持久化等)的具有很强通用性的项目模板. 对于框架的学习,重点是要学习其框架的特性.各个功能的用法即可. 二.安装 Linux:       pip3 install scrapy Windows:       a. pip3 install wheel       b.

爬虫学习 10.scrapy框架简介和基础应用

爬虫学习 10.scrapy框架简介和基础应用 今日概要 scrapy框架介绍 环境安装 基础使用 今日详情 一.什么是Scrapy? Scrapy是一个为了爬取网站数据,提取结构性数据而编写的应用框架,非常出名,非常强悍.所谓的框架就是一个已经被集成了各种功能(高性能异步下载,队列,分布式,解析,持久化等)的具有很强通用性的项目模板.对于框架的学习,重点是要学习其框架的特性.各个功能的用法即可. 二.安装 Linux: ``pip3 install scrapy Windows: ``a. p

Scrapy 框架简介

Scrapy 框架 介绍 Scrapy一个开源和协作的框架,其最初是为了页面抓取 (更确切来说, 网络抓取 )所设计的,使用它可以以快速.简单.可扩展的方式从网站中提取所需的数据.但目前Scrapy的用途十分广泛,可用于如数据挖掘.监测和自动化测试等领域,也可以应用在获取API所返回的数据(例如 Amazon Associates Web Services ) 或者通用的网络爬虫. Scrapy 是基于twisted框架开发而来,twisted是一个流行的事件驱动的python网络框架.因此Sc

爬虫 (5)- Scrapy 框架简介与入门

Scrapy 框架 Scrapy是用纯Python实现一个为了爬取网站数据.提取结构性数据而编写的应用框架,用途非常广泛. 框架的力量,用户只需要定制开发几个模块就可以轻松的实现一个爬虫,用来抓取网页内容以及各种图片,非常之方便. Scrapy 使用了 Twisted['tw?st?d](其主要对手是Tornado)异步网络框架来处理网络通讯,可以加快我们的下载速度,不用自己去实现异步框架,并且包含了各种中间件接口,可以灵活的完成各种需求. 制作 Scrapy 爬虫 一共需要4步: 新建项目 (

(六--一)scrapy框架简介和基础应用

一 什么是scrapy框架 官方解释 Scrapy是一个为了爬取网站数据,提取结构性数据而编写的应用框架. 可以应用在包括数据挖掘,信息处理或存储历史数据等一系列的程序中. 其最初是为了 页面抓取 (更确切来说, 网络抓取 )所设计的, 也可以应用在获取API所返回的数据(例如 Amazon Associates Web Services ) 或者通用的网络爬虫 自己理解 Scrapy是一个为了爬取网站数据,提取结构性数据而编写的应用框架,非常出名,非常强悍.所谓的框架就是一个已经被集成了各种功

python爬虫----scrapy框架简介和基础应用

一.什么是scrapy? scrapy是一个为了爬取网站数据,提取结构性数据而编写的应用框架,非常出名,非常强悍.所谓的框架就是一个已经被集成了各种功能(高性能异步下载,队列,分布式,解析,持久化等)的具有很强通用性的项目模板. 二.安装 Linux: pip3 install scrapy Windows: a. pip3 install wheel b. 下载twisted http://www.lfd.uci.edu/~gohlke/pythonlibs/#twisted c. 进入下载目

scrapy框架简介和基础应用(python爬虫)

一.什么是scrapy? scrapy是一个为了爬取网站数据,提取结构性数据而编写的应用框架,非常出名,非常强悍,所谓的框架就是一个已经被集成了各种功能(高性能异步下载,队列,分布式,持久化等)的具有很强通用性的项目模板,对于框架学习,重点是要学习其框架的特性,各个功能的用法即可. 二.安装 Linux: pip3 install scrapy Windows: a. pip3 install wheel b. 下载twisted http://www.lfd.uci.edu/~gohlke/p

python爬虫随笔-scrapy框架(1)——scrapy框架的安装和结构介绍

scrapy框架简介 Scrapy,Python开发的一个快速.高层次的屏幕抓取和web抓取框架,用于抓取web站点并从页面中提取结构化的数据.Scrapy用途广泛,可以用于数据挖掘.监测和自动化测试.(引用自:百度百科) scrapy官方网站:https://scrapy.org/ scrapy官方文档:https://doc.scrapy.org/en/latest/ scrapy框架安装 首先我们安装scrapy,使用如下命令 pip install scrapy 此时很多人应该都会遇到如

python——Scrapy 框架

爬虫的自我修养_4 一.Scrapy 框架简介 Scrapy是用纯Python实现一个为了爬取网站数据.提取结构性数据而编写的应用框架,用途非常广泛. 框架的力量,用户只需要定制开发几个模块就可以轻松的实现一个爬虫,用来抓取网页内容以及各种图片,非常之方便. Scrapy 使用了 Twisted['tw?st?d](其主要对手是Tornado)异步网络框架来处理网络通讯,可以加快我们的下载速度,不用自己去实现异步框架,并且包含了各种中间件接口,可以灵活的完成各种需求. Scrapy架构图(绿线是