python之路 -- 爬虫 -- Scrapy入门

Scrapy

  Scrapy 是一个为了爬取网站数据,提取结构性数据而编写的应用框架。 其可以应用在数据挖掘,信息处理或存储历史数据等一系列的程序中。
其最初是为了页面抓取 (更确切来说, 网络抓取 )所设计的, 也可以应用在获取API所返回的数据(例如 Amazon Associates Web Services ) 或者通用的网络爬虫。Scrapy用途广泛,可以用于数据挖掘、监测和自动化测试。

下面是Scrapy的架构,包括组件以及在系统中发生的数据流的概览(绿色箭头所示)。

 数据流

Scrapy中的数据流由执行引擎控制,其过程如下:



Scarpy的安装

 1 安装:
 2 Linux/mac
 3     - pip3 install scrapy
 4 Windows:
 5     - 安装twsited
 6         a. pip3 install wheel
 7         b. 下载twisted http://www.lfd.uci.edu/~gohlke/pythonlibs/#twisted
 8         c. 进入下载目录,执行 pip3 install Twisted-xxxxx.whl
 9     - 安装scrapy
10         d. pip3 install scrapy -i http://pypi.douban.com/simple --trusted-host pypi.douban.com
11     - 安装pywin32
12         e. pip3 install pywin32  -i http://pypi.douban.com/simple --trusted-host pypi.douban.com

Scarpy的基本使用

 创建项目:

scrapy startproject tutorial
#该命令将会创建一个新的Scarpy项目

得到:

tutorial/
    scrapy.cfg            # 项目的配置文件
    tutorial/             # 该项目的python模块。之后您将在此加入代码
        __init__.py
        items.py          # 项目中的item文件
        pipelines.py      # 项目中的pipelines文件
        settings.py       # 项目的设置文件
        spiders/          # 放置spider代码的目录
            __init__.py

原文地址:https://www.cnblogs.com/aberwang/p/9304291.html

时间: 2024-08-28 05:14:40

python之路 -- 爬虫 -- Scrapy入门的相关文章

网页爬虫--scrapy入门

本篇从实际出发,展示如何用网页爬虫.并介绍一个流行的爬虫框架~ 1. 网页爬虫的过程 所谓网页爬虫,就是模拟浏览器的行为访问网站,从而获得网页信息的程序.正因为是程序,所以获得网页的速度可以轻易超过单身多年的手速:).通常适用于需要大量网页信息的场合. 爬取网页的流程为:访问初始url -> 获得返回的网页,从这个网页中得到新的url并放入待爬队列 -> 访问新的url-> ...依次循环.整体上来看就是一个广度优先的过程,当然,新的url也不一定非要从返回的网页中获得. 一个简单的网页

python之路 - 爬虫

网络爬虫(又被称为网页蜘蛛,网络机器人,在FOAF社区中间,更经常的称为网页追逐者),是一种按照一定的规则,自动地抓取万维网信息的程序或者脚本.另外一些不常使用的名字还有蚂蚁.自动索引.模拟程序或者蠕虫. Scrapy Scrapy是一个为了爬取网站数据,提取结构性数据而编写的应用框架. 其可以应用在数据挖掘,信息处理或存储历史数据等一系列的程序中. 其最初是为了页面抓取 (更确切来说, 网络抓取 )所设计的, 也可以应用在获取API所返回的数据(例如 Amazon Associates Web

Python之定向爬虫Scrapy

1.Scrapy介绍 Scrapy,Python开发的一个快速,高层次的屏幕抓取和web抓取框架,用于抓取web站点并从页面中提取结构化的数据.Scrapy用途广泛,可以用于数据挖掘.监测和自动化测试.  Scrapy吸引人的地方在于它是一个框架,任何人都可以根据需求方便的修改.它也提供了多种类型爬虫的基类,如BaseSpider.sitemap爬虫等. 2.Scrapy安装(http://www.cnblogs.com/txw1958/archive/2012/07/12/scrapy_ins

爬虫——scrapy入门

scrapy 安装scrapy pip install scrapy windows可能安装失败,需要先安装c++库或twisted,pip install twisted 创建项目 scrapy startproject tutorial 该命令将会创建包含下列内容的 tutorial 目录: tutorial/ scrapy.cfg tutorial/ __init__.py items.py pipelines.py settings.py spiders/ __init__.py ...

Python之路之菜鸟入门(1)

其实我也是从一个菜鸟慢慢变成的.我曾经看过网上有很多新手教程,结果都写得非常复杂,不适合新手学习.我这篇博文就用很通俗的话语,来讲讲Python的入门.首先,就是在命令行程序里比较常用的print命令了.它的用法是print("你要说的内容"),就是在命令行(当然不是Windows自带的cmd或者MAC OS及Linux的终端,这是Python自带的控制台)里显示一段文字.比如说print("我是小天").还有就是if.else命令了.你可以用下图的方式来调用if命

python之路 -- 爬虫 -- 高性能相关

高性能爬虫方案: 多进程 多线程 利用"异步非阻塞"模块实现单线程并发请求. 本质 1 sk = socket() 2 # 阻塞 3 sk.connect(('www.cnblogs.com',80)) 4 5 sk.sendall(b"GET /wupeiqi http1.1\r\n.....\r\n\r\n") 6 sk.sendall(b"POST /wupeiqi http1.1\r\n.....\r\n\r\nuser=alex&pwd=

python之路——爬虫实例

urlController.py import bsController from urllib import request class SpiderMain(object): def __init__(self): self.header = {'User-Agent': 'Mozilla/5.0 (X11; Linux x86_64) AppleWebKit/537.11 (KHTML, like Gecko) Chrome/23.0.1271.64 Safari/537.11', 'Ac

python之路--爬虫第二篇

内容简介:基于flask框架实现web微信的登录以及收发消息. 实现思路: 1.获取验证码,并检测是否在手机端扫码并确认登录(长轮询) 2.用户数据初始化获取的授权信息,并根据获取的授权信息获取联系人信息 3.发送消息,根据接受者的ID,并携带登陆授权的认证发送POST请求 4.接受消息,用长轮询的方式,去想服务器端发送求,并检测返回值中的'selector'值为0代表无新消息,2代表有新消息.无论为'0'or'2',都会接着发长轮询请求,如果为'2'就会向服务端请求新消息的内容. 需要注意的事

Python学习笔记之Scrapy框架入门

创建一个新的Scrapy项目 定义提取的Item 写一个Spider用来爬行站点,并提取Items 写一个Item Pipeline用来存储提取出的Items 新建工程 在抓取之前,你需要新建一个Scrapy工程.进入一个你想用来保存代码的目录,然后执行:scrapy startproject tutorial 这个命令会在当前目录下创建一个新目录tutorial,它的结构如下: T:. │  scrapy.cfg │ └─tutorial │  items.py │  pipelines.py