scrapy系列教程一——scrapy介绍和scrapy安装

1、scrapy可以做什么?

     Scrapy是一个为了爬取网站数据,提取结构性数据而编写的应用框架。 可以应用在包括数据挖掘,信息处理或存储历史数据等一系列的程序中。其最初是为了 页面抓取 (更确切来说, 网络抓取 )所设计的, 也可以应用在获取API所返回的数据(例如 Amazon Associates Web Services ) 或者通用的网络爬虫。

2. scrapy相关文档

Scrapy 中文文档

    http://scrapy-chs.readthedocs.org/zh_CN/0.24/

    scrapy 官网文档

    http://doc.scrapy.org/

2. scrapy安装

下列的安装步骤假定您已经安装好下列程序:

  • Python 2.7
  • Python Package: pip
  • lxml. 大多数Linux发行版自带了lxml。如果缺失,请查看http://lxml.de/installation.html
  • OpenSSL. 除了Windows(请查看 平台安装指南)之外的系统都已经提供。

您可以使用pip来安装Scrapy(推荐使用pip来安装Python package).

pip install Scrapy

参照教程

http://jingyan.baidu.com/article/f3ad7d0f129c7809c2345b56.html

    具体步骤:

1.打开终端,执行如下命令python, 接下来就是import lxml, import OpenSSL。如下图。如果import没有报错,说明系统已经自带了。

2.为了能够保证下面的安装能够成功。我们先执行:sudo apt-get install python-dev 和 sudo apt-get install libevent-dev。如图:

3.接下来就是安装pip了,执行:apt-get install python-pip。如图:

4.安装Scrapy。执行:pip install Scrapy,如图:

5.验证是否成功

终端执行 scrapy命令

时间: 2024-10-06 06:35:39

scrapy系列教程一——scrapy介绍和scrapy安装的相关文章

Scrapy系列教程(3)------Spider(爬虫核心,定义链接关系和网页信息抽取)

Spiders Spider类定义了怎样爬取某个(或某些)站点.包含了爬取的动作(比如:是否跟进链接)以及怎样从网页的内容中提取结构化数据(爬取item). 换句话说.Spider就是您定义爬取的动作及分析某个网页(或者是有些网页)的地方. 对spider来说.爬取的循环类似下文: 以初始的URL初始化Request,并设置回调函数. 当该request完成下载并返回时,将生成response,并作为參数传给该回调函数. spider中初始的request是通过调用 start_requests

Scrapy系列教程(1)------命令行工具

默认的Scrapy项目结构 在開始对命令行工具以及子命令的探索前,让我们首先了解一下Scrapy的项目的文件夹结构. 尽管能够被改动,但全部的Scrapy项目默认有类似于下边的文件结构: scrapy.cfg myproject/ __init__.py items.py pipelines.py settings.py spiders/ __init__.py spider1.py spider2.py ... scrapy.cfg 存放的文件夹被觉得是 项目的根文件夹 .该文件里包括pyth

【REACT NATIVE 系列教程之十一】插件的安装、使用与更新(示例:REACT-NATIVE-TAB-NAVIGATOR)

本站文章均为 李华明Himi 原创,转载务必在明显处注明: 转载自[黑米GameDev街区] 原文链接: http://www.himigame.com/react-native/2294.html 本篇主要来详细介绍如何安装.升级插件及讲解一个react-native-tab-navigator的示例. 首先推荐一个插件网站:https://www.npmjs.com     (此插件属于半官方维护的) 本文举例使用的插件:react-native-tab-navigator ,选项卡形式的导

scrapy系列教程二——命令行工具(Command line tools)

1.命令行工具(Command line tools) Scrapy是通过Scrapy命令行工具进行控制的.这里我们称之为 “Scrapy tool” 以用来和子命令进行区分. 对于子命令,我们称为 “command” 或者 “Scrapy commands”.Scrapy tool 针对不同的目的提供了多个命令,每个命令支持不同的参数和选项. 2.常用命令 官方命令行说明文档 http://scrapy-chs.readthedocs.org/zh_CN/latest/topics/comma

Scrapy系列教程(2)------Item(结构化数据存储结构)

Items 爬取的主要目标就是从非结构性的数据源提取结构性数据,比如网页. Scrapy提供 Item 类来满足这种需求. Item 对象是种简单的容器.保存了爬取到得数据. 其提供了 类似于词典(dictionary-like) 的API以及用于声明可用字段的简单语法. 声明Item Item使用简单的class定义语法以及 Field 对象来声明. 比如: import scrapy class Product(scrapy.Item): name = scrapy.Field() pric

Scrapy系列教程(6)------如何避免被禁

避免被禁止(ban) 有些网站实现了特定的机制,以一定规则来避免被爬虫爬取. 与这些规则打交道并不容易,需要技巧,有时候也需要些特别的基础. 如果有疑问请考虑联系 商业支持 . 下面是些处理这些站点的建议(tips): 使用user agent池,轮流选择之一来作为user agent.池中包含常见的浏览器的user agent(google一下一大堆) 禁止cookies(参考 COOKIES_ENABLED),有些站点会使用cookies来发现爬虫的轨迹. 设置下载延迟(2或更高).参考 D

Scrapy系列教程(6)------怎样避免被禁

避免被禁止(ban) 有些网站实现了特定的机制,以一定规则来避免被爬虫爬取. 与这些规则打交道并不easy,须要技巧,有时候也须要些特别的基础. 假设有疑问请考虑联系?商业支持?. 以下是些处理这些网站的建议(tips): 使用user agent池.轮流选择之中的一个来作为user agent. 池中包括常见的浏览器的user agent(google一下一大堆) 禁止cookies(參考?COOKIES_ENABLED),有些网站会使用cookies来发现爬虫的轨迹. 设置下载延迟(2或更高

Hyper-V 2016 系列教程38 在 Windows 10 上安装 Hyper-V

启用 Hyper-V 以在 Windows 10 上创建虚拟机.可以通过多种方式启用 Hyper-V,包括使用 Windows 10 控制面板.PowerShell(我的最爱)或使用部署映像服务和管理工具 (DISM). 本文档将逐一介绍每个选项. 注意:Hyper-V 作为可选功能内置于 Windows -- 无 Hyper-V 下载或可安装的组件. 检查要求 Windows 10 企业版.专业版或教育版 具有二级地址转换 (SLAT) 的 64 位处理器. CPU 支持 VM 监视器模式扩展

Hyper-V 2016 系列教程31 在Microsoft Hyper-V中安装XenServer

(1)如果Hpyer-V组件没有安装,我们可以到服务器管理中-"添加角色和功能",添加Hyper-V组件,然后单击二次"下一步"按钮,最后按"安装",即可以完成Hpyer-V组件的添加,如图13-14所示,如提示重新启动WindowsServer 2016,请重新启动. 图13-14"添加角色和"对话框 (2)打开Hyper-V管理器,然后单击菜单"操作" | "新建"| "虚