scrapy项目入门--shell的使用!

1、创建一个scrapy的开发环境

下载scrapy,但是由于pip版本等问题,所以没有最终成功,但是更改pycharm中的环境,使用anaconda就可以了,因为包含了scrapy环境!

2、使用 scrapy 来创建 ArticleSpider项目

打开cmd界面,输入scrapy startproject ArticleSpider

然后在相应的目录找到 ArticleSpider项目,复制到pycharm中

3、更改cmd界面目录,到达pycharm项目目录,我的目录是:C:\Users\Administrator\PycharmProjects\python\ArticleSpider\ArticleSpider\spiders>

4、把提前写好的一个books.py文件粘贴到pycharm目录下,在cmd界面输入scrapy crawl books -0 books.csv

5、最终在pycharm页面看到生成了一个books.csv文件

原文地址:https://www.cnblogs.com/fodalaoyao/p/10425783.html

时间: 2024-10-02 20:47:29

scrapy项目入门--shell的使用!的相关文章

Python学习笔记之Scrapy框架入门

创建一个新的Scrapy项目 定义提取的Item 写一个Spider用来爬行站点,并提取Items 写一个Item Pipeline用来存储提取出的Items 新建工程 在抓取之前,你需要新建一个Scrapy工程.进入一个你想用来保存代码的目录,然后执行:scrapy startproject tutorial 这个命令会在当前目录下创建一个新目录tutorial,它的结构如下: T:. │  scrapy.cfg │ └─tutorial │  items.py │  pipelines.py

Scrapy 框架 入门教程

Scrapy入门教程 在本篇教程中,我已经安装好Scrapy 本篇教程中将带您完成下列任务: 创建一个Scrapy项目 定义提取的Item 编写爬取网站的 spider 并提取 Item 编写 Item Pipeline 来存储提取到的Item(即数据) 创建项目 在开始爬取之前,您必须创建一个新的Scrapy项目. 进入您打算存储代码的目录中,运行下列命令: scrapy startproject tutorial tutorial/ scrapy.cfg tutorial/ __init__

GEF(Graphical Editor Framework) Eclipse项目入门系列(3)---Draw2D例子演示

在"GEF(Graphical Editor Framework) Eclipse项目入门系列(2)---Draw2D开发环境的搭建"一文中,我给大家介绍了Draw2D的开发环境的搭建.下一步,根据软件行业的惯例,需要展示一个例子,这样大家才更有兴趣去学习和探索这门技术.好了,废话少说,作者就借花献佛,用Dan Rubel,Jaimen Wren和Eric Clayberg的一个例子Draw2D的例子和大家分享一下.这个例子包括两个类,GenealogyView和FigureMover

Scrapy项目之twisted.internet.error.DNSLookupError

Windows 10家庭中文版,Python 3.6.4,Scrapy 1.5.0, 昨日写了一个爬虫程序,用来抓取新闻数据,但在抓取某网站数据时发生了错误:超时.重试--开始是超过默认等待180秒的时间,后来自己在爬虫程序中改为了20秒,所以下图显示为20 seconds. 完全不知道怎么回事!上面是使用Scrapy项目内的基于CrawlerRunner编写的程序运行的,看不到更多数据! 尝试将爬虫中的allowed_domains改为下面两种形式(最后会使用第二种)进行测试--以为和子域名有

Scrapy框架----- 入门案例

入门案例 学习目标 创建一个Scrapy项目 定义提取的结构化数据(Item) 编写爬取网站的 Spider 并提取出结构化数据(Item) 编写 Item Pipelines 来存储提取到的Item(即结构化数据) 一. 新建项目(scrapy startproject) 在开始爬取之前,必须创建一个新的Scrapy项目.进入自定义的项目目录中,运行下列命令: scrapy startproject mySpider 其中, mySpider 为项目名称,可以看到将会创建一个 mySpider

Scrapy 框架入门

一.介绍 ? Scrapy 是一个基于Twisted 的异步处理框架,是纯 Python 实现的爬虫框架,其架构清晰,模块之间耦合较低,扩展性和灵活强,是目前 Python 中使用最广泛的爬虫框架. 架构示意图: 它分为以下几个部分: Engine:引擎,处理整个系统的数据流处理.触发事务,是整个框架的核心. Item:项目,它定义了爬取数据结果的数据结构,爬取的数据会被赋值成该 Item 对象. Scheduler:调度器,接受引擎发送过来的请求并将其加入到队列中,在引擎再次请求的时候提供给引

Python Scrapy项目创建(基础普及篇)

在使用Scrapy开发爬虫时,通常需要创建一个Scrapy项目.通过如下命令即可创建 Scrapy 项目: scrapy startproject ZhipinSpider 在上面命令中,scrapy 是Scrapy 框架提供的命令:startproject 是 scrapy 的子命令,专门用于创建项目:ZhipinSpider 就是要创建的项目名. scrapy 除提供 startproject 子命令之外,它还提供了 fetch(从指定 URL 获取响应).genspider(生成蜘蛛).s

转 Katana 项目入门

Katana 项目入门 Howard Dierking 当 ASP.NET 首次在 2002 年发布时,时代有所不同. 那时,Internet 仍处于起步阶段,大约有 5.69 亿用户,每个用户平均每天访问 Internet 的时间为 46 分钟,大约有 3 百万个网站. 仅仅在 10 年之后,相同的测量指标揭示,大约有 22.7 亿个 Internet 用户,每个用户平均每天访问 Internet 的时间为 4 小时,大约有 5.55 亿个网站(请参阅bit.ly/MY7GzO). 很显然,这

如何在eclipse+pydev运行scrapy项目

参考链接:https://www.zhihu.com/question/28565716(eclipse+pydev配置) 参考链接:http://www.cnblogs.com/kongzhagen/p/6549053.html(scrapy爬虫简单实例) 1. 通过eclipse+pydev新建一个python工程 设置如图下图: 2. 可以通过scrapy命令行创建一个工程到刚建的eclipse项目下:/Users/it-0003005/Documents/workspace/testSc