手把手教你如何新建scrapy爬虫框架的第一个项目（下）

前几天小编带大家学会了如何在Scrapy框架下创建属于自己的第一个爬虫项目（上），今天我们进一步深入的了解Scrapy爬虫项目创建，这里以伯乐在线网站的所有文章页为例进行说明。

在我们创建好Scrapy爬虫项目之后，会得到上图中的提示，大意是让我们直接根据模板进行创建Scrapy项目。根据提示，我们首先运行“cd article”命令，意思是打开或者进入到article文件夹下，尔后执行命令“scrapy genspider jobbole blog.jobbole.com”，代表通过Scrapy中自带的basic模板进行创建Scrapy项目，如下图所示。

根据提示，该模板创建的位置为article.spiders.jobbole，此时再次输入tree /f命令可以查看到除了之前创建Scrapy爬虫项目的基础文件之外，在spiders文件夹下确实是多了一个jobbole.py文件，如下图所示。

当然了，爬虫模板不一定非得用Scrapy爬虫项目自带的模板，也可以自定义的进行创建，但是基本上Scrapy提供的模板是足够使用的了。

接下来，将整个爬虫项目导入到Pycharm中去，点击左上方“file”à“open”，找到爬虫项目创建的文件夹，点击确认即可。

如果在Pycharm中的spiders文件夹下看不到jobbole.py这个文件的话，则先选中spiders文件夹，尔后右键，点击“Synchronize spider”，代表与spiders文件夹进行同步的意思，尔后便可以看到jobbole.py就会被加载出来。

点击jobbole.py文件进行查看内容，如下图所示。可以看到该文件已经默认的填充了部分Python代码，其实是从源模板中进行复制创建的。

可以看到该文件中有当前Scrapy爬虫项目的名字name，Scrapy爬虫项目所允许的域名范围allowed_domains，以及Scrapy爬虫项目的起始URL，即start_urls。

接下来最后检查一下该项目的Python解释器，点击Pycharm的setting，然后输入“interpreter”，找到解释器所在的位置，如下图所示。

如果“Project Interpreter”显示出来的解释器不是当前项目下的虚拟环境，则点击“Project Interpreter”的右侧的设置按钮，如下图所示。

然后点击“Add local”，如下图所示。

找到该项目对应的虚拟环境Python解释器，进行添加即可，如下图所示。

至此，Scrapy爬虫虚拟环境创建、Scrapy爬虫项目的创建以及Scrapy爬虫项目导入到Pycharm中以及解释器的配置已经完成，接下来我们要开始写入爬虫逻辑，以及数据提取等，敬请期待~~

对爬虫感兴趣的小伙伴，欢迎来Github：https://github.com/cassieeric，喜欢的话记得给个star噢~~

原文地址：https://www.cnblogs.com/dcpeng/p/10427897.html

时间： 2024-11-02 17:14:03

手把手教你如何新建scrapy爬虫框架的第一个项目（下）的相关文章

一个咸鱼的python爬虫之路（五）：scrapy 爬虫框架

介绍一下scrapy 爬虫框架安装方法 pip install scrapy 就可以实现安装了.我自己用anaconda 命令为conda install scrapy. 1 Engine从Spider处获得爬取请求(Request)2Engine将爬取请求转发给Scheduler,用于调度 3 Engine从Scheduler处获得下一个要爬取的请求4 Engine将爬取请求通过中间件发送给Downloader5 爬取网页后,Downloader形成响应(Response)通过中间件发给En

Python之Scrapy爬虫框架安装及简单使用

题记:早已听闻python爬虫框架的大名.近些天学习了下其中的Scrapy爬虫框架,将自己理解的跟大家分享.有表述不当之处,望大神们斧正. 一.初窥Scrapy Scrapy是一个为了爬取网站数据,提取结构性数据而编写的应用框架. 可以应用在包括数据挖掘,信息处理或存储历史数据等一系列的程序中. 其最初是为了页面抓取 (更确切来说, 网络抓取 )所设计的, 也可以应用在获取API所返回的数据(例如 Amazon Associates Web Services ) 或者通用的网络爬虫. 本文档将

手把手教你写电商爬虫-第三课实战尚妆网AJAX请求处理和内容提取

系列教材: 手把手教你写电商爬虫-第一课找个软柿子捏捏手把手教你写电商爬虫-第二课实战尚妆网分页商品采集爬虫看完两篇,相信大家已经从开始的小菜鸟晋升为中级菜鸟了,好了,那我们就继续我们的爬虫课程. 上一课呢一定是因为对手太强,导致我们并没有完整的完成尚妆网的爬虫. 吭吭~,我们这一课继续,争取彻底搞定尚妆网,不留任何遗憾. 我们先回顾一下,上一课主要遗留了两个问题,两个问题都和ajax有关. 1.由于是ajax加载下一页,导致下一页url并不会被系统自动发现. 2.商品页面的价格是通过a

手把手教你写电商爬虫-第五课京东商品评论爬虫一起来对付反爬虫

系列教程: 手把手教你写电商爬虫-第一课找个软柿子捏捏手把手教你写电商爬虫-第二课实战尚妆网分页商品采集爬虫手把手教你写电商爬虫-第三课实战尚妆网AJAX请求处理和内容提取手把手教你写电商爬虫-第四课淘宝网商品爬虫自动JS渲染四节课过去了,咱们在爬虫界也都算见过世面的人,现在再来一些什么ajax加载之类的小鱼小虾应该不在话下了,即使是淘宝这种大量的ajax,我们祭上我们的核武器,也轻松应对了,这一课主要是来看看除了技术上的页面处理外,我们还会遇上更棘手的问题,就是反爬虫,当然现

手把手教你写电商爬虫-第二课实战尚妆网分页商品采集爬虫

系列教程手把手教你写电商爬虫-第一课找个软柿子捏捏如果没有看过第一课的朋友,请先移步第一课,第一课讲了一些基础性的东西,通过软柿子"切糕王子"这个电商网站好好的练了一次手,相信大家都应该对写爬虫的流程有了一个大概的了解,那么这课咱们就话不多说,正式上战场,对垒尚妆网. 首先,向我们被爬网站致敬,没有他们提供数据,我们更是无从爬起,所以先安利一下尚妆网: 经营化妆品时尚购物,大数据为驱动,并依托智能首饰为入口的新一代智慧美妆正品电子商务平台.其创始团队来自天猫.支付宝.欧莱雅.薇姿

Python爬虫教程-31-创建 Scrapy 爬虫框架项目

本篇是介绍在 Anaconda 环境下,创建 Scrapy 爬虫框架项目的步骤,且介绍比较详细 Python爬虫教程-31-创建 Scrapy 爬虫框架项目首先说一下,本篇是在 Anaconda 环境下,所以如果没有安装 Anaconda 请先到官网下载安装 Anaconda 下载地址:https://www.anaconda.com/download/ Scrapy 爬虫框架项目的创建 0.打开[cmd] 1.进入你要使用的 Anaconda 环境 1.环境名可以在[Pycharm]的[Se

【Scrapy】Scrapy爬虫框架的基本用法

Scrapy爬虫框架的基本用法 Scrapy爬虫框架是一个好东西,可以十分简单快速爬取网站,特别适合那些不分离前后端的,数据直接生成在html文件内的网站.本文以爬取杭电OJ http://acm.hdu.edu.cn 的题目ID和标题为例,做一个基本用法的记录可参考 https://www.jianshu.com/p/7dee0837b3d2 安装Scrapy 使用pip安装 pip install scrapy 代码编写建立项目 myspider scrapy startproject

手把手教你写电商爬虫-第四课淘宝网商品爬虫自动JS渲染

系列教程: 手把手教你写电商爬虫-第一课找个软柿子捏捏手把手教你写电商爬虫-第二课实战尚妆网分页商品采集爬虫手把手教你写电商爬虫-第三课实战尚妆网AJAX请求处理和内容提取老规矩,爬之前首先感谢淘宝公布出这么多有价值的数据,才让我们这些爬虫们有东西可以搜集啊,不过淘宝就不用我来安利了广大剁手党相信睡觉的时候都能把网址打出来吧. 工欲善其事,必先利其器,先上工具: 1.神箭手云爬虫,2.Chrome浏览器 3.Chrome的插件XpathHelper 不知道是干嘛的同学请移步第一课

Scrapy爬虫框架第一讲(Linux环境)

1.What is Scrapy? 答:Scrapy是一个使用python语言(基于Twistec框架)编写的开源网络爬虫框架,其结构清晰.模块之间的耦合程度低,具有较强的扩张性,能满足各种需求.(前面我们介绍了使用requests.beautifulsoup.selenium等相当于你写作文题,主要针对的是个人爬虫:而Scrapy框架的出现给了我们一个方便灵活爬虫程序架构,我们只需针对其中的组件做更改,即可实现一个完美的网络爬虫,相当于你做填空题!) 基于Scrapy的使用方便性,下面所有的S

猜你喜欢

Android 最火开发框架 xUtils

xUtils简介 xUtils3 api变化较多, 已转至 https://github.com/wyouflf/xUtils3 xUtils 2.x对Android 6.0兼容不是很好, 请尽快升级 ...

每天一个linux命令12之top

top命令是Linux下常用的性能分析工具,能够实时显示系统中各个进程的资源占用状况,类似于Windows的任务管理器.下面详细介绍它的使用方法.top是一个动态显示过程,即可以通过用户按键来不断刷新 ...

从三栏自适应宽度布局到css布局的讨论

如何实现一个三栏自适应布局,左右各100px,中间随着浏览器宽度自适应? 第一个想到的是使用table布局,设置table的宽度为100%,三个td,第1个和第3个固定宽度为100px,那么中间那个就 ...

ASP.NET Mvc实用框架（一）Ioc、仓储模式和单元工作模式

Framework.EF 首先看一下这个类库: Extended文件夹存放的是EntityFramework.Extensions这个插件的源代码,没有别的原因,就是本人觉得这个插件挺好的,每次省的下 ...

kbengine mmo源码(完整服务端源码+资源+完整客户端源码)

kbengine mmo源码(完整服务端源码+资源+完整客户端源码) PyConsole: display server information. PyConsole: Stop the server ...

JS自定义对象，正则表达式，JQuery中的一些知识点

一:自定义对象 1.基本概念:①对象:包含一系列无序属性和方法的集合.②键值对:对象中的数据是以键值对的形式存在的,以键取值.③属性:描述对象特征的一系列变量.[对象中的变量]④方法:描述对象行为的一 ...

HttpServlet cannot be resolved to a type

Description Resource Path Location TypeHttpServlet cannot be resolved to a type SimpleServlet.java / ...

MvvmLight ToolKit .Net4.5版本 CanExecute不能刷新界面bug

一问题重现 1.在使用最新版本v5.1的MvvmLight中(其实这个问题很早就有了),发现CanExecute不能很好地工作了.一个简单的工程,只有MainWindow和MainWindow ...

hdu1757 A Simple Math Problem

Problem Description Lele now is thinking about a simple function f(x). If x < 10 f(x) = x.If x &g ...

Java测试序列化数据时的计数策略

近日测试中遇到一个需求,要使用程序不断地去监测指定的服务组件是否正在运行,一分钟检测一次,如果发现异常,就要将异常的信息捕获出来,然后记录到日志中,供开发人员排查. 可是在执行的过程中,发现一个问题, ...

CentOS 6.7 如何启用中文输入法

安装CentOS系统后,如何启用中文输入法呢?这个问题看起来简单,但对于Linux初学者来说,也可能不是一件容易的事. 本文笔者和大家分享一下"CentOS 6.7 如何启用中文输入法&qu ...

【总结】利用AWS搭建混合云的架构

下载完整视频:下载完整MP4文件 1.邱洋的理解定义了混合IT架构的概念(因为有些企业本地可能还没有云,但是需要构建云+物理的架构) 混合IT架构是趋势,但最终不是公有云一统天下,而本地IT必然继续 ...

iOS 生成pem证书

openssl pkcs12 -in Certificates.p12 -out Certificates.pem -nodes 需要通过终端命令将这些文件转换为PEM格式:openssl pkcs1 ...

Eclipse中已安装的插件如何卸载

最近在Eclipse中安装了一个插件,导致Eclipse使用的时候有些问题,就找了资料,原来Eclipse中的插件也是可以卸载的. 方法是点击菜单"Help","Inst ...

netcat,nmap常用例子

1,端口扫描端口扫描经常被系统管理员和黑客用来发现在一些机器上开放的端口,帮助他们识别系统中的漏洞. nc -zvn 172.16.160.111 21-25 可以运行在TCP或者UDP模式,默认是 ...

[转载]js中return的用法

一.返回控制与函数结果,语法为:return 表达式; 语句结束函数执行,返回调用函数,而且把表达式的值作为函数的结果二.返回控制,无函数结果,语法为:return; 在大多数情况下,为事件处理函 ...

【SSH2（理论+实践）】--图说Struts2的执行

前几篇文章讨论了有关Struts2的核心机制及一些基础,但同一时候也遗留下了非常多问题.这些问题主要是针对Struts2的一些使用技巧的,该篇文章将会针对Struts2的使用技巧进行讨论, ...

JAVA微信开发之weixin4j入门视频

weixin4j入门公开课视频第一课<weixin4j入门视频-新手接入> 视频下载地址: http://pan.baidu.com/s/1o63MdPw 第二课<weixin4j ...

浅谈身为小白学习Linux系统的四点实用建议

游戏.办公.安全,可以总结为是方便当代人们在生活中的刚需,我们大都是这些服务的使用者,而把单个功能整合起来那就必须谈到互联网,自然而然通过互联网要将Service发送给Service manageme ...

BZOJ 3527: [Zjoi2014]力 FFT

3527: [Zjoi2014]力 Description 给出n个数qi,给出Fj的定义如下: 令Ei=Fi/qi,求Ei. Input 第一行一个整数n. 接下来n行每行输入一个数,第i行表示qi ...

专题

随机推荐

© 2024 憋错料 | info#biecuoliao.com | 10 q. 0.021 s.