Python Scrapy初步使用

1、创建爬虫工程

scrapy startproject stockproject001

2、创建爬虫项目

cd stockproject001

scrapy genspider stockinfo quote.eastmoney.com

3、定义数据项或数据字段

打开 items.py,输入:

4、定义爬取规则

打开stockinfo.py,输入:

5、定义数据处理管道

打开pipelines.py,输入:

6、启用爬虫项目

打开settings.py,修改:

7、执行爬虫

scrapy crawl stockinfo --nolog

--nolog不看日志

.....................

时间: 2024-08-15 02:00:42

Python Scrapy初步使用的相关文章

Python Scrapy 自动爬虫注意细节

一.首次爬取模拟浏览器 在爬虫文件中,添加start_request函数.如: def start_requests(self): ua = {"User-Agent": 'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/53.0.2785.104 Safari/537.36 Core/1.53.2050.400 QQBrowser/9.5.10169.400'} yie

Python.Scrapy.14-scrapy-source-code-analysis-part-4

Scrapy 源代码分析系列-4 scrapy.commands 子包 子包scrapy.commands定义了在命令scrapy中使用的子命令(subcommand): bench, check, crawl, deploy, edit, fetch, genspider, list, parse, runspider, settings, shell, startproject, version, view. 所有的子命令模块都定义了一个继承自 类ScrapyCommand的子类Comman

python Scrapy安装

python Scrapy安装和介绍 Windows7下安装1.执行easy_install Scrapy Centos6.5下安装 1.库文件安装yum install libxslt-devel libxml2-devel 2.将系统自带python2.6的easy_install备份,使用python2.7.10升级后的easy_install mv /usr/bin/easy_install /usr/bin/easy_install_2.6 ln -s /usr/local/pytho

python scrapy cannot import name xmlrpc_client的解决方案,解决办法

安装scrapy的时候遇到如下错误的解决办法: "python scrapy cannot import name xmlrpc_client" 先执行 sudo pip uninstall six 再执行 sudo easy_install six 验证是否解决: scrapy

Python.Scrapy.11-scrapy-source-code-analysis-part-1

Scrapy 源代码分析系列-1 spider, spidermanager, crawler, cmdline, command 分析的源代码版本是0.24.6, url: https://github.com/DiamondStudio/scrapy/blob/0.24.6 如github 中Scrapy 源码树所示,包含的子包有: commands, contracts, contrib, contrib_exp, core, http, selector, settings, templ

Python scrapy 实现网页爬虫

Python scrapy 安装和网页爬虫功能实现 现在组内有个工作就是维护恶意URL库,然后这个维护工作,主要是通过从几个会发布恶意URL地址的网站获取恶意网址,每次都得花费半天,很乏味的事情.所以就想到能否用个爬虫搞定. 这两天研究了下python scrapy,发现利用scrapy的确很容易实现网址爬取功能. 一.scrapy安装 简单的说明一下scrapy的安装过程 window安装 先安装python,要提醒一下是环境变量的配置,只有环境变量配置对了,才能在命令行执行窗口找到pytho

Python的初步了解

从今天开始呢, 我要坚持每一周都写一篇博客,算是对自己一周的学习总结和知识的回顾.这样可以加深对于学习的认识和理解,从小语文什么的就不怎么好,但是我不是写小说和诗词什么的,所以有的时候措词不怎么好,还请大家多多包容和谅解,3Q!!!  我也是偶然才接触到Python这个语言,虽然我是一个学计算机的出身,但是真的是2016年年底的时时候这么对Python有了兴趣.我才在我的好奇下开始对Python进行了初步的了解,我看了Python的初步介绍才知道我和Python还是有一些缘分的.  Python

天气提醒邮件服务器(python + scrapy + yagmail)

天气提醒邮件服务器(python + scrapy + yagmail) 项目地址: https://gitee.com/jerry323/weatherReporter 前段时间因为xxx上班有时候忘记带伞,就写了这个通过发送邮件提醒天气的东西.其实目前还是有点小问题,暂时也还没花精力来维护(够用就行).项目不涉及到数据库的东西,就是简单的爬虫+邮件服务器,代码拙劣. 下面讲讲大概的想法吧. 在阿里云租了一台服务器不知道该怎么使用比较好,便慢慢产生了做一个天气提醒服务的想法.本来希望使用短信提

Python Scrapy爬虫(上)

Python Scrapy爬虫 预备知识: 1.Scrapy框架:是用纯Python实现一个为了爬取网站数据.提取结构性数据而编写的应用框架. 2.Scrapy去重原理:Scrapy本身自带有一个中间件.scrapy源码中可以找到一个dupefilters.py去重器,需要将dont_filter设置为False开启去重,默认是True,没有开启去重. 3.指纹去重:对于每一个URL的请求,调度器都会根据请求得相关信息加密得到一个指纹信息,并且将该URL的指纹信息和set()集合中的指纹信息进行