初次接触scrapy框架

初次接触这个框架,先订个小目标,抓取QQ首页,然后存入记事本。

安装框架(http://scrapy-chs.readthedocs.io/zh_CN/0.24/intro/install.html)

创建一个项目,项目根目录输入

scrapy startproject tutorial

在spiders文件夹下面新建一个qq_spider.py,写入内容如下:

import scrapy

class DmozSpider(scrapy.Spider):
    name = "dmoz"
    allowed_domains = ["qq.com"]
    start_urls = [
        "http://www.qq.com/"
    ]

    def parse(self, response):
        filename = response.url.split("/")[-2]
        with open(filename + ".txt", ‘wb‘) as f:
            f.write(response.body)

项目根目录输入命令:

scrapy crawl dmoz

抓取到的QQ首页的页面:

时间: 2024-09-30 13:20:35

初次接触scrapy框架的相关文章

一个令人着迷的爬虫框架——Scrapy框架!

在平常的知识传播中,我经常遇到许多的小伙伴说,Python爬虫还厉害喔,我想学,或者是我已经初学了Python,但是爬虫还是没有接触,能教教我吗?看到小伙伴有如此热情,我决定来带大家探讨探讨Python爬虫! 在探讨爬虫之前,我们首先来带大家了解下 Scrapy 框架,我们先来解答三个问题:什么是 Scrapy 框架呢?它有什么作用呢?为什么需要使用它?(这个有基础的想必解答不难) 如果大家在学习Python的路上,或者打算学习Python需要学习资料,可以私信小编发送1314,小编将免费赠送大

Python爬虫从入门到放弃(十一)之 Scrapy框架整体的一个了解

这里是通过爬取伯乐在线的全部文章为例子,让自己先对scrapy进行一个整理的理解 该例子中的详细代码会放到我的github地址:https://github.com/pythonsite/spider/tree/master/jobboleSpider 注:这个文章并不会对详细的用法进行讲解,是为了让对scrapy各个功能有个了解,建立整体的印象. 在学习Scrapy框架之前,我们先通过一个实际的爬虫例子来理解,后面我们会对每个功能进行详细的理解.这里的例子是爬取http://blog.jobb

windows下scrapy框架学习笔记—'scrapy' 不是内部或外部命令

最近几天在深入的学习scrapy框架,但是装完各种需要的基础包之后却发现scrapy命令在别的路径下都用不了,我一开始是把python安装在F:\Python路径下的,安装了scrapy后它默认都会安装在这个路径下,scrapy在路径F:\Python\Scripts路径下,我的scrapy命令只能在此路径下用,因此创建什么工程也都只能在此文件下. 想了一下它的工作原理:它在F:\Python\Scripts路径下,就会在Scripts文件下存在一个scrapy批处理文件,那么在DOS下想要命令

c++中类的初次接触

下面是我写的简单的代码,初次接触c++中的类,c++真的是博大精深啊,学习c++的路还很长,加油! 1 /*q1.cpp*/ 2 //一个简单的类极其实例化 3 #include<iostream> 4 using namespace std; 5 6 class Point{ 7 public: 8 //设置坐标 9 void setPoint(int x,int y){ 10 xPos = x; 11 yPos = y; 12 } 13 //打印坐标 14 void printPoint(

Python爬虫进阶三之Scrapy框架安装配置

初级的爬虫我们利用urllib和urllib2库以及正则表达式就可以完成了,不过还有更加强大的工具,爬虫框架Scrapy,这安装过程也是煞费苦心哪,在此整理如下. Windows 平台: 我的系统是 Win7,首先,你要有Python,我用的是2.7.7版本,Python3相仿,只是一些源文件不同. 官网文档:http://doc.scrapy.org/en/latest/intro/install.html,最权威哒,下面是我的亲身体验过程. 1.安装Python 安装过程我就不多说啦,我的电

初次接触JQuery

初次接触JQuery 1. 综述 JQuery,是一个JavaScript库,给JavaScript开发带来了极大的便利.它有以下好处:减少了JavaScript的代码量:分离了JavaScript和HTML,在页面里只需要定义id即可:方便地为网站提供Ajax交互. 2. JQuery代码 2.1 函数调用 $(this).hide(); 对当前HTML元素,调用hide函数,即隐藏他. $("p").hide(); 对所有的<p>元素,调用hide函数,即隐藏他. $(

scrapy框架设置代理

网易音乐在单ip请求下经常会遇到网页返回码503的情况经查询,503为单个ip请求流量超限,猜测是网易音乐的一种反扒方式因原音乐下载程序采用scrapy框架,所以需要在scrapy中通过代理的方式去解决此问题在scrapy中使用代理,有两种使用方式 1.使用中间件2.直接设置Request类的meta参数 下面依次简要说明下如何使用 方式一:使用中间件要进行下面两步操作 在文件 settings.py 中激活代理中间件ProxyMiddleware在文件 middlewares.py 中实现类P

[Docker]初次接触

Docker 初次接触 近期看了不少docker介绍性文章,也听了不少公开课,于是今天去官网逛了逛,发现了一个交互式的小教程于是决定跟着学习下. 仅仅是把认为重点的知识记录下来,不是非常系统的学习和笔记. 理论部分 Docker 引擎包括了两个部分,一个守护进程作为server端来管理全部的容器. 一个client.能够远程来控制服务端. Docker有公共的云端仓库 Docker Hub Registry.里面有能够使用的镜像 你能够觉得容器containers就是沙箱box中的一个进程.这个

python爬虫scrapy框架——人工识别登录知乎倒立文字验证码和数字英文验证码(2)

操作环境:python3 在上一文中python爬虫scrapy框架--人工识别登录知乎倒立文字验证码和数字英文验证码(1)我们已经介绍了用Requests库来登录知乎,本文如果看不懂可以先看之前的文章便于理解 本文将介绍如何用scrapy来登录知乎. 不多说,直接上代码: import scrapy import re import json class ZhihuSpider(scrapy.Spider): name = 'zhihu' allowed_domains = ['www.zhi