Python之定向爬虫Scrapy

1.Scrapy介绍

Scrapy，Python开发的一个快速,高层次的屏幕抓取和web抓取框架，用于抓取web站点并从页面中提取结构化的数据。Scrapy用途广泛，可以用于数据挖掘、监测和自动化测试。
Scrapy吸引人的地方在于它是一个框架，任何人都可以根据需求方便的修改。它也提供了多种类型爬虫的基类，如BaseSpider、sitemap爬虫等。

2.Scrapy安装(http://www.cnblogs.com/txw1958/archive/2012/07/12/scrapy_installation_introduce.html)

1)安装libxml2：

官方主页：http://users.skynet.be/sbi/libxml-python/http://pypi.python.org/pypi/pyOpenSSL

下载地址：http://users.skynet.be/sbi/libxml-python/binaries/libxml2-python-2.7.7.win32-py2.7.exe

2) 安装Zope.Interface

官方主页：http://pypi.python.org/pypi/zope.interface/

下载地址：http://pypi.python.org/packages/2.7/z/zope.interface/zope.interface-4.0.1-py2.7-win32.egg

3) 安装Twisted

官方主页：http://twistedmatrix.com/trac/wiki/TwistedProject

下载地址：http://pypi.python.org/packages/2.7/T/Twisted/Twisted-12.1.0.win32-py2.7.msi

输入命令：pip install scrapy

4) 安装pyOpenSSL

官方主页：http://pypi.python.org/pypi/pyOpenSSL

下载地址：http://pypi.python.org/packages/2.7/p/pyOpenSSL/pyOpenSSL-0.13.winxp32-py2.7.msi

5)安装pywin32

下载地址：https://sourceforge.net/projects/pywin32/files/pywin32/

6)安装Scrapy

官方主页：http://scrapy.org/

下载地址：http://pypi.python.org/packages/source/S/Scrapy/Scrapy-0.14.4.tar.gz

时间： 2024-10-08 20:07:23

Python之定向爬虫Scrapy的相关文章

python之路 -- 爬虫 -- Scrapy入门

Scrapy Scrapy 是一个为了爬取网站数据,提取结构性数据而编写的应用框架. 其可以应用在数据挖掘,信息处理或存储历史数据等一系列的程序中.其最初是为了页面抓取 (更确切来说, 网络抓取 )所设计的, 也可以应用在获取API所返回的数据(例如 Amazon Associates Web Services ) 或者通用的网络爬虫.Scrapy用途广泛,可以用于数据挖掘.监测和自动化测试. 下面是Scrapy的架构,包括组件以及在系统中发生的数据流的概览(绿色箭头所示). 数据流 Scra

python爬虫scrapy框架——人工识别登录知乎倒立文字验证码和数字英文验证码(2)

操作环境:python3 在上一文中python爬虫scrapy框架--人工识别登录知乎倒立文字验证码和数字英文验证码(1)我们已经介绍了用Requests库来登录知乎,本文如果看不懂可以先看之前的文章便于理解本文将介绍如何用scrapy来登录知乎. 不多说,直接上代码: import scrapy import re import json class ZhihuSpider(scrapy.Spider): name = 'zhihu' allowed_domains = ['www.zhi

Python定向爬虫实战

转载请注明原文地址:http://www.cnblogs.com/ygj0930/p/7019963.html 一:requests模块介绍 requests是第三方http库,可以十分方便地实现python的网络连接,完美替代了urllib2模块. 二:实战使用requests实现定向爬虫需要两步:首先使用requests获取目标网页的源代码:然后使用requests与正则表达式从中提取信息. 1:获取源码获取源码有两种方式: 使用requests.get(url).text可以直接获取无

定向爬虫 - Python模拟新浪微博登录

写在前面当我们试图从新浪微博抓取数据时,我们会发现网页上提示未登录,无法查看其他用户的信息. 模拟登录是定向爬虫制作中一个必须克服的问题,只有这样才能爬取到更多的内容. 实现微博登录的方法有很多,一般我们在模拟登录时首选WAP版. 因为PC版网页源码中包括很多的js代码,提交的内容也更多,不适合机器模拟登录. 我们实现微博登录的大体思路是这样的: 用抓包工具把正常登录时要提交的字段都记录下来. 模拟提交这些字段. 判断是否登录成功. 原理很简单,让我们一步一步来实现吧. 一.抓包利器Fiddl

安装python爬虫scrapy踩过的那些坑和编程外的思考

这些天应朋友的要求抓取某个论坛帖子的信息,网上搜索了一下开源的爬虫资料,看了许多对于开源爬虫的比较发现开源爬虫scrapy比较好用.但是以前一直用的java和php,对python不熟悉,于是花一天时间粗略了解了一遍python的基础知识.然后就开干了,没想到的配置一个运行环境就花了我一天时间.下面记录下安装和配置scrapy踩过的那些坑吧. 运行环境:CentOS 6.0 虚拟机开始上来先得安装python运行环境.然而我运行了一下python命令,发现已经自带了,窃(大)喜(坑).于是go

python爬虫---->scrapy的使用(一)

这里我们介绍一下python的分布式爬虫框架scrapy的安装以及使用.平庸这东西犹如白衬衣上的污痕,一旦染上便永远洗不掉,无可挽回. scrapy的安装使用我的电脑环境是win10,64位的.python版本是3.6.3.以下是安装以及学习scrapy的第一个案例. 一.scrapy的安装准备直接运行以下命令 pip install scrapy 由于我的电脑上面没有安装Microsoft Visual C++ 14.0.会出现如下的错误. building 'twisted.test.r

Python爬虫Scrapy(二)_入门案例

本章将从案例开始介绍python scrapy框架,更多内容请参考:python学习指南入门案例学习目标创建一个Scrapy项目定义提取的结构化数据(Item) 编写爬取网站的Spider并提取出结构化数据(Item) 编写Item Pipelines来存储提取到的Item(即结构化数据) 一.新建项目(scrapy startproject) 在开始爬取之前,必须创建一个新的Scrapy项目.进入自定义的项目目录中,运行下列命令: scrapy startproject cnblogS

python爬虫Scrapy(一)-我爬了boss数据

一.概述学习python有一段时间了,最近了解了下Python的入门爬虫框架Scrapy,参考了文章Python爬虫框架Scrapy入门.本篇文章属于初学经验记录,比较简单,适合刚学习爬虫的小伙伴. 这次我选择爬取的是boss直聘来数据,毕竟这个网站的数据还是很有参考价值的,下面我们讲述怎么爬取boss直聘的招聘信息并存盘,下一篇文章我们在对爬取到的数据进行分析. 二.Scrapy框架使用步骤下面我们做一个简单示例,创建一个名字为BOSS的爬虫工程,然后创建一个名字为zhipin的爬虫

python爬虫Scrapy框架之中间件

Downloader Middleware处理的过程主要在调度器发送requests请求的时候以及网页将response结果返回给spider的时候, 所以说下载中间件是结余Scrapy的request/response处理的钩子, 用于修改Scrapy request和response. 编写自己的下载器中间件 : 编写下载器中间件, 需要定义下一或者多个方法的python类新建一个关于爬取httpbin.org网站的项目 scrapy startproject httpbintest cd

猜你喜欢

Myeclipse中的web项目审查（jquery-2.1.1.min.js）出现错误

前言,本来在把web项目搞得好看一些,从网上下载了一个很炫酷的模板导入web中,无奈出现了错误,如下: 老出现这个错误,网上查了一下错误原因和解决办法:错误的出现是因为我的版本还是myeclipse1 ...

setTimeout 与 setInterval

最新写代码中时,看到项目中有人用到了 setTimeout(fun,0),于是想总结一下.个人理解,如果有错误的地方还请指出.THX 要想理解JavaScript的定时器是如何工作的,先要明白 Jav ...

Java-按行+限定条件分割文本

package First; import java.io.BufferedReader; import java.io.File; import java.io.FileReader; import ...

笔记8(日常运维w、vmstat、top、sar、nload、free、ps、netstat、tcptump、Linux防火墙）

w查看系统负载 date 查看当前系统的时间 w出来的,第一行从左面开始显示的信息依次为:时间,系统运行时间,登录用户数,平均负载.第二行开始以及下面所有的行,告诉我们的信息是,当前登录的都有哪些用户 ...

Elasticsearch分组聚合-查询每个A_logtype下有多少数据

Elasticsearch分组聚合 1.查询指定索引下每个A_logtype有多少数据 curl -XPOST 'localhost:19200/ylchou-0-2015-10-07/_search ...

程序员去美国工作：六月七日程序员赴美交流活动

程序猿如何快速赴美?小透明照样能进名企?不加班也能拿到国内三倍薪水?额,想问的太多... 还是请已经奋斗在美帝的师兄师姐们来为你答疑解惑吧!6月7日线上交流活动,新近入职亚马逊的May等你来拷问,约吗 ...

创建型-抽象工厂模式学习

1.抽象工厂模式的意图: 提供一个创建一系列相关或相互依赖对象的接口,而无需指定它们具体的类. 2.抽象工厂模式的适用性: 一个系统要独立于它的产品的创建.组合和表示时. 一个系统要由多个产品系列中的 ...

电视选购－理清专业用词基本概念（仅参考）

参考:https://sanwen8.cn/p/2b5yt9O.html 对基本概念进行理清 1.屏幕的材质:影响屏幕色彩表现力和细腻程度 ,分以下两种 LCD(液晶显示器)LCD(Liquid Cr ...

Myeclipse运行报错：an out of memory error has occurred的解决方法

不知道怎么了,重装的myeclipse2013,里边就放了一个项目,启动myeclipse就报 an out of memory error has occurred....... 一点yes就退出 ...

Ajax 学习之动态获取，返回服务器的值

<%@ page language="java" contentType="text/html; charset=UTF-8" pageEncoding= ...

学习 Github Page 教你分分钟搭建自己的博客

http://weibo.com/2015.10.19/p/2308373899482520564924 http://weibo.com/p/2308373899482520564924 http: ...

Bat 多个执行操作选择

Bat在日常编程中使用到会帮我们省去很多力气. @echo off Title DataBase Color 0A :caozuo echo. echo ═══════════════════════ ...

洛谷 P1197 [JSOI2008]星球大战

题目描述很久以前,在一个遥远的星系,一个黑暗的帝国靠着它的超级武器统治者整个星系.某一天,凭着一个偶然的机遇,一支反抗军摧毁了帝国的超级武器,并攻下了星系中几乎所有的星球.这些星球通过特殊的以太隧道 ...

C#与JavaScript互相调用

1.C#调用JavaScript (1)准备好JavaScript函数 <script type="text/javascript"> function say() { ...

Eclipse中Git插件还原文件

如果修改了某个文件并未提交至本地库(add index),那么怎么还原呢?Git插件中并不像Svn插件直接提供有还原方式.其实无论是否提交至本地库或者远程库,还原操作的本质都是将文件的当前版本还原至 ...

用js实现体彩七位数

1 <!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.or ...

修复损坏的gzip压缩文件之原理篇

引言:UNIX/LINUX下大多数都是用gzip格式来做文件的压缩方案的,而gzip文件损坏的情况也屡见不鲜,常见的有遇到坏扇区.压缩进程io阻塞,或恢复后的压缩文件被破坏等.因近期有做关于gzip文 ...

做动画的一大接口 requestAnimationFrame

要实现动画效果,可以有以下几种实现: 1.setInterval setTimeout 2.css3 transition 3.requestAnimationFrame requestAnimati ...

setdefault和defaultdict

setdefault和defaultdict #setdefault periodic_table = {'Hydrogen': 1, 'Helium': 2} carbon = periodic_t ...

[Android] 环境配置之Android Studio开发NDK

======================================================== 作者:qiujuer 博客:blog.csdn.net/qiujuer 网站:www. ...

专题

随机推荐

© 2024 憋错料 | info#biecuoliao.com | 10 q. 0.046 s.