Scrapy使用问题整理(转载)

转载自:http://blog.csdn.net/heu07111121/article/details/50832999

最近尝试使用Scrapy进行数据抓取,并尝试在windows7 64位系统上安装scrapy,下面总结记录遇到两个问题和解决方法:

scrapy官网的地址为:http://scrapy.org/

1、首先按照官网的说明,直接pip安装scrapy,报以下错误,提示缺少VC++9.0,报错信息有给出具体的说明和解决方法。

>>pip install scrapy

error: Microsoft Visual C++ 9.0 is required (Unable to find vcvarsall.bat). Get it from http://aka.ms/vcpython27

解决方法:直接点击下载VCForPython27.msi,也直接访问下面的连接https://www.microsoft.com/en-us/download/details.aspx?id=44266

2、下载并安装VCForPython27.msi,然后再运行pip install scrapy,再次报错,提示找不到libxml2库。

>>pip install scrapy

c:\users\zjn3645\appdata\local\temp\xmlXPathInit7hkp2z.c(1) : fatal error C1083: Cannot open include file: ‘libxml/xpath.h‘: No such file or directory

*********************************************************************************

Could not find function xmlCheckVersion in library libxml2. Is libxml2 installed?

*********************************************************************************

error: command ‘C:\\Users\\zjn3645\\AppData\\Local\\Programs\\Common\\Microsoft\\Visual C++ for Python\\9.0\\VC\\Bin\\cl.exe‘ failed with exit status 2

解决方法:

使用easy_install安装lxml,然后再次安装pip install scrapy,成功~

>>easy_install lxml

 

3、scrapy安装完成,运行官网首页的样例报错,原因是缺少pywin32

>>scrapy runspider myspider.py

exceptions.ImportError: No module named win32api

2016-03-09 10:17:49 [twisted] CRITICAL:

解决方法:按照官方文档的说明安装

Install pywin32 from https://sourceforge.net/projects/pywin32/files/pywin32/

这里有详细的说明http://doc.scrapy.org/en/latest/intro/install.html#intro-install-platform-notes

pywin32有32位和64位版本,

对于64位的windows 7,如果python环境变量已经正确安装,pywin32安装的时候仍然报找不到python的错误,尝试pywin32的32位版本。

总结:在安装和使用新的工具之前一定要先看看官方文档的说明,搞清楚安装和使用的前提条件!

4、关闭代理

默认使用代理,有些网页使用本地代理无法访问!

2016-03-09 15:18:21 [scrapy] DEBUG: Telnet console listening on 127.0.0.1:6023

2016-03-09 15:18:21 [scrapy] DEBUG: Crawled (403) <GET http://xxx.com.cn/xxx.html>

(referer: None)

2016-03-09 15:18:21 [scrapy] DEBUG: Ignoring response <403 http://xxx.com.cn/xxx.html>: HTTP status code is not handled or not allowed

关闭代理

修改settings.py如下

DOWNLOADER_MIDDLEWARES = {

    ‘scrapy.downloadermiddlewares.useragent.UserAgentMiddleware‘: None,

}

时间: 2024-10-06 08:35:22

Scrapy使用问题整理(转载)的相关文章

http连接优化与浏览器允许的并发请求资源数相关资料(整理转载)

网页性能优化相关资料: https://developer.yahoo.com/performance/rules.html#page-nav 前端技术的逐渐成熟,还衍生了domain hash, cookie free, css sprites, js/css combine, max expires time, loading images on demand等等技术.这些技术的出现和大量使用都和并发资源数有关. 按照普通设计,当网站cookie信息有1 KB.网站首页共150个资源时,用户

基于.NET平台常用的框架整理[转载]

自从学习.NET以来,优雅的编程风格,极度简单的可扩展性,足够强大开发工具,极小的学习曲线,让我对这个平台产生了浓厚的兴趣,在工作和学习中也积累了一些开源的组件,就目前想到的先整理于此,如果再想到,就继续补充这篇日志,日积月累,就能形成一个自己的组件经验库. 分布式缓存框架: Microsoft Velocity:微软自家分布式缓存服务框架. Memcahed:一套分布式的高速缓存系统,目前被许多网站使用以提升网站的访问速度. Redis:是一个高性能的KV数据库. 它的出现很大程度补偿了Mem

VS编译duilib项目时候的错误解决方法整理(转载)

转载自:http://blog.csdn.net/x356982611/article/details/30217473 @1:找不到Riched20.lib 用everything等软件搜索下磁盘,找到所在的目录添加到vs的库目录即可,我得是C:\Program Files (x86)\Microsoft SDKs\Windows\v7.1A\Lib:其他的vs版本可能不一样,自行搜索 @2: “IDispatchEx”: 重定义:不同的基类型 点击打开链接 UIFlash.h行 1 #imp

scrapy框架 简易整理

- scrapy框架  介绍:大而全的爬虫组件.        安装:            - Win:                下载:http://www.lfd.uci.edu/~gohlke/pythonlibs/#twisted                                pip3 install wheel                 pip install Twisted?18.4.0?cp36?cp36m?win_amd64.whl          

log4j和commons- logging(好文整理转载)

一 :为什么同时使用commons-logging和Log4j?为什么不仅使用其中之一? Commons-loggin的目的是为 “所有的Java日志实现”提供一个统一的接口,它自身的日志功能平常弱(只有一个简单的SimpleLog?),所以一般不会单独使用它.Log4j的 功能非常全面强大,是目前的首选.我发现几乎所有的Java开源项目都会用到Log4j,但我同时发现,所有用到Log4j的项目一般也同时会用到 commons-loggin.我想,大家都不希望自己的项目与Log4j绑定的太紧密吧

Android控件属性大全[整理转载]

控件属性: android属性 Android功能强大,界面华丽,但是众多的布局属性就害苦了开发者,下面这篇文章结合了网上不少资料, 第一类:属性值为true或falseandroid:layout_centerHrizontal??水平居中 (Hrizontal表示水平)android:layout_centerVertical???垂直居中 (Vertiacl表示垂直)android:layout_centerInparent????相对于父元素完全居中android:layout_alig

js DOM Element属性和方法整理----转载

节点操作,属性 1. childNodes.children 这两个属性获取到的子节点会根据浏览器的不同而不同的,所以一定要判断下nodeType是否为1. childNodes获取到的是NodeList children获取到的是HTMLCollection NodeList and HTMLCollection 他们都提供了name(Number index)方法用来索引元素,可以直接用[index]来引用: 他们的区别在于NodeList没有提供namedItem(String name)

常用meta整理[转载]

< meta > 元素 概要 标签提供关于HTML文档的元数据.元数据不会显示在页面上,但是对于机器是可读的.它可用于浏览器(如何显示内容或重新加载页面),搜索引擎(关键词),或其他web 服务. ——W3School 必要属性 可选属性 SEO优化 参考文档 页面关键词,每个网页应具有描述该网页内容的一组唯一的关键字.使用人们可能会搜索,并准确描述网页上所提供信息的描述性和代表性关键字及短语.标记内容太短,则搜索引擎可能不会认为这些内容相关.另外标记不应超过 874 个字符. <met

CSSOM视图模式(CSSOM View Module)相关整理(转载)

原文地址 http://www.zhangxinxu.com/wordpress/?p=1907 一.Window视图属性 这些属性可以hold住整个浏览器窗体大小.微软则将这些API称为“Screenview 接口”.包括: innerWidth 属性和 innerHeight 属性 pageXOffset 属性和 pageYOffset 属性 screenX 属性和 screenY 属性 outerWidth 属性和 outerHeight 属性 相关属性组对应的兼容性以及使用见下面. 1.