关于在使用scrapy-redis分布式踩过的那些坑:

自己的案列:win7上安装ubuntu (win7作为slaver,ubuntu作为master )

修改配置文件redis.conf

1)打开配置文件把下面对应的注释掉

# bind 127.0.0.1

2)Redis默认不是以守护进程的方式运行,可以通过该配置项修改,设置为no

daemonize no

3)保护模式

protected-mode no

关键的一步:ubuntu终端命令中重启redis服务的时候如下操作:

redis-server redis.conf

在win7上安装RedisDesktopManage查看ubuntur  Redis数据库 (连接方法:完成以上1,2,3即可连接 注意:ubuntu的网络适配器要选择桥接模式。)

在编写爬虫的时候:

发现这样写域名的范围会报错(在ubuntu中push url后爬虫没有爬取数据):

#动态域范围的获取def __init__(self, *args, **kwargs):    # Dynamically define the allowed domains list.    domain = kwargs.pop(‘domain‘, ‘‘)    self.allowed_domains = filter(None, domain.split(‘,‘))    super(MySpider, self).__init__(*args, **kwargs)

而这样写不会报错:

allowed_domains = ["xxx.com"]

在爬虫的settings.py中指明主机地址以及端口号

如:

REDIS_HOST = ‘x.x.x.x‘ 主机地址(ubuntu IP地址)
REDIS_PORT = 6379

时间: 2024-07-30 02:22:38

关于在使用scrapy-redis分布式踩过的那些坑:的相关文章

美团在Redis上踩过的一些坑-目录(本人非美团)(转)

来自:http://carlosfu.iteye.com/blog/2254154 分为5个部分: 一.周期性出现connect timeout 二.redis bgrewriteaof问题 三.redis内存占用飙升 四.redis内存使用优化 五.redis cluster遇到的一些问题 附赠PPT: (1) 本次:美团在Redis上踩过的一些坑PPT (2) 以往:<Redis在新浪的大规模运维经验>-演讲人:侯军伟新浪高级DBA.pdf 美团数据库运维平台介绍.pdf

Redis上踩过的一些坑

来自: http://blog.csdn.net//chenleixing/article/details/50530419 上上周和同事(龙哥)参加了360组织的互联网技术训练营第三期,美团网的DBA负责人侯军伟给大家介绍了美团网在redis上踩得一些坑,讲的都是干货和坑. 分为5个部分: 一. 周期性出现connect timeout 二.redis bgrewriteaof问题 三.redis内存占用飙升 四.redis内存使用优化 五.redis cluster遇到的一些问题 一.周期性

美团在Redis上踩过的一些坑-3.redis内存占用飙升(转载)

一.现象: redis-cluster某个分片内存飙升,明显比其他分片高很多,而且持续增长.并且主从的内存使用量并不一致. 二.分析可能原因: 1.  redis-cluster的bug (这个应该不存在) 2. 客户端的hash(key)有问题,造成分配不均.(redis使用的是crc16, 不会出现这么不均的情况) 3. 存在个别大的key-value: 例如一个包含了几百万数据set数据结构(这个有可能) 4. 主从复制出现了问题. 5. 其他原因 三.调查原因: 1. 经查询,上述1-4

Redis分布式解决方案-Coids

Codis 是一个分布式 Redis 解决方案, 对于上层的应用来说, 连接到 CodisProxy 和连接原生的 Redis Server 没有明显的区别 (不支持的命令列表), 上层应用可以像使用单机的 Redis 一样使用, Codis 底层会处理请求的转发, 不停机的数据迁移等工作, 所有后边的一切事情, 对于前面的客户端来说是透明的, 可以简单的认为后边连接的是一个内存无限大的 Redis 服务. Codis 由四部分组成: Codis Proxy   (codis-proxy)  实

j2ee分布式架构 dubbo + springmvc + mybatis + ehcache + redis 分布式架构

介绍 <modules>        <!-- jeesz 工具jar -->        <module>jeesz-utils</module>        <!-- jeesz 公共配置jar -->        <module>jeesz-config</module>        <!-- jeesz 核心框架jar -->        <module>jeesz-framew

{精华}分布式、微服务、云架构dubbo+zookeeper+springmvc+mybatis+shiro+redis分布式大型互联网企业架构

摘要: Jeesz主要定位于互联网企业架构,已内置企业信息化系统的基础功能和高效的代码生成工具,包括:系统权限组件.数据权限组件.数据字典组件.核心工具 组件.视图操作组件.工作流组件.代码生成等.采用分层设计.双重验证.提交数据安全编码.密码加密.访问验证.数据权限验证. 平台简介 Jeesz是一个分布式的框架,提供项目模块化.服务化.热插拔的思想,高度封装安全性的Java EE快速开发平台. Jeesz本身集成Dubbo服务管控.Zookeeper注册中心.Redis分布式缓存技术.Fast

基于redis分布式缓存实现(新浪微博案例)

第一:Redis 是什么? Redis是基于内存.可持久化的日志型.Key-Value数据库 高性能存储系统,并提供多种语言的API. 第二:出现背景 数据结构(Data Structure)需求越来越多, 但memcache中没有, 影响开发效率 性能需求, 随着读操作的量的上升需要解决,经历的过程有: 数据库读写分离(M/S)–>数据库使用多个Slave–>增加Cache (memcache)–>转到Redis 解决写的问题: 水平拆分,对表的拆分,将有的用户放在这个表,有的用户放在

安装python爬虫scrapy踩过的那些坑和编程外的思考

这些天应朋友的要求抓取某个论坛帖子的信息,网上搜索了一下开源的爬虫资料,看了许多对于开源爬虫的比较发现开源爬虫scrapy比较好用.但是以前一直用的java和php,对python不熟悉,于是花一天时间粗略了解了一遍python的基础知识.然后就开干了,没想到的配置一个运行环境就花了我一天时间.下面记录下安装和配置scrapy踩过的那些坑吧. 运行环境:CentOS 6.0 虚拟机 开始上来先得安装python运行环境.然而我运行了一下python命令,发现已经自带了,窃(大)喜(坑).于是go

【Fine原创】JMeter分布式测试中踩过的那些坑

最近因为项目需要,研究了性能测试的相关内容,并且最终选用了jmeter这一轻量级开源工具.因为一直使用jmeter的GUI模式进行脚本设计,到测试执行阶段工具本身对资源的过量消耗给性能测试带来了瓶颈,一般线程加到100左右就会出现工具本身无法支撑的问题,广泛了解解决办法后,发现分布式部署测试机仍是首选方案. 关于如何配置jmeter分布式部署测试机很多博客上已经描述得很详细了,这里就不再赘述,可以参考虫师的博客: http://www.cnblogs.com/fnng/archive/2012/