传送门:http://blog.csdn.net/feifly329/article/details/49702063
爬取网站图片时,无法抓取.
在 setting.py 文件中 设置 日志 记录等级
LOG_LEVEL= ‘DEBUG‘
LOG_FILE =‘log.txt‘
查看日志 发现报
2017-08-26 15:00:45 [scrapy] DEBUG: Filtered offsite request to ‘movie.mtime.com‘: <GET http://movie.mtime.com/12231/posters_and_images/>
这条日志记录有点奇怪 果断上网百度 ,找到答案
官方对这个的解释,是你要request的地址和allow_domain里面的冲突(我的allow_domains=["http://www.mtime.com"]),从而被过滤掉。可以停用过滤功能。
yield Request(url, callback=self.parse_item, dont_filter=True)
时间: 2024-11-02 23:50:23