关于爬虫平台的架构实现和框架的选型(二)--scrapy的内部实现以及实时爬虫的实现

我们接着关于爬虫平台的架构实现和框架的选型(一)继续来讲爬虫框架的架构实现和狂阶的选型。   前面介绍了scrapy的基本操作,下面介绍下scrapy爬虫的内部实现架构如下图

1、Spiders(爬虫):它负责处理所有Responses,从中分析提取数据,获取Item字段需要的数据,并将需要跟进的URL提交给引擎,再次进入Scheduler(调度器)
2、Engine(引擎):负责Spider、ItemPipeline、Downloader、Scheduler中间的通讯,信号、数据传递等。
3、Scheduler(调度器):它负责接受引擎发送过来的Request请求,并按照一定的方式进行整理排列,入队,当引擎需要时,交还给引擎。
4、Downloader(下载器):负责下载Scrapy Engine(引擎)发送的所有Requests请求,并将其获取到的Responses交还给Scrapy Engine(引擎),由引擎交给Spider来处理
5、ItemPipeline(管道):它负责处理Spider中获取到的Item,并进行进行后期处理(详细分析、过滤、存储等)的地方.
6、Downloader Middlewares(下载中间件):你可以当作是一个可以自定义扩展下载功能的组件。
7、Spider Middlewares(Spider中间件):你可以理解为是一个可以自定扩展和操作引擎和Spider中间通信的功能组件(比如进入Spider的Responses;和从Spider出去的Requests)。
Scrapy 爬虫整过处理的过程如下:

每一个用scrapy创建的爬虫项目都会生成一个middlewares.py文件,在这个文件中定义了两个处理中间件SpiderMiddleware和DownloaderMiddleware,这两个中间件分别负责请求前的过滤和请求后的response过滤。
上面介绍了基于scrapy的异步爬虫,下面介绍一下实时爬虫,也就是爬虫数据实时返回。
我们可以用requests+BeautifulSoup来进行实现。
Requests负责网页的请求,BeautifulSoup负责对请求完的网页进行网页解析。
下面的代码是一个爬取应用宝中理财类APP的名称的爬虫代码实现
# -*- coding: utf-8 -*-
import requests
from bs4 import BeautifulSoup
import time
class SyncCrawlSjqq(object):
    def parser(self,url):
        req = requests.get(url)
        soup = BeautifulSoup(req.text,"lxml")
        name_list = soup.find(class_=‘app-list clearfix‘)(‘li‘)
        names=[]
        for name in name_list:
            app_name = name.find(‘a‘,class_="name ofh").text
            names.append(app_name)
        return names
if __name__ == ‘__main__‘:
    syncCrawlSjqq = SyncCrawlSjqq()
    t1 = time.time()
    url = "https://sj.qq.com/myapp/category.htm?orgame=1&categoryId=114"
    print(syncCrawlSjqq.parser(url))
    t2 = time.time()
    print(‘一般方法,总共耗时:%s‘ % (t2 - t1))
 

运行结果如下

D:\python\Python3\python.exe D:/project/python/zj_scrapy/zj_scrapy/SyncCrawlSjqq.py

[‘宜人贷借款‘, ‘大智慧‘, ‘中国建设银行‘, ‘同花顺手机炒股股票软件‘, ‘随手记理财记账‘, ‘平安金管家‘, ‘翼支付‘, ‘第一理财‘, ‘平安普惠‘, ‘51信用卡管家‘, ‘借贷宝‘, ‘卡牛信用管家‘, ‘省呗‘, ‘平安口袋银行‘, ‘拍拍贷借款‘, ‘简理财‘, ‘中国工商银行‘, ‘PPmoney出借‘, ‘360借条‘, ‘京东金融‘, ‘招商银行‘, ‘云闪付‘, ‘腾讯自选股(腾讯官方炒股软件)‘, ‘鑫格理财‘, ‘中国银行手机银行‘, ‘风车理财‘, ‘招商银行掌上生活‘, ‘360贷款导航‘, ‘农行掌上银行‘, ‘现金巴士‘, ‘趣花分期‘, ‘挖财记账‘, ‘闪银‘, ‘极速现金侠‘, ‘小花钱包‘, ‘闪电借款‘, ‘光速贷款‘, ‘借花花贷款‘, ‘捷信金融‘, ‘分期乐‘]

一般方法,总共耗时:0.3410000801086426

Process finished with exit code 0

我们可以采用flask web 框架对上面的方法做一个http 服务,然后上面的爬虫就变成了http爬虫服务了。调用http服务后,服务实时返回爬取的数据给http请求调用方。

并发方法可以使用多线程来加速一般方法,我们使用的并发模块为concurrent.futures模块,设置多线程的个数为20个(实际不一定能达到,视计算机而定)。实现的示例代码如下:

# -*- coding: utf-8 -*-
from concurrent.futures import ThreadPoolExecutor, wait, ALL_COMPLETED

import requests
from bs4 import BeautifulSoup
import time
class SyncCrawlSjqqMultiProcessing(object):
    def parser(self,url):
        req = requests.get(url)
        soup = BeautifulSoup(req.text,"lxml")
        name_list = soup.find(class_=‘app-list clearfix‘)(‘li‘)
        names=[]
        for name in name_list:
            app_name = name.find(‘a‘,class_="name ofh").text
            names.append(app_name)
        return names
if __name__ == ‘__main__‘:
    url = "https://sj.qq.com/myapp/category.htm?orgame=1&categoryId=114"
    executor = ThreadPoolExecutor(max_workers=20)
    syncCrawlSjqqMultiProcessing = SyncCrawlSjqqMultiProcessing()
    t1 = time.time()
    future_tasks=[executor.submit(print(syncCrawlSjqqMultiProcessing.parser(url)))]
    wait(future_tasks, return_when=ALL_COMPLETED)
    t2 = time.time()
    print(‘一般方法,总共耗时:%s‘ % (t2 - t1))

运行结果如下:

D:\python\Python3\python.exe D:/project/python/zj_scrapy/zj_scrapy/SyncCrawlSjqqMultiProcessing.py

[‘宜人贷借款‘, ‘大智慧‘, ‘中国建设银行‘, ‘同花顺手机炒股股票软件‘, ‘随手记理财记账‘, ‘平安金管家‘, ‘翼支付‘, ‘第一理财‘, ‘平安普惠‘, ‘51信用卡管家‘, ‘借贷宝‘, ‘卡牛信用管家‘, ‘省呗‘, ‘平安口袋银行‘, ‘拍拍贷借款‘, ‘简理财‘, ‘中国工商银行‘, ‘PPmoney出借‘, ‘360借条‘, ‘京东金融‘, ‘招商银行‘, ‘云闪付‘, ‘腾讯自选股(腾讯官方炒股软件)‘, ‘鑫格理财‘, ‘中国银行手机银行‘, ‘风车理财‘, ‘招商银行掌上生活‘, ‘360贷款导航‘, ‘农行掌上银行‘, ‘现金巴士‘, ‘趣花分期‘, ‘挖财记账‘, ‘闪银‘, ‘极速现金侠‘, ‘小花钱包‘, ‘闪电借款‘, ‘光速贷款‘, ‘借花花贷款‘, ‘捷信金融‘, ‘分期乐‘]

一般方法,总共耗时:0.3950002193450928

Process finished with exit code 0

比如单线程运行,多线程在爬虫时明显会要快很多。

 

原文地址:https://www.cnblogs.com/laoqing/p/11195324.html

时间: 2024-11-07 04:11:31

关于爬虫平台的架构实现和框架的选型(二)--scrapy的内部实现以及实时爬虫的实现的相关文章

GPS部标平台的架构设计(十)-基于Asp.NET MVC构建GPS部标平台

在当前很多的GPS平台当中,有很多是基于asp.NET+siverlight开发的遗留项目,代码混乱而又难以维护,各种耦合和关联,要命的是界面也没见到比Javascript做的控件有多好看,随着需求的增多,平台已经臃肿不堪. 设计基于.NET的GPS部标平台,我们坚定不移的选择了基于JQUERY+Asp.NET MVC来作为前端交互和后台处理的框架.选用一个灵活的脚手架,同时团队又能掌握这个脚手架为团队所用. 对于一个web应用项目,基于MVC的框架,前面文章提到过,最大的优点就是结构清晰,强制

【阿里在线技术峰会】李金波:企业大数据平台仓库架构建设思路

摘要: 在阿里巴巴在线在线技术峰会上的第三天,来自阿里云高级技术专家李金波为大家题为<企业大数据平台仓库架构建设思路>.本次分享中,李金波主要从总体思路.模型设计.数加架构.数据治理四个方面介绍了如何利用大数据平台的特性,构建更贴合大数据应用的数据仓库. 本文根据阿里云高级技术专家李金波在首届阿里巴巴在线峰会的<企业大数据平台仓库架构建设思路>的分享整理而成.随着互联网规模不断的扩大,数据也在爆炸式地增长,各种结构化.半结构化.非结构化数据的产生,越来越多的企业开始在大数据平台下进

微服务架构的基础框架选择:Spring Cloud还是Dubbo?

最近一段时间不论互联网还是传统行业,凡是涉及信息技术范畴的圈子几乎都在讨论微服务架构.近期也看到各大技术社区开始组织一些沙龙和论坛来分享Spring Cloud的相关实施经验,这对于最近正在整理Spring Cloud相关套件内容与实例应用的我而言,还是有不少激励的. 目前,Spring Cloud在国内的知名度并不高,在前阵子的求职过程中,与一些互联网公司的架构师.技术VP或者CTO在交流时,有些甚至还不知道该项目的存在.可能这也与国内阿里巴巴开源服务治理框架Dubbo有一定的关系,除了Dub

【MDCC 2015】友盟数据平台负责人吴磊:移动大数据平台的架构与实践

转自: http://www.csdn.net/article/2015-10-20/2825962 [MDCC 2015]友盟数据平台负责人吴磊:移动大数据平台的架构与实践 [CSDN现场报道]10月14日-16日,“ 2015移动开发者大会 · 中国” (Mobile Developer Conference China 2015,简称MDCC 2015)在北京新云南皇冠假日酒店隆重举行.本次大会由全球最大中文IT社区CSDN和中国最具关注度的全方位创业平台创新工场联合主办,以“万物互 联,

Android平台及其架构(部分转载)

一.Android的系统架构 1.      应用程序 同Android系统一起发布的核心应用程序,如email 客户端,SMS 短消息程序,日历,地图,浏览器,联系人管理程序等. 这些应用程序都是用java编写的. 2.      应用程序框架 开发者可以用它开发应用,其中包括: • 丰富而又可扩展的视图(Views):可以用来构建应用程序, 它包括列表(lists),网格(grids), 文本框(text boxes),按钮( buttons), 甚至可嵌入的web 浏览器. • 内容提供器

微服务架构的基础框架选择

最近一段时间不论互联网还是传统行业,凡是涉及信息技术范畴的圈子几乎都在讨论 微服务架构 .近期也看到各大技术社区开始组织一些沙龙和论坛来分享Spring Cloud的相关实施经验,这对于最近正在整理Spring Cloud相关套件内容与实例应用的我而言,还是有不少激励的. 目前,Spring Cloud在国内的知名度并不高,在前阵子的求职过程中,与一些互联网公司的架构师.技术VP或者CTO在交流时,有些甚至还不知道该项目的存在.可能这也与国内阿里巴巴开源服务治理框架Dubbo有一定的关系,除了D

ios系统架构及常用框架

1.iOS基于UNIX系统,因此从系统的稳定性上来说它要比其他操作系统的产品好很多 2.iOS的系统架构分为四层,由上到下一次为:可触摸层(Cocoa Touch layer).媒体层(Media layer).核心服务层(Core Services layer).核心操作系统层(Core OS layer)如图: (1) 触摸层:为应用程序开发提供了各种常用的框架并且大部分框架与界面有关,本质上来说它负责用户在iOS设备上的触摸交互操作.它包括以下这些组件: Multi-Touch Event

架构(三层架构)、框架(MVC)、设计模式三者异同点

对于没有排序功能的集合来说,都可以使用java.util.Collections.sort()方法进行排序,它除了集合对象以外,还需要提供一个比较器.如果列表中的元素全部都是相同的类型,并且这个类实现了Comparable接口,就可以简单的调用Collections.sort()方法,如果这个类没有实现comparable接口,那么可以创建一个比较器传递一个Comparator实例作为Sort()的第二个参数进行排序,另外,如果不想使用默认的分类顺序进行排序,同样也可以传递一个Comparato

GPS部标平台的架构设计(四)-百度地图设计

部标GPS软件平台之百度地图设计 地图是客户端中不可缺少的一个模块,很多人在设计和画图时候,喜欢加上地图引擎这样高大上的字眼,显得自己的平台有内涵,说白了就是用第三方的SDK来开发,早期的GPS监 控软件用的都是mapx.mapxtrem.acrgis之类的,使用的都是本地地图.不仅要购买正版地图,还要购买价格不菲的地图引擎license,服务器版的部署的时候,还要绑定到服务器ID上,现在这种开发方式已被抛弃.现在的百度地图.谷歌地图提供的SDK接口丰富,开发方便,系统稳定,大家都用的很爽. 在