python爬虫-什么时候选择selenium框架框架?

不知不觉已经从事Python编程开发5年了,Python刚开始其实不是很起眼,但是随着大数据越来越活,现在Python也越来越火了,但是目前我主要从事的Python工作还是以数据挖掘、数据爬虫技术深度为主。

下面把这些年个人在编程爬虫代码时用过的一些爬虫框架和爬虫经验给大家分享:

不同的网站选择不通的技术策略和不同的框架组合。

? ? (1)selenium框架: 我把这个框架取了一个名字叫:“无法阻挡爬虫蜘蛛侠”,这个框架优点的个人觉得就是可以模拟浏览器,相当于您用程序调动浏览器让浏览器打开您需要爬取的网站。这个好处其实就是可以大量避免被封。因为我们在用Python的requets库发出网络情况时候,您必须先构造http请求头。但是有些网站反爬很严格,可以直接识别出来您当前的访问是否正常用户行为。所以如果在用request请求时被目标网站反爬识别,导致无法爬取的话,那么这个时候只有使用这个selenium框架就是最好技术选择方式。他可以做到的是只要您网站用浏览器可以正常访问,那么selenium就可以采集到网站数据,除非正常浏览器都不能访问了。

? ? ? ?selenium框架优点:反爬能力强,适合爬取哪种反爬很厉害的网站或者是那种需要点击提交的网站,我在做商标网数据爬取的时候,当时老板要求要爬取全部网站几千万商标数据,但是这个网站反爬很厉害,而且需要点击确定按钮,然后才能进入商标综合搜索页面,然后再根据注册号搜索进入列表页,然后从列表页点击进入商标详情页,然后再从详情页点击进入商标流程页。这一连串的需要的模拟动作,当时为了解决一天爬取上百万数据,刚开始我采用Python的request库+代理IP池技术架构,然后开启了多进程,但是遗憾是很快就被目标网站识别您的请求不是正常用户,因为您太快了,所以最后不得不改用selenium+多进程技术价格组合。

? ??? ? selenium框架缺点:速度慢,适合每天爬取数据量要求不高的爬虫工作, 因为selenium框架是必须要打开浏览器,然后模拟点击网页,这个过程和您用手打开浏览器打开网址去访问网站一样的速度。这个速度是比较慢。如果您要采集的数据,每天也就1-2万条那么可以用这个selenium框架。因为比较稳定靠谱。

什么时候我们不能选择selenium框架?

? ? ?关于爬虫技术,下一篇继续给大家分享。欢迎对大数据和爬虫技术感兴趣朋友多交流

原文地址:https://blog.51cto.com/14779146/2483829

时间: 2024-10-25 16:03:10

python爬虫-什么时候选择selenium框架框架?的相关文章

小白学 Python 爬虫(28):自动化测试框架 Selenium 从入门到放弃(下)

人生苦短,我用 Python 前文传送门: 小白学 Python 爬虫(1):开篇 小白学 Python 爬虫(2):前置准备(一)基本类库的安装 小白学 Python 爬虫(3):前置准备(二)Linux基础入门 小白学 Python 爬虫(4):前置准备(三)Docker基础入门 小白学 Python 爬虫(5):前置准备(四)数据库基础 小白学 Python 爬虫(6):前置准备(五)爬虫框架的安装 小白学 Python 爬虫(7):HTTP 基础 小白学 Python 爬虫(8):网页基

小白学 Python 爬虫(27):自动化测试框架 Selenium 从入门到放弃(上)

人生苦短,我用 Python 前文传送门: 小白学 Python 爬虫(1):开篇 小白学 Python 爬虫(2):前置准备(一)基本类库的安装 小白学 Python 爬虫(3):前置准备(二)Linux基础入门 小白学 Python 爬虫(4):前置准备(三)Docker基础入门 小白学 Python 爬虫(5):前置准备(四)数据库基础 小白学 Python 爬虫(6):前置准备(五)爬虫框架的安装 小白学 Python 爬虫(7):HTTP 基础 小白学 Python 爬虫(8):网页基

python爬虫技术的选择

p.p1 { margin: 0.0px 0.0px 0.0px 0.0px; font: 14.0px Helvetica } span.s1 { } 本篇文章不是入门帖,需要对python和爬虫领域有所了解. 爬虫又是另外一个领域,涉及的知识点比较多,不仅要熟悉web开发,有时候还涉及机器学习等知识,不过在python里一切变的简单,有许多第三方库来帮助我们实现.使用python编写爬虫首先要选择合适的抓取模块,最简单的功能就是能发送和处理请求, 下面就介绍几个常用的抓取的方式. 一.pyt

[Python爬虫] 之十三:Selenium +phantomjs抓取活动树会议活动数据

抓取活动树网站中会议活动数据(http://www.huodongshu.com/html/index.html) 具体的思路是[Python爬虫] 之十一中抓取活动行网站的类似,都是用多线程来抓取,但是由于活动树网站 ,每个关键字搜索页的ur是固定,比如搜索“数字”结果有470个结果,没页10条记录,第二页的url和第一页的 url是一样的. 因此针对每个关键字用一个线程进行搜索. 具体代码如下: # coding=utf-8import osimport refrom selenium im

python爬虫入门(八)Scrapy框架之CrawlSpider类

CrawlSpider类 通过下面的命令可以快速创建 CrawlSpider模板 的代码: scrapy genspider -t crawl tencent tencent.com CrawSpider是Spider的派生类,Spider类的设计原则是只爬取start_url列表中的网页,而CrawlSpider类定义了一些规则(rule)来提供跟进link的方便的机制,从爬取的网页中获取link并继续爬取的工作更适合. CrawSpider源码详细解析 class CrawlSpider(S

python爬虫入门(九)Scrapy框架之数据库保存

豆瓣电影TOP 250爬取-->>>数据保存到MongoDB 豆瓣电影TOP 250网址 要求: 1.爬取豆瓣top 250电影名字.演员列表.评分和简介 2.设置随机UserAgent和Proxy 3.爬取到的数据保存到MongoDB数据库  items.py # -*- coding: utf-8 -*- import scrapy class DoubanItem(scrapy.Item): # define the fields for your item here like:

[Python爬虫] 之九:Selenium +phantomjs抓取活动行中会议活动(单线程抓取)

思路是这样的,给一系列关键字:互联网电视:智能电视:数字:影音:家庭娱乐:节目:视听:版权:数据等.在活动行网站搜索页(http://www.huodongxing.com/search?city=%E5%85%A8%E5%9B%BD&pi=1)的文本输入框中分别输入每个关键字,在搜索结果中抓取需要的数据. 首先通过Selenium+IE驱动得到每个关键字搜索结果的url(首页,因为以后各个页的url就是索引不一样)和总页数,保存的列表里面.然后再循环列表,用Selenium +phantomj

[Python爬虫] 之十:Selenium +phantomjs抓取活动行中会议活动(多线程抓取)

延续上个抓取活动行中会议活动的问题,上次使用是单线程的抓取,效率较低,现在使用多线程的抓取. 数据的抓取分为两个过程:首先获取每个关键字搜索结果对应的url和页数,保存在列表里面,这个过程用一个线程来实现(类似生产者),同时根据获取的关键字的url和页数,抓取对应的数据,这个过程用多线程来抓取(类似消费者) 这样整个抓取过程共用了144.366188 秒,采用单线程来进行抓取要用大概184秒,这样大概节省了40秒 具体代码如下: # coding=utf-8import osimport ref

【Rollo的Python之路】Python 爬虫系统学习 (五) Selenium

Selenium 与 PhantomJS selenium:[s??li?ni?m]:# n. 硒(化学元素,用于制造电气设备和有色玻璃,人体缺此元素可致抑郁等病) phantom:[?fænt?m] :# n. 鬼; 鬼魂; 幽灵; 幻觉; 幻象; adj. 像鬼的; 幽灵似的; 幻觉的; 幻象的; 虚幻的 Selenium Selenium 是一个web的自动化测试工具,最初是为了网站自动化测试而开发的,Selenium可以直接运行在浏览器上,它支持所有主流的(包括PhantomJS这些无界