Selenium2+python自动化37-爬页面源码（page_source）【转载】

前言

有时候通过元素的属性的查找页面上的某个元素，可能不太好找，这时候可以从源码中爬出想要的信息。selenium的page_source方法可以获取到页面源码。

selenium的page_source方法很少有人用到，小编最近看api不小心发现这个方法，于是突发奇想，这里结合python的re模块用正则表达式爬出页面上所有的url地址，可以批量请求页面url地址，看是否存在404等异常

一、page_source

1.selenium的page_source方法可以直接返回页面源码

2.重新赋值后打印出来

二、re非贪婪模式

1.这里需导入re模块

2.用re的正则匹配：非贪婪模式

3.findall方法返回的是一个list集合

4.匹配出来之后发现有一些不是url链接，可以删选下

三、删选url地址出来

1.加个if语句判断，‘http’在url里面说明是正常的url地址了

2.把所有的url地址放到一个集合，就是我们想要的结果啦

四、参考代码

# coding:utf-8
from selenium import webdriver
import re
driver = webdriver.Firefox()
driver.get("http://www.cnblogs.com/yoyoketang/")
page = driver.page_source
# print page
# "非贪婪匹配,re.S(‘.‘匹配字符,包括换行符)"
url_list = re.findall(‘href=\"(.*?)\"‘, page, re.S)
url_all = []
for url in url_list:
    if "http" in url:
        print url
        url_all.append(url)
# 最终的url集合
print url_all

时间： 2024-11-09 18:30:13

Selenium2+python自动化37-爬页面源码（page_source）【转载】的相关文章

Selenium2+python自动化39-关于面试的题【转载】

前言最近看到群里有小伙伴贴出一组面试题,最近又是跳槽黄金季节,小编忍不住抽出一点时间总结了下, 回答不妥的地方欢迎各位高手拍砖指点. 一.selenium中如何判断元素是否存在? 首先selenium里面是没有这个方法的,判断元素存在需要自己写一个方法了. 元素存在有几种形式,一种是页面有多个元素属性重复的,这种直接操作会报错的:还有一种是页面隐藏的元素操作也会报错判断方法参考这篇:Selenium2+python自动化36-判断元素存在二.selenium中hidden或者是displa

Selenium2+python自动化61-Chrome浏览器（chromedriver）【转载】

前言 selenium2启动Chrome浏览器是需要安装驱动包的,但是不同的Chrome浏览器版本号,对应的驱动文件版本号又不一样,如果版本号不匹配,是没法启动起来的. 一.Chrome遇到问题 1.如果在启动chrome浏览器时候,出现如下界面,无法打开网址,那么首先恭喜你,踩到了坑,接下来的内容或许对你有所帮助 >># coding:utf-8>>from selenium import webdriver >>driver = webdriver.Chrome()

Selenium2+python自动化67-用例失败自动截图【转载】

前言: 装饰器其实就是一个以函数作为参数并返回一个替换函数的可执行函数上一篇讲到用装饰器解决异常后自动截图,不过并没有与unittest结合,这篇把截图的装饰器改良了下,可以实现用例执行失败自动截图. 一.不带变量的装饰器 1.参考资料:http://www.artima.com/weblogs/viewpost.jsp?thread=240845,这里这篇讲的很好,可以看下原文 2.这个是不带变量的装饰器__init__里是初始化参数,__call__里面是原函数参数 Decorators

Selenium2+python自动化-窗口多标签处理方法总结(转载)

本篇转自博客:上海-小T 原文地址:https://i.cnblogs.com/EditArticles.aspx?opt=1 我们在用Selenium遇到多个浏览器窗口或单个浏览器多个标签(Tab)的状况时,往往都不太好处理,这里将介绍两种处理方法. 本文所引用的例子是百度,在百度首页下方有一个"把百度设为主页"的超链接,点击它会另起一个新标签页,是一个不错的例子: 1.switch_to.window() 该方法是Webdriver中内置的一个方法,除了在多个浏览器中作切换用,单个

Selenium2+python自动化11-定位一组元素find_elements【转载】

前言前面的几篇都是讲如何定位一个元素,有时候一个页面上有多个对象需要操作,如果一个个去定位的话,比较繁琐,这时候就可以定位一组对象. webdriver 提供了定位一组元素的方法,跟前面八种定位方式其实一样,只是前面是单数,这里是复数形式:find_elements 本篇拿百度搜索作为案例,从搜索结果中随机选择一条搜索结果,然后点击查看. 一.定位搜索结果 1.在百度搜索框输入关键字"测试部落"后,用firebug查看页面元素,可以看到这些搜索结果有共同的属性. 2.从搜索的结果可以

Selenium2+python自动化62-jenkins持续集成环境搭建【转载】

前言 selenium脚本写完之后,一般是集成到jenkins环境了,方便一键执行. 一.环境准备小编环境: 1.win10 64位 2.JDK 1.8.0_66 3.tomcat 9.0.0.M4 4.jenkins 2.0 二.安装JDK 1.安装JDK教程很多,这里就不讲了,可以参考这个链接的教程:JDK安装配置教程_百度经验在系统环境变量里添加以下变量: ①JAVA_HOME:jdk的安装路径C:\Sun\Java\jdk ②CLASSPATH:".;%JAVA_HOME%\lib;

Selenium2+python自动化46-js解决click失效问题【转载】

前言有时候元素明明已经找到了,运行也没报错,点击后页面没任何反应.这种问题遇到了,是比较头疼的,因为没任何报错,只是click事件失效了. 本篇用2种方法解决这种诡异的点击事件失效问题一.遇到的问题 1.在练习百度的搜索设置按钮时,点保存设置按钮,alert弹出没弹出(代码没报错,只是获取alert失败),相信不只是我一个人遇到过. 二.点击父元素 1.遇到这种问题,应该是前面操作select后导致的后遗症(因为我注释掉select那段是可以点击成功的) 2.第一种解决办法,先点击它的父元素

Selenium2+python自动化64-100（大结局）[已出书]

前言小编曾经说过要写100篇关于selenium的博客文章,前面的64篇已经免费放到博客园供小伙伴们学习,后面的内容就不放出来了,高阶内容直接更新到百度阅读了. 一.百度阅读地址: 1.本书是在线阅读的,是实时在线阅读,电子书有个好处就是能及时更新内容. (当然购买此书的话,凭流水单号进QQ读书群:372471871可获取一本对应的PDF文档,方便阅读学习) 2.百度阅读地址:https://yuedu.baidu.com/ebook/0f6a093b7dd184254b35eefdc8d37

Selenium2+python自动化37-爬页面源码（page_source）

前言有时候通过元素的属性的查找页面上的某个元素,可能不太好找,这时候可以从源码中爬出想要的信息.selenium的page_source方法可以获取到页面源码. selenium的page_source方法很少有人用到,小编最近看api不小心发现这个方法,于是突发奇想,这里结合python的re模块用正则表达式爬出页面上所有的url地址,可以批量请求页面url地址,看是否存在404等异常一.page_source 1.selenium的page_source方法可以直接返回页面源码 2.重新

猜你喜欢

MDK调试错误

Undefined symbol assert_failed (referred from dma.o). 链接过程中出现assert_param函数未定义的错误解决方法: 在Options-> ...

Android LruCache 压缩图片有效避免程序OOM

转载请注明出处:http://blog.csdn.net/guolin_blog/article/details/9316683 本篇文章主要内容来自于Android Doc,我翻译之后又做了些加工, ...

L2-006. 树的遍历

2016年团体程序设计天梯赛-模拟赛给定中序遍历和后序遍历求前序遍历.给前序遍历和中序遍历求后序遍历这样类型的题目,可以先构造成一颗二叉树,然后...就好办了给定一棵二叉树的后序遍历和中序遍历,请 ...

java实现生成二维码

java实现生成二维码二维码vs条形码最大的区别就是:二维码具有容错功能,当二维码图片被遮 ...

web前端基础知识总结

上个寒假总结的web前端的一些知识点给大家分享一下 1.<html>和</html> 标签限定了文档的开始和结束点. 属性: (1) dir: 文本的显示方向,默认是从左向右 ...

看大数据时代下的IT架构（1）业界消息队列对比

一.MQ(Message Queue) 即消息队列,一般用于应用系统解耦.消息异步分发,能够提高系统吞吐量.MQ的产品有很多,有开源的,也有闭源,比如ZeroMQ.RabbitMQ.ActiveMQ. ...

web页面启动winform程序

本文实现的需求是: A.通过web页面启动winform程序: B.将页面的参数传递给winform程序: C.winform程序已经启动并正在运行时,从web页面不能重新启动winform程序, 只 ...

eclipse远程调试Linux环境下的web项目

前提: 远程服务器上的代码和本地的代码同步第一步 : 配置远程服务器下的startup.sh文件在第一行添加 : declare -x CATALINA_OPTS="-server -X ...

FreeRTOS 任务计数信号量，任务二值信号量，任务事件标志组

本章节为大家讲解 FreeRTOS 计数信号量的另一种实现方式----基于任务通知(Task Notifications)的计数信号量,这里我们将这种方式实现的计数信号量称之为任务计数信号量. 任务计 ...

Button简单实例1

1.XML按钮定义 <RelativeLayout xmlns:android="http://schemas.android.com/apk/res/android" an ...

就给大家的感觉的公开夹打给大家的公开

http://t.wuxizazhi.cnki.net/Topic.aspx?id=1271563 http://t.wuxizazhi.cnki.net/Topic.aspx?id=1271542 ...

UEFI主板GPT方式安装CentOS 6.5

CentOS也同时支持BIOS和UEFI两种方式启动,所以就有了两种安装方式. 一.传统BIOS安装方式 (1)设置BIOS: 使能CSM,禁用安全启动: (2)使用Diskgen或类似工具把硬盘重新 ...

android ListView item有多重布局

android的listview的一个关键技术就是重绘利用. public View getView(int position, View convertView, ViewGroup parent) ...

信号量的基本概念与使用semget，semop

1.信号量的基本概念信号量是一个计数器,常用于处理进程或线程的同步问题,特别是对临界资源的同步访问. 临界资源可以简单的理解为在某一时刻只能由一个进程或线程进行操作的资源,这里的资源可以是一段代码 ...

文章来源http://www.cnblogs.com/sosoft/p/3793425.html 先说前端使用 jQuery 时怎么区分: jQuery 发出 ajax 请求时,会在请求头部添加一个名 ...

Mac - 删除Launchpad空白文件夹

之前有遇到这样的情况, 就是在Launchpad里,产生了无用的空白文件夹, 类似这样. 最底下就是一个未命名的空文件夹. 有"洁癖"的同学.. 必然想要把它删掉. 之前有个其他 ...

石头数字的总和

Manasa 和她的朋友出去徒步旅行.她发现一条小河里边顺序排列着带有数值的石头.她开始沿河而走,发现相邻两个石头上的数值增加 a 或者 b. 这条小河的尽头有一个宝藏,如果Manasa能够猜出来最 ...

css实现不设置width值可以让块级元素居中

一般块级元素居中的方式为: 设置宽度width值,然后使用margin:0 auto;属性,来进行对于父级的居中显示. 但是很多情况下,我们想让元素可以进行自动延伸,不想设置width值. 不设置wi ...

sqlite时间段查询

同样的SQL语句,查不出数据来 select * from table1 where t1>='2017-6-1' and t1<='2017-6-5' 改成 select * from ...

ios7上tableviewcell的背景色和ios6的差别

在xcode5.1上写的代码,ios7运行良好,在IOS6模拟器,发现cell全白,折腾半天,发现原来有些区别,供后来遇到这个问题的查看 // cell.backgroundColor = aColo ...

专题

随机推荐

© 2024 憋错料 | info#biecuoliao.com | 10 q. 0.026 s.