python网页爬虫开发之六-Selenium使用

chromedriver禁用图片,禁用js,切换UA

selenium 模拟chrome浏览器,此时就是一个真实的浏览器,一个浏览器该加载的该渲染的它都加载都渲染,所以爬取网页的速度很慢。如果可以不加载图片等操作,网页加载速度就会快不少,代码中列出了了禁用图片,禁用JS,切换UA的方法。

from selenium import webdriver

from fake_useragent import UserAgent

ua = UserAgent().random

print(ua)

chrome_options = webdriver.ChromeOptions()

prefs = {

‘profile.default_content_setting_values‘: {

# 也可以这样写,两种都正确

# ‘profile.default_content_settings‘: {

‘images‘: 2, # 不加载图片

‘javascript‘: 2, # 不加载JS

"User-Agent": ua, # 更换UA

}

}

chrome_options.add_experimental_option("prefs", prefs)

browser = webdriver.Chrome(executable_path="C:/codeapp/seleniumDriver/chrome/chromedriver.exe", chrome_options=chrome_options)

#这个网页可以显示浏览器的信息,这样我们就可以看到我们的UA信息,

url = "https://httpbin.org/get?show_env=1"

browser.get(url)

原文地址:https://www.cnblogs.com/joxin/p/9850896.html

时间: 2024-08-29 16:31:40

python网页爬虫开发之六-Selenium使用的相关文章

Python 网页爬虫 & 文本处理 & 科学计算 & 机器学习 & 数据挖掘兵器谱(转)

原文:http://www.52nlp.cn/python-网页爬虫-文本处理-科学计算-机器学习-数据挖掘 曾经因为NLTK的缘故开始学习Python,之后渐渐成为我工作中的第一辅助脚本语言,虽然开发语言是C/C++,但平时的很多文本数据处理任务都交给了Python.离开腾讯创业后,第一个作品课程图谱也是选择了Python系的Flask框架,渐渐的将自己的绝大部分工作交给了Python.这些年来,接触和使用了很多Python工具包,特别是在文本处理,科学计算,机器学习和数据挖掘领域,有很多很多

【Python】Python 网页爬虫 & 文本处理 & 科学计算 & 机器学习 & 数据挖掘兵器谱

好文 mark http://www.52nlp.cn/python-%E7%BD%91%E9%A1%B5%E7%88%AC%E8%99%AB-%E6%96%87%E6%9C%AC%E5%A4%84%E7%90%86-%E7%A7%91%E5%AD%A6%E8%AE%A1%E7%AE%97-%E6%9C%BA%E5%99%A8%E5%AD%A6%E4%B9%A0-%E6%95%B0%E6%8D%AE%E6%8C%96%E6%8E%98 曾经因为NLTK的缘故开始学习Python,之后渐渐成为我工

Python天气预报采集器 python网页爬虫

这个天气预报采集是从中国天气网提取广东省内主要城市的天气并回显.本来是打算采集腾讯天气的,但是貌似它的数据是用js写上去还是什么的,得到的html文本中不包含数据,所以就算了 爬虫简单说来包括两个步骤:获得网页文本.过滤得到数据. 1.获得html文本.  python在获取html方面十分方便,寥寥数行代码就可以实现需要的功能. def getHtml(url): page = urllib.urlopen(url) html = page.read() page.close() return

Python 网页爬虫

一.要解决的问题 需要解决的是根据自定义的关键词自动搜索google学术,解析搜索到的网页,下载所有相应的论文的PDF链接.这里我们采用Python来实现, 二.Python入门 python 自动缩进:shift+table整块向左缩进,table向右缩进,在修改整块代码时很有用比如将函数变成单独执行时. 了解python的变量,包,函数定义等 三.网页知识 3.1 浏览网页的过程 打开网页的过程其实就是浏览器作为一个浏览的“客户端”,向服务器端发送了 一次请求,把服务器端的文件“抓”到本地,

python网页爬虫浅析

Python网页爬虫简介: 有时候我们需要把一个网页的图片copy 下来.通常手工的方式是鼠标右键 save picture as ... python 网页爬虫可以一次性把所有图片copy 下来. 步骤如下: 1. 读取要爬虫的html 2. 对爬下来的html 进行存储并处理: 存储原始html 过滤生成list 正则匹配出picture的连接 3. 根据连接保存图片到本地 主要的难点: 熟悉urllib , 正则匹配查找图片链接 代码如下: import urllib.request im

Python高级爬虫开发实战视频

Python高级爬虫开发实战视频1.人人都爱列表_2016-11-24_2204322.递归和共享代码_2016-11-26_2211493.共享你的代码_2016-11-29_2215324.模块完结Video_2016-12-01_2227515.文件处理Video_2016-12-03_2240146.爬虫基础-上京东-找狗粮Video_2016-12-06_2301487.爬虫-更简单的方式-京东Video_2016-12-08_2244408.使用python找工作Video_2016

Python网页爬虫学习

我总结的了ython网页爬虫的笔记,使用BeautifulSoup和requests两个模块实现,能够爬取百度贴吧帖子图片的功能.里面还包括的了两个模块具体的使用讲解,还包含了详细的注释.有问题请在GIT留言或者邮箱联系 可以直接去Github下载: 下载地址: https://github.com/liangz0707/WebCrawler git地址:[email protected]:liangz0707/WebCrawler.git

python网页爬虫小项目开发

这是我最近接的一个小项目,花了是整整四天多时间,最终老师也很好,给了两千块的报酬. 任务是将http://www.examcoo.com/index/detail/mid/7网站下所有的试卷里的试题全部提取出来,首先按照题型进行分类,接着分析出题目的类型 类别 来源 出题时间等等信息,最终将这些信息转化到excel表格中,excel中的数据有着统一的格式.其中有些信息有关医学,故而需要自行了解. 由于仅仅是是为了完成最终的任务,故而没有使用什么爬虫框架之类的,也没有使用什么数据库来保存数据,尽量

python网页爬虫

以前也接触过爬虫方面的知识,但是总体感觉写爬虫的话,最好使用python,因为python有很多数据采集方面的库, 此外python这面语言使用起来比较简洁易读,在采集的过程中,维护起来也比较方便! 首先来几个简单的数据采集: import requests req=requests.get("http://www.baidu.com") print req.content 这个相当于简单的http的get 请求! import urllib req=urllib.urlopen(&q