python Web抓取(二)selenium模块的使用

一、用selenium模块控制浏览器

  selenium能让用户通过Python直接控制浏览器,实际点击链接,填写登录信息,几乎就像一个人类与浏览器交互。这能比使用Request和Beautiful Soup模块完成更多的事情,能让你以更高级的方式和浏览器交互,但是也有一个确定,比如当你只是想下载一个文件时,前者就有些复杂,并且难以在后台运行

1.1启动selenium控制的浏览器

  以form selenium import webdriver来导入webderiver模块

遇到了问题:

  1)selenium.common.exceptions.WebDriverException:

  在执行以下代码时出现了上个异常

>>> from selenium import webdriver
>>> browser=webdriver.Firefox()
Traceback (most recent call last):
  File "C:\Users\Administrator.SC-201605202132\AppData\Local\Programs\Python\Python37\lib\site-packages\selenium\webdriver\common\service.py", line 76, in start
    stdin=PIPE)
  File "C:\Users\Administrator.SC-201605202132\AppData\Local\Programs\Python\Python37\lib\subprocess.py", line 775, in __init__
    restore_signals, start_new_session)
  File "C:\Users\Administrator.SC-201605202132\AppData\Local\Programs\Python\Python37\lib\subprocess.py", line 1178, in _execute_child
    startupinfo)
FileNotFoundError: [WinError 2] 系统找不到指定的文件。

During handling of the above exception, another exception occurred:

Traceback (most recent call last):
  File "<pyshell#1>", line 1, in <module>
    browser=webdriver.Firefox()
  File "C:\Users\Administrator.SC-201605202132\AppData\Local\Programs\Python\Python37\lib\site-packages\selenium\webdriver\firefox\webdriver.py", line 164, in __init__
    self.service.start()
  File "C:\Users\Administrator.SC-201605202132\AppData\Local\Programs\Python\Python37\lib\site-packages\selenium\webdriver\common\service.py", line 83, in start
    os.path.basename(self.path), self.start_error_message)
selenium.common.exceptions.WebDriverException: Message: ‘geckodriver‘ executable needs to be in PATH.

  解决办法:

  错误是英文的,我先把他翻译过来之后,由于是第一次使用selenium模块,我搜索了模块的使用方法,然后发现需要webdriver驱动文件,

六、项目

原文地址:https://www.cnblogs.com/Gaoqiking/p/10499996.html

时间: 2024-08-30 03:50:30

python Web抓取(二)selenium模块的使用的相关文章

python Web抓取(一)

需要的模块: python web抓取通过: webbrowser:是python自带的,打开浏览器获取指定页面 requests:从因特网上下载文件和网页 Beautiful Soup:解析HTML Selenium:启动并控制一个Web浏览器.selenium能够填写表单,并模拟鼠标在这个浏览器中点击   >>>这个在这里 一.项目:利用Webbrowser模块的快速翻译脚本  webbrowser.open(url) 会在默认浏览器中打开这个地址 >>> impo

《编程快速上手》--web抓取--利用webbrowser模块的mapIT.py

1.代码如下 #! python3 # mapIT.py - Launches a map in the browser using an address from the # command line or clipboard. import webbrowser, sys, pyperclip if len(sys.argv) > 1: #Get address from command line. address = ' '.join(sys.argv[1:]) else: #Get ad

python自动化之web抓取

''' 从web抓取数据: webbrowser:是python自带的,打开浏览器获取指定页面. requests:从因特网上下载文件和网页. Beautiful Soup:解析HTML,即网页编写的格式. selenium:启动并控制一个Web浏览器.selenium能够填写表单,并模拟鼠标在这个浏览器中点击 ''' import webbrowser webbrowser.open('http://inventwithpython.com/') ''' 利用requests模块从Web下载文

从web抓取信息

"web抓取"是一个术语,即利用程序下载并处理来自web的内容. ▎在python中,有几个模块能让抓取网页变得很容易. webbrowser:python自带,打开游览器获取指定页面. requests:从因特网上下载文件和网页. Beautiful Soup:解析HTML,即网页编写的格式. selenium:启动并控制一个web游览器.selenium能够填写表单,并模拟鼠标在这个游览器中点击. webbrowser模块 webbrowser模块的open()函数可以启动一个新游

python 爬虫抓取心得

quanwei9958 转自 python 爬虫抓取心得分享 urllib.quote('要编码的字符串') 如果你要在url请求里面放入中文,对相应的中文进行编码的话,可以用: urllib.quote('要编码的字符串') query = urllib.quote(singername) url = 'http://music.baidu.com/search?key='+query response = urllib.urlopen(url) text = response.read()

Python爬虫抓取网页图片

本文通过python 来实现这样一个简单的爬虫功能,把我们想要的图片爬取到本地. 下面就看看如何使用python来实现这样一个功能. # -*- coding: utf-8 -*- import urllib import re import time import os #显示下载进度 def schedule(a,b,c): ''''' a:已经下载的数据块 b:数据块的大小 c:远程文件的大小 ''' per = 100.0 * a * b / c if per > 100 : per =

一个极其简洁的Python网页抓取程序

paip. 混合编程的实现resin4 (自带Quercus ) 配置 php 环境 #---混合编程的类型 1.代码inline 方式 2.使用库/api  解析方式. #----配置resin 支持php resin4默认自动支持php.. 也能手动配置了.web.xml加php的servlet解析..参考Quercus让你的PHP开心在Servlet容器奔跑 #----配置 php.ini路线 运行t.php,,看见 Configuration File (php.ini) Path =>

python 爬虫抓取心得分享

/** author: insun title:python 爬虫抓取心得分享 blog:http://yxmhero1989.blog.163.com/blog/static/112157956201311821444664/ **/    0x1.urllib.quote('要编码的字符串') 如果你要在url请求里面放入中文,对相应的中文进行编码的话,可以用: urllib.quote('要编码的字符串') query = urllib.quote(singername) url = 'h

别人家的程序员是如何使用 Java 进行 Web 抓取的?

Web抓取非常有用,它可以收集信息供多种用途使用,如数据分析.统计.提供第三方信息,还可以给深神经网络和深度学习提供数据. Web抓取是什么? 有一种非常广泛的误解,人们似乎把Web抓取和Web爬虫当成了同一种东西.所以我们先明确这一点. 两者有个非常显著的区别: Web爬虫,指搜索或"爬"网页以获得任意信息的过程.通常是搜索引擎如Google.Yahoo或Bing的功能,以便给我们显示搜索结果. Web抓取,指从特定的网站上利用特别定制的自动化软件手机信息的过程. 注意! 尽管Web