selenium获取页面动态html;静态html

 1 # -*- coding: utf-8 -*-
 2 from selenium import webdriver
 3 import sys
 4 import urllib2
 5 import time
 6 import codecs
 7 reload(sys)
 8 sys.setdefaultencoding(‘utf-8‘)
 9
10 def gethtml(url):
11     page = urllib2.urlopen(url)
12     html_all = page.read()
13     return html_all
14
15 def get_jingtai_dongtai_html(url):
16     fp=webdriver.FirefoxProfile(r‘C:\Users\j\AppData\Roaming\Mozilla\Firefox\Profiles\pn4ffyp2.default‘)
17     sel = webdriver.Firefox(fp)
18     sel.get(url)
19     time.sleep(3)
20     sel.set_window_size(480, 600)
21     html1=sel.page_source
22     with codecs.open(‘result-dongtai4.html‘,‘w‘,encoding=‘utf-8‘)as putin1:
23         putin1.write(html1)
24     html2=gethtml(url)
25     with codecs.open(‘result-jingtai4.html‘,‘w‘,encoding=‘utf-8‘)as putin2:
26         putin2.write(html2)
27     sel.close()
28     sel.quit()
29 url="http://patent.ip1840.com/faming/186246.html"
30 get_jingtai_dongtai_html(url)
时间: 2024-10-06 10:53:45

selenium获取页面动态html;静态html的相关文章

动态获取页面参数内容

本文章主要内容为动态的获取页面内容,在地址栏后面输入参数进行相加,最终将结果返回给用户,如: http://i.cnblogs.com/add?i=1&j=2,?前面的为处理程序路径,?后面的为请求的参数,以&分割多个参数,注意这是HTTP协议格式,一种规范,一种标准 static void Main(string[] args) { Socket serverSocket = new Socket(AddressFamily.InterNetwork, SocketType.Stream

页面静态化-http get请求获取页面内容代码

1 import org.apache.http.HttpEntity; 2 import org.apache.http.HttpException; 3 import org.apache.http.HttpResponse; 4 import org.apache.http.client.HttpClient; 5 import org.apache.http.client.methods.HttpGet; 6 import org.apache.http.client.methods.H

如何设置CentOS 7获取动态及静态IP地址

如何设置CentOS 7获取动态及静态IP地址 自动获取动态IP地址 1.输入“ip addr”并按回车键确定,发现无法获取IP(CentOS 7默认没有ifconfig命令),记录下网卡名称(本例中为ens33). 2.输入“cd /etc/sysconfig/network-scripts/”按回车键确定,继续输入“ls”按回车键查看文件. 3.输入“vi ifcfg-ens33”并按回车键确定(网卡名称可能不同).亦可在第二步直接输入“cd /etc/sysconfig/network-s

使用Selenium含蓄等待获取页面元素(附带实际业务需求情景)

Hello,大家好,又到了小猿分享技术的时间了.这回带来的是使用Selenium去网站上获取部分信息并且执行部分操作以及"含蓄"等待元素加载完成以及截取图片和网页刷新机制的技术点. 解释说明:Selenium用于自动化测试,web自动化测试工具集,即使用该模块去模拟手动去网页上点击获取信息,是一个很好的自动化测试模块. 关于selenium模块,其实它的主要目的是进行web自动化测试,获取信息是次要的,主要是为了测试web的性能,这里也只是针对关于在web页面上进行操作. 该模块适用范

如何应对高并发 —— 动态网站静态化

零. 前言 为了应对高并发, 大多数网站在更新不频繁的页面都做了动态网页静态化处理. 典型的如: 淘宝的首页. 网易新闻的首页等. 当然这些网站加载速度这么快, 不仅仅是静态化, 还有 CDN. 缓存等各个方面的优化. 从阿里在 InfoQ 双十一架构的分享中提到使用 CDN + nginx + JBoss + 缓存作为 Detail 页面的架构, 将页面信息进行静态化缓存. 以上, 可以看出静态化技术的重要性及普遍性, 本文将结合具体实例介绍动态网站静态化. 一. 类及其依赖库  二. 代码实

[Java Web]动态生成静态页

最近手机APP需要加一个分享功能.考虑到分享页面的点击量会远远大于注册用户量,为了减少服务器压力决定将分享页面生成html静态页供用户访问. 生成静态页的总体思路为: 从数据库中查找所需的数据 将数据嵌入到html代码中 把生成好的html代码通过文件流上传到服务器 数据嵌入可以通过两种方法实现:html模板替换或jsp动态生成. 1.html模板生成: 流程: 客户端向后端发出http请求 后端从数据库中查找需要的数据 从服务器找到对应的模板文件,替换其中内容并上传到服务器 将上传后得到的ur

页面缓存-freemarker静态处理

1.动态网页和静态网页的差异 动态网页是指静态网页相对的一种网页编程技术.静态网页,随着HTML代码的生成,页面的内容和和效果就不会再发生变化(除非修改页面代码).而动态网页则不然,页面代码虽然没有发生改变,但是显示的内容却是可以随着世界.环境或者数据库操作的结果而发生相应的变化.简而言之,动态网页是基本的HTML语法规范与java.vb.vc等高级程序设计语言.数据库编程等多种技术的融合.以实现对网站内容和风格的高效.动态和交互式的管理. 1)静态网页 a.静态网页的内容稳定,页面加载速度快.

js获取页面url的方法

我们可以用javascript获得其中的各个部分 1, window.location.href 整个URl字符串(在浏览器中就是完整的地址栏) 本例返回值: http://ifisker.com/blog/post/0703/window.location.html# 2,window.location.protocol URL 的协议部分 本例返回值:http: 3,window.location.host URL 的主机部分 本例返回值:www.x2y2.com 4,window.loca

jQuery基础学习5——JavaScript方法获取页面中的元素

给网页中的所有<p>元素添加onclick事件 1 <!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd"> 2 <html xmlns="http://www.w3.org/1999/xhtml"> 3 <head>