python(初学提取html页面元素,借用老师)

 -*- coding: utf-8 -*-
import urllib2

import os

def mean_audience_score(id):
    arv = 0.0
    sc_url = "http://movie.mtime.com/" + id + "/"
    sc_req = urllib2.Request(sc_url, headers={‘User-Agent‘: "Magic Browser"})
    sc_page = urllib2.urlopen(sc_req)
    sc_strw = sc_page.read()

    sc_str = re.findall(r‘<span class="db_point ml6">+\d+\.+\d+</span>‘, sc_strw)
    if len(sc_str) == 0:
        return arv
    for tt in sc_str:
        scsc = re.findall(r‘\d+\.+\d‘, tt)
        arv += float(scsc[0])
    return arv / len(sc_str)

url = ‘http://theater.mtime.com/China_Anhui_Province_Wuhu/‘
req = urllib2.Request(url,headers={‘User-Agent‘ : "Magic Browser"})
webpage = urllib2.urlopen(req)
strw = webpage.read()*0
print strw
tg_start = strw.find(‘hotplaySvList = [‘)
print tg_start
if tg_start == -1:
	print ‘not find start tag‘
	os._exit(0)
tmp = strw[tg_start:-1]
print tmp
tg_end = tmp.find(‘;‘)
print tg_end
if tg_end == -1 :
    print ‘not find end tag‘
    os._exit(0)
tmp = tmp[len(‘hotplaySvList = [‘):tg_end]
print tmp
tar_ls = tmp.split("},{")
dict_film = {}
for t0 in tar_ls:
    ls_t = t0.split(‘,‘)
    id = ls_t[0].split(‘:‘)[-1].strip()
    film = ls_t[-1].split(‘"‘)[-2].strip()
    dict_film[id] = film
for t in dict_film:
    print "id:" + t + "  film:" + dict_film[t]
时间: 2024-12-12 10:43:44

python(初学提取html页面元素,借用老师)的相关文章

Python(81)_selenium定位页面元素

1.通过id来定位 #-*-coding:utf-8-*- from selenium import webdriver f = webdriver.Chrome("D:\\Documents\\Downloads\\chromedriver.exe") f.get("http://www.baidu.com") f.find_element_by_id('kw').send_keys('selenium') f.find_element_by_id('su').c

Selenium with Python 003 - 页面元素定位

WebUI自动化,首先需要定位页面中待操作的元素,然后进行各种事件操作,这里我们首先介绍Selenium Python 如何定位页面元素,WebDriver 提供了一系列的方法. 定位单个页面元素(返回单个元素对象) find_element_by_id find_element_by_name find_element_by_xpath find_element_by_link_text find_element_by_partial_link_text find_element_by_tag

iframe提取与改变父页面元素

一:利用jquery方法获得 1:取值 $(window.parent.document).find("#second_navigator").html(); 2:改变父页面元素 $(window.parent.document).find("#second_navigator").html("我是从iframe里传来的值"); 二:javaScript方法 1:取值 window.parent.document.getElementById(&

nodejs cheerio模块提取html页面内容

nodejs cheerio模块提取html页面内容 Table of Contents 1. nodejs cheerio模块提取html页面内容 1.1. 找到目标元素 1.2. 美化文本输出 1.3. 提取答案文本 1.4. 最终代码 本文给出使用一个用cheerio模块提取html文件中指定内容的例子,并说明具体步骤.涉及到的API.以及其它模块. cheerio模块是一个类似jquery的模块,具有相似的API.功能,能够将一个网页解析为DOM,以及通过selector选择元素,设置.

理解描述页面元素大小的几种方式

我们经常可以看到关于描述页面元素大小的属性,比如:offsetWidth.clientWidth以及scrollWidth等等.但是,要正确区分它们可能就不是一件容易的事情了.本篇博文,我将通过例子细致地向大家介绍这几种描述页面元素大小的属性.阅读目录如下,大家可以根据需要阅读相应的部分: 偏移量 客户区大小 滚动大小 第一部分:偏移量 偏移量,它包括元素在屏幕上占用的所有可见的空间.这里所说的可见的空间是指内容区域.内边距.边框.注意:由于外边距的作用仅仅是为了使不同的元素之间产生一定的距离,

网站初学笔记3-HTML实用元素2

HTML 链接 - name 属性 name 属性规定锚(anchor)的名称.您可以使用 name 属性创建 HTML 页面中的书签.书签不会以任何特殊方式显示,它对读者是不可见的.当使用命名锚(named anchors)时,我们可以创建直接跳至该命名锚(比如页面中某个小节)的链接,这样使用者就无需不停地滚动页面来寻找他们需要的信息了. 首先,我们在 HTML 文档中对锚进行命名(创建一个书签):<a name="tips">基本的注意事项 - 有用的提示</a&

Selenium2学习-026-WebUI自动化实战实例-024-获取页面元素

非常简单的方法封装,就不啰嗦了,直接上码咯 ^_^ 1 /** 2 * Get element. It will be return null when there is not such element. 3 * 4 * @author Aaron.ffp 5 * @version V1.0.0: autoSeleniumDemo main.aaron.sele.core SeleniumCore.java getWebElement, 2015-7-31 13:56:59 Exp $ 6 *

网站初学笔记3-HTML实用元素4

<!DOCTYPE> 声明Web 世界中存在许多不同的文档.只有了解文档的类型,浏览器才能正确地显示文档.HTML 也有多个不同的版本,只有完全明白页面中使用的确切 HTML 版本,浏览器才能完全正确地显示出 HTML 页面.这就是 <!DOCTYPE> 的用处.<!DOCTYPE> 不是 HTML 标签.它为浏览器提供一项信息(声明),即 HTML 是用什么版本编写的. HTML 中的预留字符必须被替换为字符实体. HTML 实体在 HTML 中,某些字符是预留的.在

Selenium2学习-028-WebUI自动化实战实例-026-获取页面元素值或者元素属性值

在自动化脚本编写过程中,经常需要获取页面元素的文本进行判断,以便对于不同的文本进行不同的处理.比如:很多的购物网站,加入购物车的按钮是有多个状态的(加入购物车.到货通知.暂不销售等),那么在实际的操作过程中,需要对此按钮对应的不同的值,执行相应的逻辑. 代码相对比较简单,在此不再详细说明了,直接上码,敬请各位小主参阅,若有不足之处,敬请大神指正,非常感谢! 获取元素值的源码如下所示: 1 /** 2 * @function Get text of element. It will be retu