python 获取html置顶标签文本信息

class MyParser(HTMLParser):
    def __init__(self,key):
        self.data=[]
        self.key=key
        self.falg=False
        self.linkname=‘‘
        HTMLParser.__init__(self)
    def handle_starttag(self,tag,attrs):
        if self.key and tag ==self.key:
            self.falg=True
    def handle_data(self,data):
        if self.falg and data:
            self.data.append(unicode(eval(repr(data)),"utf-8"))
    def handle_endtag(self,tag):
        if self.key and tag ==self.key:
            self.falg=False
    def getresult(self):
        return self.data

def get_html_tagdata(data,tag):
    IParser = MyParser(tag)
    IParser.feed(data)
    result=IParser.getresult()
    IParser.close()
    return result

  

时间: 2024-07-30 00:49:42

python 获取html置顶标签文本信息的相关文章

python 获取Dmidecode 输出的系统硬件信息

目的: 熟悉利用python 分析文本的信息.分析的文件信息是通过dmidecode 工具抓取的系统硬件信息. 本文结构: (1) 分析dmidecode 工具的输出信息结构 (2) 分别用两种方式对dmidecode 输出的信息实现抓取,获取Manufacturer.Product Name和 Serial Number. dmidecode 输出信息分析 dmidecode 是系统的工具,如果没有安装,需要先安装.在我的机器上的Dmidecode 版本: 安装的方式也很简单,用命令:yum

通过Python 获取Linux系统用户的登录信息

通过Python脚本实现用户登入Linux的时候自动发邮件通知管理员系统环境CentOS 7 #!/usr/bin/env python#coding:utf-8 #导入需要的库,如果没有自行安装import osimport smtplibfrom email.mime.text import MIMETextfrom email.header import Header #获取需要的内容reslut = os.popen("w").read()Login_User = os.pop

[Python]获取win平台文件的详细信息

import win32api def getFileProperties(fname): """ 读取给定文件的所有属性, 返回一个字典. """ propNames = ('Comments', 'InternalName', 'ProductName', 'CompanyName', 'LegalCopyright', 'ProductVersion', 'FileDescription', 'LegalTrademarks', 'Priv

Python 获取URL访问的HEAD头信息

主要给出两个版本,一个是通过 urllib 实现的,另一个是通过 urllib2 实现的,此为第二种,代码及实例如下: >>> import urllib2 >>> from urllib2 import * >>> webUrl = "http://www.baidu.com" >>> doc = urllib2.urlopen(webUrl) >>> print doc.info() #或 d

python获取豆瓣电影TOP250的所有电影的相关信息

参考文档:https://weread.qq.com/web/reader/37132a705e2b2f37196c138k98f3284021498f137082c2e 说明:我才接触网络爬虫,在看<python网络爬虫入门到实践>一书时,作者写了个实例获取豆瓣电影TOP250的所有电影的电影名称,我在此基础上进行了更进一步的改进,获取了所有的相关信息,并用表格将这些信息保存下来. 相关知识: 网络爬虫分为三个步骤: 第一步:伪装为浏览器访问:第二步:解析网页代码:第三步:存储数据. (1)

Python网络编程小例子:使用python获取网站域名信息

Whois简介 whois(读作"Who is",非缩写)是用来查询域名的IP以及所有者等信息的传输协议.简单说,whois就是一个用来查询域名是否已经被注册,以及注册域名的详细信息的数据库(如域名所有人.域名注册商).通过whois来实现对域名信息的查询.早期的whois查询多以命令列接口存在,但是现在出现了一些网页接口简化的线上查询工具,可以一次向不同的数据库查询.网页接口的查询工具仍然依赖whois协议向服务器发送查询请求,命令列接口的工具仍然被系统管理员广泛使用.whois通常

python 获取对象信息

当我们拿到一个对象的引用时,如何知道这个对象是什么类型.有哪些方法呢? 使用type() 首先,我们来判断对象类型,使用type()函数: 基本类型都可以用type()判断: >>> type(123) <type 'int'> >>> type('str') <type 'str'> >>> type(None) <type 'NoneType'> 如果一个变量指向函数或者类,也可以用type()判断: >&

python获取kegg pathway map的信息

1. 定位及获取目标元素 由于这是一个structured data,而且有一定的层次,鉴于需要较快完成信息的整理,所以并没有另外新学structured data信息的爬取(以后再说QAQ) 如果简单的复制粘贴的话,会变成以下模样... (可能要改好久的换行符,我不!!!) 那首先直接抓取最多的元素,省去最多的劳动力 在检查元素后发现,像01100Metabolic pathways这样的元素都分组到某个list中,那么直接driver.find_elements_by_class_name(

python获取原图GPS位置信息,轻松得到你的活动轨迹

一.图像EXIF信息 介绍 EXIF(Exchangeable image file format,可交换图像文件格式)是专门为数码相机的照片设定的,可以记录数码照片的属性信息和拍摄数据,如拍摄时间.图像分辨率.感光值.GPS坐标等. Exif最初由日本电子工业发展协会在1996年制定,版本为1.0.1998年,升级到2.1,增加了对音频文件的支持.2002年3月,发表了2.2版. Exif可以附加于JPEG.TIFF.RIFF等文件之中,为其增加有关数码相机拍摄信息的内容和索引图或图像处理软件