python模块之HTMLParser解析出URL链接

# -*- coding: utf-8 -*-
#python 27
#xiaodeng
#python模块之HTMLParser解析出URL链接
#http://www.cnblogs.com/mfryf/p/3691563.html

from HTMLParser import HTMLParser
class MyHTMLParser(HTMLParser):
    def __init__(self):
        HTMLParser.__init__(self) #继承
        self.links = []#links 链接

    def handle_starttag(self, tag, attrs):
        #print "Encountered the beginning of a %s tag" % tag

        if tag == "a":
            if len(attrs) == 0:
                pass
            else:
                for variable, value in attrs:
                    if variable == "href":
                        self.links.append(value)   

if __name__ == "__main__":
    #写入一个html长字符串
    html_code = """<a href="www.google.com"> google.com</a>
<A Href="www.pythonclub.org"> PythonClub </a>
<A HREF = "www.sina.com.cn"> Sina </a>
"""
    hp = MyHTMLParser()
    hp.feed(html_code)
    hp.close()
    #print hp.handle_starttag(‘a‘, ‘href‘)
    print hp.links #[‘www.google.com‘, ‘www.pythonclub.org‘, ‘www.sina.com.cn‘]

时间： 2024-12-26 12:28:13

python模块之HTMLParser解析出URL链接的相关文章

python模块之HTMLParser抓页面上的所有URL链接

# -*- coding: utf-8 -*- #python 27 #xiaodeng #python模块之HTMLParser抓页面上的所有URL链接 import urllib #MyParser类写法一 ''' from HTMLParser import HTMLParser class MyParser(HTMLParser): def __init__(self): HTMLParser.__init__(self) def handle_starttag(self, tag, a

[转载]python模块学习---HTMLParser(解析HTML文档元素)

转自:http://blog.csdn.net/hxsstar/article/details/17241709 HTMLParser是Python自带的模块,使用简单,能够很容易的实现HTML文件的分析. 本文主要简单讲一下HTMLParser的用法. 使用时需要定义一个从类HTMLParser继承的类,重定义函数:handle_starttag( tag, attrs)handle_startendtag( tag, attrs)handle_endtag( tag) 来实现自己需要的功能.

python 模块导入详解

本文不讨论 Python 的导入机制(底层实现细节),仅讨论模块与包,以及导入语句相关的概念.通常,导入模块都是使用如下语句: import ... import ... as ... from ... import ... from ... import ... as ... 一般情况下,使用以上语句导入模块已经够用的.但是在一些特殊场景中,可能还需要其他的导入方式.例如 Python 还提供了 __import__ 内建函数和 importlib 模块来实现动态导入.动态导入的好处是可以延迟

python模块之HTMLParser简介

html.parser是一个非常简单和实用的库,它的核心是HTMLParser类. 工作的流程是:当你feed给它一个类似HTML格式的字符串时,它会调用goahead方法向前迭代各个标签,并调用对应的parse_xxxx方法提取start_tag, tag, attrs data comment和end_tag等等标签信息和数据,然后调用对应的方法对这些抽取出来的内容进行处理.整个HTMLParser的大致结构如下图所示: 可以发现,处理开始标签(handle_starttag).结束标签(h

Python模块导入详解

定义模块:用来从逻辑上组织Python代码(变量.函数.类.逻辑)去实现一个功能.本质就是.py结尾的Python文件. 包:用来从逻辑上组织模块的(可以放一堆模块在目录下).本质就是一个目录(必须带有一个__init__.py文件). 导入模块导入单个: import 模块名导入多个: import 模块名1,模块名2 导入模块中所有代码: from 模块名 import * import导入于from 模块名 import *导入在调用上的区别: module.function() f

Python中的HTMLParser、cookielib抓取和解析网页、从HTML文档中提取链接、图像、文本、Cookies（二）

对搜索引擎.文件索引.文档转换.数据检索.站点备份或迁移等应用程序来说,经常用到对网页(即HTML文件)的解析处理.事实上,通过 Python语言提供的各种模块,我们无需借助Web服务器或者Web浏览器就能够解析和处理HTML文档.本文上篇中,我们介绍了一个可以帮助简化打开位于本地和Web上的HTML文档的Python模块.在本文中,我们将论述如何使用Python模块来迅速解析在HTML文件中的数据,从而处理特定的内容,如链接.图像和Cookie等.同时还会介绍如何规范HTML文件的格式标签

使用Python中的HTMLParser、cookielib抓取和解析网页、从HTML文档中提取链接、图像、文本、Cookies（二）（转）

python之模块datetime详解

# -*- coding: utf-8 -*- #python 27 #xiaodeng #python之模块datetime详解 import datetime #data=datetime.date(2015,11,9)#表示日期的类 #data=datetime.time(hour[,minute[,second[,microsecond[,tzinfo]]]])#表示时间的类,从小时时间开始为参数 #data=datetime.datetime(year,month,day[,hour[

python os.path模块常用方法详解

python os.path模块常用方法详解 1. os.path.abspath(path) 返回path规范化的绝对路径. >>> import os >>> os.path.abspath('pjc.txt') '/home/pjc/pjc.txt' >>> os.path.abspath('c:\\test.csv') #Windows主机指定完美的路径 'c:\\test.csv' 2.os.pat