用html.parser抓网页中的超链接,返回list

#python3

from html.parser import HTMLParser

class MyHTMLParser(HTMLParser):
    """
    1、tag是的html标签,attrs是标签的属性
    2、抓网页中的超链接,返回list
    3、抓网页标题,
    4、handle_data:处理数据,就是<xx>data</xx>中间的那些数据
    """
    def __init__(self):
        HTMLParser.__init__(self)
        self.links=[]

    def handle_starttag(self, tag, attrs):
        if tag=="a":
            for key,value in attrs:
                if key=="href" and "http:" in value:
                    self.links.append(value)

data="""html页面的源码"""

#初始化类MyHTMLParser
parser=MyHTMLParser()

#喂养,塞html页面的代码进去,会返回一个class类
parser.feed(data)

#操作类方法和属性
print(parser.links)#操作属性
时间: 2024-11-06 09:53:09

用html.parser抓网页中的超链接,返回list的相关文章

Python Show-Me-the-Code 第 0009 题 提取网页中的超链接

第 0009 题:一个HTML文件,找出里面的链接. 思路:对于提取网页中的超链接,先把网页内容读取出来,然后用beautifulsoup来解析是比较方便的.但是我发现一个问题,如果直接提取a标签的href,就会包含javascript:xxx和#xxx之类的,所以要对这些进行特殊处理. 0009.提取网页中的超链接.py #!/usr/bin/env python #coding: utf-8 from bs4 import BeautifulSoup import urllib import

网页中的超链接

按照链接路径的不同,网页中超链接一般分为以下三种类型 内部链接:单击该超链接连接到同一网站的另外一个页面锚点链接:单击该超链接连接到同一页面的某一个位置外部链接:单击该超链接连接到其他网站上的某一个页面 按照使用对象的不同,网页中的链接又可以分为 文本超链接——建立在文本上的超链接图像超链接——建立在图片上的超链接E-mail超链接——超链接的目标是打开邮件发送锚点链接——超链接的目标是在同一个页面之内多媒体文件链接——超链接的目标是多媒体文件空链接——超链接没有目标 网页中的超链接

网页中的超链接&lt;a&gt;标签

格式: <a href="目标网址" title="鼠标滑过显示的文本">链接显示的文本</a> 注意:为文本加入<a>标签后文字变为蓝色,点击后变成紫色. 若在新的浏览器窗口打开链接: <a href="目标网址" target="_blank">链接显示的文本</a> 使用mailto在网页中链接email 1,邮箱地址: mailto: 2,抄送地址: cc=

网页中给超链接添加&quot;是否确认&quot;的方法

最近在做数据库, 需要给一个"删除"链接增加是否确认的弹出框, 在网上查到了两种方法: 1, 先看看最麻烦的一种 <html xmlns="http://www.w3.org/1999/xhtml"> <head> <meta http-equiv="Content-Type" content="text/html; charset=utf-8" /> <title>无标题文档&

HTML 网页中以超链接的方式调用iphone 手机的app

<1>. 调用iphone 手机地图APP的简单实例:<a href="http://maps.google.com/maps?q=查询条件">提交查询</a> 参数q:可以是一个某地的地址也可以是一个经纬度坐标,也可以是一个查询语句  如:查询上海市普陀区地图:<a href="http://maps.google.com/maps?q=上海市普陀区">提交查询</a> 如:输入经纬坐标查询地图,注意:纬

C# 网络编程之webBrowser获取网页url和下载网页中图片

该文章主要是通过C#网络编程的webBrowser获取网页中的url并简单的尝试下载网页中的图片,主要是为以后网络开发的基础学习.其中主要的通过应用程序结合网页知识.正则表达式实现浏览.获取url.下载图片三个功能.而且很清晰的解析了每一步都是以前一步为基础实现的. 一.界面设计 界面设计如下图所示,添加控件如图,设置webBrowser1其Anchor属性为Top.Bottom.Left.Right,实现对话框缩放;设置groupBox1其Dock(定义要绑到容器控件的边框)为Buttom,实

抓取网页中的内容、如何解决乱码问题、如何解决登录问题以及对所采集的数据进行处理显示的过程

本文主要介绍如何抓取网页中的内容.如何解决乱码问题.如何解决登录问题以及对所采集的数据进行处理显示的过程.效果如下所示: 1.下载网页并加载至HtmlAgilityPack 这里主要用WebClient类的DownloadString方法和HtmlAgilityPack中HtmlDocument类LoadHtml方法来实现.主要代码如下. var url = page == 1 ? "http://www.cnblogs.com/" : "http://www.cnblogs

Python抓取网页中的图片到本地

今天在网上找了个从网页中通过图片URL,抓取图片并保存到本地的例子: 1 #!/usr/bin/env python 2 # -*- coding:utf-8 -*- 3 4 # Author: xixihuang 5 # Date : 2016/08/28 10:12 AM 6 # Desc: 抓取网页,获取图片URL,抓取图片内容并保存到本地. 7 8 import os 9 import uuid 10 import urllib2 11 import cookielib 12 '''获取

如何使用JAVA语言抓取某个网页中的邮箱地址

现实生活中咱们常常在浏览网页时看到自己需要的信息,但由于信息过于庞大而又不能逐个保存下来. 接下来,咱们就以获取邮箱地址为例,使用java语言抓取网页中的邮箱地址 实现思路如下: 1.使用Java.net.URL对象,绑定网络上某一个网页的地址 2.通过java.net.URL对象的openConnection()方法获得一个URLConnection对象 3.通过URLConnection对象的getInputStream()方法获得该网络文件的输入流对象InputStream 4.循环读取流