使用xpath提取页面所有a标签的href属性值

# -*- coding: utf-8 -*-

#1.选取节点
#获取所有的div元素 //div
#/代表获取根节点的直接子元素
#获取所有带有id属性的div //div[@id]
#2.谓词(索引从1开始)
#获取body下面的第一个/最后一个div元素/前两个 //body/div[1] //body/div[last()] //body/div[position<3]
#获取具有class='price'属性的div标签 //div[@class='price']
#3.通配符
# * |
#4.运算符 and or 

import requests
from lxml import etree

url = "http://www.baidu.com"
resp = requests.get(url)
resp.encoding="utf-8"

html = etree.HTML(resp.text)
#获取所有a标签的href属性
linklist = html.xpath("//a/@href")

for item in linklist:
    print(item)

原文地址:https://www.cnblogs.com/zxfei/p/12064378.html

时间: 2024-11-05 20:47:42

使用xpath提取页面所有a标签的href属性值的相关文章

给&lt;a&gt;标签增加href属性 ~~~ 转转

给<a>标签增加href属性,就意味着以下事情: :link选择器可以选择到它 这个a标签可以获得焦点(可以通过tab按键访问到) 在浏览器的默认样式表中,有href属性的<a>标签才有cursor:pointer的效果(尤其是在低版本的IE上). 绑定了onclick事件的<a>标签,尤其是它的作用是ajax请求时,基本上我们就用不上这个标签的默认行为,也连接不到的实际页面,一般而言也会在CSS里给予了这个元素的cursor等样式.这时候还要加上href属性,是为了:

&lt;a&gt;标签的href属性

<a> 标签的 href 属性用于指定超链接目标的 URL,href 属性的值可以是任何有效文档的相对或绝对 URL,包括片段标识符和 JavaScript 代码段. javascript: 是一个伪协议,其他的伪协议还有 mail:  tel:  file:  等等.例如: <p><a href="javascript:window.close();">退出管理系统</a></p> javascript:是表示在触发<

js 重写a标签的href属性和onclick事件

适应场景:假如移动端拨打电话,需要给a标签添加href属性,但是由于需求,需要链接跳转的同时给a标签添加onclick事件,如果不做任何处理的话,默认执行点击事件,而不会跳转href属性的链接. 怎么解决:重写a标签的href属性和onclick事件 //这段代码可放入点击事件里 (function(){ this.fnCancel(); var _event_list = {}; // 找到页面上所有的a标签 var links = document.getElementsByTagName(

css27】base标签带有href属性会让chrome里的svg元素url失效

一个chrome的问题,但具体原因不明. 触发条件:chrome浏览器base标签里href属性有值的时候 触发问题:svg里面的元素如果有用url的滤镜和模糊,则会失效,在firefox里和IE10没有发现这个问题. 正常状态: 有base标签且href里值为“.”的时候chrome里的状态:  测试代码: <!doctype html> <html> <head> <meta charset="utf-8"> <title>

如何检测页面是否有重复的id属性值

如何检测页面是否有重复的id属性值: 根据W3C标准规定,在同一个文档内id属性值是唯一的,也就是说不能够有重复的id属性值,如果当页面比较庞大的话,如何去检测是否有重复的id属性值那将是一个复杂的工作,下面将提供一段代码实例可以解决此问题. 代码如下: <!DOCTYPE html> <html> <head> <meta charset=" utf-8"> <meta name="author" conten

java正则表达式获取指定HTML标签的指定属性值

package com.mmq.regex; import java.util.ArrayList; import java.util.List; import java.util.regex.Matcher; import java.util.regex.Pattern; /** * @use 获取指定HTML标签的指定属性的值 * @FullName com.mmq.regex.MatchHtmlElementAttrValue.java </br> * @JDK 1.6.0 </b

在函数中处理html点击事件在标签中增加属性值来解决问题。

backhtml += "  <i onclick='dispshow("+item.newsID+")'>" + item.newTitle + "</i>"; //这行代码相当于“投资还款标签” //下面处理函数 function dispshow(newsID){    $.ajax({        type: "post",        url: "/Information/vie

javascript和jquery修改a标签的href属性

javascript: 代码如下: document.getElementById("myId").setAttribute("href","www.xxx.com"); document.getElementById("myId").href = "www.xxx.com"; jquery: 代码如下: $("#myId").attr("href","ww

xpath提取目录下所有标签内的内容 //text()

利用xpath来提取所有标签里面的内容,即使标签头不同 1 #-*-coding:utf8-*- 2 import re 3 import os 4 from lxml import etree 5 html = ''' 6 <!DOCTYPE html> 7 <html> 8 <head lang="en"> 9 <meta charset="UTF-8"> 10 <title>测试-常规用法</t