正则表达式查找网页源代码提取指定内容

import requests
import re

txt=‘<a href="https://www.vgirls.com/13404.html" class="list-title text-md h-2x" target="_blank">想把夏日的阳光寄给冬日的你</a>‘
urla=re.findall(‘<a href="(.*?)" class="list-title text-md h-2x" target="_blank">.*?</a>‘,txt)
for i in urla:
print(i)
urlb=re.findall(‘<a href=".*?" class="list-title text-md h-2x" target="_blank">(.*?)</a>‘,txt)
for i in urlb:
print(i)
结果：

https://www.vgirls.com/13404.html
想把夏日的阳光寄给冬日的你

总结：

1。根据网页源代码找到关键位置，主要分析相关同一级别的源代码的共同点

2。找到关键如txt的内容，复制下来
3。粘贴到空白处：urla=re.findall(‘ ‘,txt)
4.需要选择出来的部分去掉改成 (.*?)；不想选择但内容又变化的去掉改成 .?*,一定不能加括号

5。所以第一个只提取超级连接的地址；第二个只提取“标签A中的文字"

原文地址：https://www.cnblogs.com/xkdn/p/12243681.html

时间： 2024-10-29 05:10:15

正则表达式查找网页源代码提取指定内容的相关文章

C#用正则表达式获取网页源代码标签的属性或值

原文地址:http://blog.csdn.net/lhfly/article/details/7684319 整理两个在C#中,用正则表达式获取网页源代码标签的属性或值的方法 : 1.获取标签中的值: <a href="www.csdn.net" class="main" >CSDN</a> 结果:CSDN /// <summary> /// 获取字符中指定标签的值 /// </summary> /// <

java 使用正则表达式从网页上提取网站标题

如何从网页上抓取有价值的东西?看懂了下面的程序(非常简单),想从网页上抓取什么信息(标题.内容.Email.价格等)就能抓取什么信息. package catchhtml; import java.io.BufferedReader; import java.io.IOException; import java.io.InputStreamReader; import java.net.MalformedURLException; import java.net.URL; import jav

提取指定内容

#提取文件中资源所在的URL例如https://www.linuxbaodian.com/sysmg/164.html模拟文档下载位置:https://pan.baidu.com/s/1IrgmD93_4g23GSfTpcRY0w 答案:sed -nr 's#(<loc>)(.*)(</loc>)#\2#gp' file_name 原文地址:http://blog.51cto.com/13447608/2287385

c# 正则表达式对网页进行内容抓取

原文 c# 正则表达式对网页进行内容抓取搜索引擎中一个比较重要的环节就是从网页中抽取出有效内容.简单来说,就是吧HTML文本中的HTML标记去掉,留下我们用IE等浏览器打开HTML文档看到的部分(我们这里不考虑图片). 将HTML文本中的标记分为:注释,script ,style,以及其他标记分别去掉: 1.去注释,正则为: output = Regex.Replace(input, @"", string.Empty, RegexOptions.

linux 查找指定内容并显示指定行数的命令，显示匹配行和行号

grep -i "desktop-printing-0.19-20.2.el5.x86_64" -n -A 10 install.log linux 查找指定内容并显示指定行数的命令,显示匹配行和行号,布布扣,bubuko.com

Java使用正则表达式取网页中的一段内容(以取Js方法为例)

关于正则表达式: 表1.常用的元字符代码说明 . 匹配除换行符以外的任意字符 \w 匹配字母或数字或下划线或汉字 \s 匹配任意的空白符 \d 匹配数字 \b 匹配单词的开始或结束 ^ 匹配字符串的开始 $ 匹配字符串的结束表2.常用的限定符代码/语法说明 * 重复零次或更多次 + 重复一次或更多次 ? 重复零次或一次 {n} 重复n次 {n,} 重复n次或更多次 {n,m} 重复n到m次表3.常用的反义代码代码/语法说明 \W 匹配任意不是字母,数字,下划线,汉字的字符 \S

用正则表达式去截取网页里文字的方法。参数为读取的网页源代码

//抓取文字方法,参数为网页源代码 public string ExtractText(string strHtml) { string result = strHtml; result = RemoveComment(result); //调用去掉注释等方法 result = RemoveScript(result); //调用去除js 方法 result = RemoveStyle(result); //调用去除样式表方法 result = RemoveTags(result); //调用去

打印网页中指定内容

正常打印整个网页只需要window.print(); 指定内容区域打印 var newcont = document.getElementById("printPage").innerHTML; var oldcont = document.body.innerHTML; document.body.innerHTML = newcont; //把打印的内容赋值给body window.print(); //打印指定的内容 document.body.innerHTML = oldco

Linux 查找当前目录下所有包含指定内容的文件

1.查找当前目录[./]中含用内容为zhang的所有文件 [[email protected] data]$ grep -rl zhang ./ ./a.txt ./b.txt 2.查找当前目录中含用内容为zhang的文件并将修改为"liu" [[email protected] data]$ sed -i "s/zhang/xxxx/g" `grep -rl zhang ./` 总结:sed -i "s/查找字符/替换字符/g" `grep 查

猜你喜欢

ceph部署二（存储集群安装）

完成预检之后,你就可以开始部署 Ceph 存储集群了.二.创建集群2.1.创建ceph集群mkdir my-clustercd my-clusterceph-deploy new ceph1 ceph ...

月球美容计划之图的储存结构汇总

SJ图论非常流弊,为了省赛队里知识尽量广,我就直接把图continue,如今回想起来丫的全忘了,从头開始吧. 先写写图的存储,再写写最小生成树和最短路的几个经典算法,月球美容计划就能够结束了.0 0. ...

UVa 12299 RMQ with Shifts(线段树)

线段树,没了.. ----------------------------------------------------------------------------------------- # ...

新年新气象

其实很早就像写写一年的总结,但是一直没有下手. 趁这个空档时间,就啰嗦一下. 知识铺垫 2014年,对我来说是一个改变人生的一年.因为这一年刚好面临找工作,而我的准备也从14年的新年一直到现在. 14 ...

【JVM】JVM系列之JVM体系（一）

一.前言为什么要学习了解Java虚拟机 1.我们需要更加清楚的了解Java底层是如何运作的,有利于我们更深刻的学习好Java. 2.对我们调试错误提供很宝贵的经验. 3.这是合格的Java程序必须要 ...

热插，刷新linux硬盘脚本

#!/bin/bash INT=0 read -p "Please enter news host*:" SHURU while [ $INT -le $SHURU ] do e ...

poj2000---和1969一样的模板

#include <stdio.h> #include <stdlib.h> int main() { int d; while(scanf("%d",&a ...

Hibernate之QBC检索和本地SQL检索

QBC查询就是通过使用Hibernate提供的Query By Criteria API来查询对象,这种API封装了SQL语句的动态拼装,对查询提供了更加面向对象的功能接口本地SQL查询来完善HQL ...

AOP（面向切面编程，翻译自MSDN）

目录 AOP的概念静态实现AOP .Net 框架实现AOP(动态代理实现AOP) 动态代理AOP实现方法过滤 AOP参考本文翻译自 :https://msdn.microsoft.com/en-u ...

现在学的是ssm的相关东西~记录一下学习的连接

涉及到mybatis的使用,所以在浏览器中收藏了三两个连接,现在放到这里,以防换系统找不到http://blog.csdn.net/zhll3377/article/details/8203440,h ...

论文检测软件的积极意义

目前各高校使用的论文检测软件大都是清华大学做的,这款软件已经试用好多年,现在比较成熟了,所以才开始正式使用.以前只能对比重复率,现在还可以区别引证.引进这个软件,主要是为了端正学风.软件数据库收录了2 ...

selenium的安装教程(基于Python)

在阅读之前,首先你需要安装好Python 可以直接去Python的官网下载.建议使用Python3,毕竟官方很快就停止对Python2的支持了另外,此篇文章主要目的是为了在公司的分享会上使用,可能有 ...

v-for 的一些用法 :class {{index}}

<tr v-for="player of players :class="player.factionId? 'horde':'alliance'"> < ...

我的校招季大概也是结束了。

其实,不知道该写什么.这些天,腾讯的offer让我有些飘飘然,让我有些晕乎乎,我有的时候很看得起自己,有的时候又很看不起自己. 说到底,我觉得自己只是比别人执拗一点,坚持一点. 论聪明,我绝对是一般的 ...

IC封装

1.QFN •QFN—Quad Flat No-lead Package 四方无引脚扁平封装 2.SOIC •SOIC—Small Outline IC 小外形IC封装 3.TSSOP •TSSOP— ...

多态之虚方法

using System; using System.Collections.Generic; using System.Linq; using System.Text; using System.T ...

请看以下代码,你发现有什么特殊之处吗? public class MethodOverload { public static void main(String[] args) { System ...

Python机器学习（三）--决策树算法

一.决策树原理决策树是用样本的属性作为结点,用属性的取值作为分支的树结构. 决策树的根结点是所有样本中信息量最大的属性.树的中间结点是该结点为根的子树所包含的样本子集中信息量最大的属性.决策树的叶结 ...

FZU Problem 2150 Fire Game

这个题真要好好说一下了,比赛的时候怎么过都过不了,压点总是出错(vis应该初始化为inf,但是我初始化成了-1....),wa了n次,后来想到完全可以避免这个问题,只要入队列的时候判断一下就行了. 由 ...

How to push your code in git

1. display all the branches git branch -a 2. delete branches git br -d <branch> # 删除某个分支 git b ...

专题

随机推荐

© 2024 憋错料 | info#biecuoliao.com | 10 q. 0.023 s.