正则表达式 查找网页源代码 提取指定内容

import requests
import re

txt=‘<a href="https://www.vgirls.com/13404.html" class="list-title text-md h-2x" target="_blank">想把夏日的阳光寄给冬日的你</a>‘
urla=re.findall(‘<a href="(.*?)" class="list-title text-md h-2x" target="_blank">.*?</a>‘,txt)
for i in urla:
print(i)
urlb=re.findall(‘<a href=".*?" class="list-title text-md h-2x" target="_blank">(.*?)</a>‘,txt)
for i in urlb:
print(i)
结果:

https://www.vgirls.com/13404.html
想把夏日的阳光寄给冬日的你

总结:

1。根据网页源代码找到关键位置,主要分析相关同一级别的源代码的共同点

2。找到关键如txt的内容,复制下来
3。粘贴到空白处:urla=re.findall(‘   ‘,txt)
4.需要选择出来的部分去掉改成 (.*?);不想选择但内容又变化的去掉改成  .?*,一定不能加括号

5。所以第一个只提取超级连接的地址;第二个只提取“标签A中的文字"

原文地址:https://www.cnblogs.com/xkdn/p/12243681.html

时间: 2024-10-29 05:10:15

正则表达式 查找网页源代码 提取指定内容的相关文章

C#用正则表达式 获取网页源代码标签的属性或值

 原文地址:http://blog.csdn.net/lhfly/article/details/7684319 整理两个 在C#中,用正则表达式 获取网页源代码标签的属性或值的方法 : 1.获取标签中的值: <a href="www.csdn.net" class="main" >CSDN</a> 结果:CSDN /// <summary> /// 获取字符中指定标签的值 /// </summary> /// <

java 使用正则表达式从网页上提取网站标题

如何从网页上抓取有价值的东西?看懂了下面的程序(非常简单),想从网页上抓取什么信息(标题.内容.Email.价格等)就能抓取什么信息. package catchhtml; import java.io.BufferedReader; import java.io.IOException; import java.io.InputStreamReader; import java.net.MalformedURLException; import java.net.URL; import jav

提取指定内容

#提取文件中资源所在的URL例如https://www.linuxbaodian.com/sysmg/164.html模拟文档下载位置:https://pan.baidu.com/s/1IrgmD93_4g23GSfTpcRY0w 答案:sed -nr 's#(<loc>)(.*)(</loc>)#\2#gp' file_name 原文地址:http://blog.51cto.com/13447608/2287385

c# 正则表达式对网页进行内容抓取

原文 c# 正则表达式对网页进行内容抓取 搜索引擎中一个比较重要的环节就是从网页中抽取出有效内容.简单来说,就是吧HTML文本中的HTML标记去掉,留下我们用IE等浏览器打开HTML文档看到的部分(我们这里不考虑图片). 将HTML文本中的标记分为:注释,script ,style,以及其他标记分别去掉: 1.去注释,正则为: output = Regex.Replace(input, @"<!--[^-]*-->", string.Empty, RegexOptions.

linux 查找指定内容并显示指定行数的命令,显示匹配行和行号

grep -i "desktop-printing-0.19-20.2.el5.x86_64" -n -A 10 install.log linux 查找指定内容并显示指定行数的命令,显示匹配行和行号,布布扣,bubuko.com

Java使用正则表达式取网页中的一段内容(以取Js方法为例)

关于正则表达式: 表1.常用的元字符 代码 说明 . 匹配除换行符以外的任意字符 \w 匹配字母或数字或下划线或汉字 \s 匹配任意的空白符 \d 匹配数字 \b 匹配单词的开始或结束 ^ 匹配字符串的开始 $ 匹配字符串的结束 表2.常用的限定符 代码/语法 说明 * 重复零次或更多次 + 重复一次或更多次 ? 重复零次或一次 {n} 重复n次 {n,} 重复n次或更多次 {n,m} 重复n到m次 表3.常用的反义代码 代码/语法 说明 \W 匹配任意不是字母,数字,下划线,汉字的字符 \S

用正则表达式去截取网页里文字的方法。参数为读取的网页源代码

//抓取文字方法,参数为网页源代码 public string ExtractText(string strHtml) { string result = strHtml; result = RemoveComment(result); //调用去掉注释等方法 result = RemoveScript(result); //调用去除js 方法 result = RemoveStyle(result); //调用去除样式表方法 result = RemoveTags(result); //调用去

打印网页中指定内容

正常打印整个网页只需要window.print(); 指定内容区域打印 var newcont = document.getElementById("printPage").innerHTML; var oldcont = document.body.innerHTML; document.body.innerHTML = newcont; //把打印的内容赋值给body window.print(); //打印指定的内容 document.body.innerHTML = oldco

Linux 查找当前目录下所有包含指定内容的文件

1.查找当前目录[./]中含用内容为zhang的所有文件 [[email protected] data]$ grep -rl zhang ./ ./a.txt ./b.txt 2.查找当前目录中含用内容为zhang的文件并将修改为"liu" [[email protected] data]$ sed -i "s/zhang/xxxx/g" `grep -rl zhang ./` 总结:sed -i "s/查找字符/替换字符/g" `grep 查