python获取script里的内容

import requests
from bs4 import BeautifulSoup

url1 = "https://mip.keoaeic.org/journal_skills/6616.html"
html = requests.get(url1).content
html=html.decode(‘utf-8‘) # python3
soup = BeautifulSoup(html, "html.parser")
a = soup.select(‘script[type="application/ld+json"]‘)
#查找<script[type="application/ld+json"]> 里面的内容,因为这个地址上面有多个相同的,只需要获取对应的下标内容即可。

t = list(a)[0].text
print(r)

  

原文地址:https://www.cnblogs.com/todarcy/p/12502838.html

时间: 2024-10-13 23:24:23

python获取script里的内容的相关文章

用Python提取XML里的内容,存到Excel中

最近做一个项目是解析XML文件,提取其中的chatid和lt.timestamp等信息,存到excel里. 1.解析xml,提取数据 使用python自带的xml.dom中的minidom(也可以用lxml) xml文件如下: minidom.parse()#解析文件,返回DOM对象 _get_documentElement()DOM是树形结构,获得了树形结构的根节点 getElementsByTagName()根据name查找根目录下的子节点 getAttribute()获取DOM节点的属性的

正则表达式获取TABLE里的内容

//过滤\n 转换成空            String withoutNString=message.Replace("\n", "");            //过滤\r 转换成空            String withoutRString = withoutNString.Replace("\r", "");            //过滤\t 转换成空            String withoutTSt

获取Web.config的内容

web.config内容: 获取appSettings里的内容: //获取ip string ip = System.Configuration.ConfigurationManager.AppSettings["server"];

vue.js 2.x 版本script里面的dom被过滤,从而获取不到dom字符串的解决方案

做项目中 vue.js 在1.x版本切换的到2.x版本的时候遇到了一个问题就是说,1.x版本实例化之后 script 里面的dom 字符串不会被过滤掉,但是2.x版本之后就会被过滤例如: 1.x 版本被实例化之后的script 内容 2.x 版本被实例化之后的script 内容 这样我们在获取 id="sh" 内容的时候就无法获取到dom结构,很多时候我们想使用这些dom结构,怎么办呢? 于是乎,经过测试及文档的查看,考虑到了,那么如果还没被完全实例化之后,我们就去获取它,这样我们就能

获取WebView里的网页文本内容

获取WebView里的网页文本内容,能够採用例如以下方法: public class ComJSInterface { public void loadHtmlContent(String content) { Log.d("comJs", "html:" + content); } } mWebView.addJavascriptInterface(new ComJSInterface(), "comjs"); mWebView.loadUrl

Python获取当前脚本文件夹(Script)的绝对路径

Python获取当前脚本绝对路径 Python脚本有一个毛病,当使用相对路径时,被另一个不同目录下的py文件中导入时,会报找不到对应文件的问题.感觉是当前工作目录变成了导入py文件当前目录.如果你有配置文件的读取操作,然后都放在一个py文件中,而你又用的是相对路径,而且这个py文件在多个不同目录下的py文件中被导入,那就呵呵了...还是用绝对路径吧. 解决这个问题,可以用绝对路径.当然是自动的绝对路径,而不是每次都手动给前缀赋值,让脚本自动寻找当前文件的绝对路径. 此处分享在python下获取一

有关利用python获取网页, 以及KDD近几年论文标题与摘要链接

最近一直在看KDD的论文,不过,由于老师并没有什么合理的方向性,所以考虑把kdd中的大部分内容都利用python将所有标题.摘要获取下来. 还有一个原因在于,看acm上的摘要,都只显示了两行,再看多点儿,就需要点击expand,觉得非常不爽,所以就用python脚本把html标签删掉.. 想到的方法自然是通过python利用正则表达式对ACM的KDD网页进行字符串匹配,获得相应的网页字符串,然后将所有html的标签删除(例如<div></div>等), 将这些标签删除之后,就能够得

python3获取一个网页特定内容

我们今天要爬取的网址为:https://www.zhiliti.com.cn/html/luoji/list7_1.html 一.目标:获取下图红色部分内容 即获取所有的题目以及答案. 二.实现步骤. 分析:1,首先查看该网站的结构. 分析网页后可以得到: 我们需要的内容是在该网页<li>标签下,详细内容链接在<small>的<a>的href中. 但是这样我们最多只能获取这一页的内容 别着急 我们点击第二页看一下目标网址有什么变化 我们发现目标网址最后的数字变成了2 再

学习Python总是学了新内容又忘了旧的咋办?

学习Python总是学了新内容又忘了旧的咋办? 比如爬虫的几个解析库,学了pyquery后感觉beautifulsoup又有点忘了,只能大概记得有哪些功能,xpath感觉基本忘光了,最近看了一些selenium的说明文档,感觉也是脑袋里乱乱的,用起来还要到网上查. 1.不仅仅是学习Python,任何一门知识都是,记忆差是学习的大敌. 很多初学者在接触新知识的时候都会给自己很大的压力,这种“习惯性压力思维”从人很小的时候就已经存在了,学习识字的时候,家长们往往最头疼的就是孩子今天学十个字,明早睡醒