信息的组织和提取

1.信息的三种类型。’

1.1  XML

2.JSON

3.YAML

三种信息的比较:

2.信息的提取

import requestsr = requests.get("http://python123.io/ws/demo.html")
demo = r.text

from bs4 import BeautifulSoup
soup = BeautifulSoup(demo,"html.parser")

# Tag

# print(soup.find_all(tag))    # NO tag
for tag in soup.find_all():   

string

# string
# print(soup.find_all("a").string)           # 错误表达
print(soup.find_all("a",str))                # 错误表达
print(soup.find_all(str= "Basic Python"))    # 错误表达
print(soup.find_all(string= "Basic Python")) # 正确表达   精确搜索               # [‘Basic Python‘]
import re
print(soup.find_all(string=re.compile("python")))   # 正则运算    模糊搜             # [‘This is a python demo page‘, ‘The demo python introduces several python courses.‘]

others

# 以标签属性值进行,标注属性属性检索
print(soup.find_all("p","course"))       #
print(soup.find_all(id="link1"))

print(soup.find_all(id="link"))                        # [] 只能精确搜索
print(soup.find_all(id=re.compile("link")))            # 引入正则表达式进行搜索

# 是否对子孙节点进行搜索,默认为是
print(soup.find_all("a"))
print(soup.find_all("a",recursive=False))                   # no 对子孙节点进行搜索                        # []
时间: 2024-10-31 07:34:21

信息的组织和提取的相关文章

JDBC连接数据库查询信息的步骤(提取成配置文件方式)

硬编码格式的弊端:数据库发生改变时,要重新修改代码,重新编译和部署 解决方法:将数据库信息写在配置文件当中,让程序通过读取配置文件来获得这些信息 jdbc.driver.class=com.mysql.jdbc.Driver jdbc.connection.url=jdbc:mysql://127.0.0.1:3306/tree jdbc.connection.username=root jdbc.connection.password=123321 编写配置文件database.propert

Tair LDB基于Prefixkey的范围查找性能优化项目之如何提取key的prefix_size信息

New Document/* GitHub stylesheet for MarkdownPad (http://markdownpad.com) */ /* Author: Nicolas Hery - http://nicolashery.com */ /* Version: b13fe65ca28d2e568c6ed5d7f06581183df8f2ff */ /* Source: https://github.com/nicolahery/markdownpad-github */ /*

在Scrapy中如何利用Xpath选择器从HTML中提取目标信息(两种方式)

前一阵子我们介绍了如何启动Scrapy项目以及关于Scrapy爬虫的一些小技巧介绍,没来得及上车的小伙伴可以戳这些文章: 手把手教你如何新建scrapy爬虫框架的第一个项目(上) 手把手教你如何新建scrapy爬虫框架的第一个项目(下) 关于Scrapy爬虫项目运行和调试的小技巧(上篇) 关于Scrapy爬虫项目运行和调试的小技巧(下篇) 今天我们将介绍在Scrapy中如何利用Xpath选择器从HTML中提取目标信息.在Scrapy中,其提供了两种数据提取的方式,一种是Xpath选择器,一种是C

基于Web开发模式的信息抽取

基于Web 开发模式的信息抽取 信息抽取是一个互联网自然语言处理的一个首要环节,信息抽取的准确度会直接影响到后续的处理.信息抽取的目标是去除噪音,获取网页有价值的信息如网页的标题.时间.正文.链接等信息.   主流算法介绍 网页信息抽取的方法有很多,比如从算法上分:基于模板的,基于信息量.基于视觉的.基于语义挖掘的.基于统计的.从HTML 处理上分为:基于行块.基于DOM 树.下面我逐一介绍. 1.     基于模板,一般由人工维护一个URL 和HTML 的模板.当URL 匹配到某个URL 模板

JMeter学习-011-JMeter 后置处理器实例之 - 正则表达式提取器(三)多参数获取进阶引用篇

前两篇文章分表讲述了 后置处理器 - 正则表达式提取器概述及简单实例.多参数获取,相应博文敬请参阅 简单实例.多参数获取. 此文主要讲述如何引用正则表达式提取器获取的数据信息.其实,正则表达式提取器获取的数据,均可看做一个变量(单个数据,此处指所需获取的测试相关数据)或数组(多个数据),通过引用变量或者数组的数据,达到应用其数据的目的.下面针对此两种方式进行介绍. 第一种:单数据变量 但数据变量的应用比较简单,同我们日常 shell 脚本引用变量相同,引用样式:引用名称.例如要引用下图中的变量,

统计Github项目信息

项目总述 项目Github传送门 主要任务是从之前同项目的组员建的关系型数据库里提取出我们需要的GitHub的数据,并把结果保存到文件,以便之后插入到数据库. 从已经建立好的关系型数据库上多线程地读取GitHub的项目信息.主要信息包括项目的名称,用户名,被Star的数量,是否被fork,以及该项目用到的编程语言. 在统计之前的neo4j数据库长这样,其中紫色的是项目信息,蓝色的是用户信息,灰色的是commit信息,这些大量的信息中我们需要提取出我们需要的数据: 结果呈现 实验室的分项目,运行需

【转】用图片隐藏信息的技术实现

上一个帖子,介绍了“用图片传播FQ工具”.今天,来聊一下其中的技术原理.如果你对IT技术没啥兴趣,可以略过本文. ★图片隐藏信息的用途 先来说说信息隐藏的目的.俺大致总结了一下,信息隐藏可以用于如下几种场合. ◇规避敏感词过滤 所谓的"敏感词过滤",常FQ的同学,应该都很熟悉了.用图片来隐藏信息,可以规避GFW的敏感词过滤. ◇规避肉眼审查 俺在上一个帖子介绍的方法(把FQ工具嵌入图片中),主要是为了躲开网站管理人员的人工审查.国内的很多网站,对于上传的图片,都会进行人工审查.如果能通

组织领导层在信息化建设中须要解决的问题

陶朱子 本文原创,如需转载.请注明作者和出处! 当前.信息化已经成为推动政府.军队.企业等组织变革发展的强劲动力,其完好业务管理.提高工作效率.推动生产力进步的巨大效益.使人们生活更加便捷的优点.已经获得广泛共识. 因此,信息化建设的潮流逐步从IT企业的"自娱自乐".向全社会各个领域"汹涌迈进". 在信息化建设其中.各个组织的领导层无疑是组织指导建设的关键,直接决定了信息化建设的成败. 在近十余年的大规模信息化建设其中,真正称得上成功的案例不少.但失败或者说带来建设

利用ENVI FX从RGB提取建筑物轮廓

在QQ热线或者技术咨询会问到:"我有一副RGB的栅格图,想从上面提取相关的一些信息,能不能提取?精度有保证吗?"等等诸如此类的问题,本专题就采用我们常用的栅格地图进行建筑物轮廓信息的提取. 1. 采用数据:网上地图部分截图 2.  软件:ENVI Fx 3.  提取步骤: ?  启动ENVI 5.0: ?  点击加载影像数据: ?  在Toolbox中找到工具:"/FeatureExtraction/Example Based Feature Extraction Workf