python 解析HTML

1. 理解网页上的数据

网页上的数据主要有：
- HTML
- XHTML
- XML
- JSON
需要一个接受数据并解析的机制
需要一个产生数据并发送的机制

2. 解析HTML

层次化的数据
有多个解析HTML的第三方库，例如：LXML，BeautifulSoup，HTMLParser等等。
解析HTML所面临的问题：
- 没有统一的标准。
- 很多网页并没有遵循HTML文档

2.1 BeautifulSoup

　　BeautifulSoup第三方库有以下特点：

　　

- 容易使用。

- 版本4允许使用lxml和html5lib，可以更好的处理不规范的HTML。

- 在处理编码方面也比较有效。

　　下面是解析方法及优缺点的一个对比：

　　

　　

3 代码示例

　　从终端进入python环境，按照以下方式进行试验。如果没有bs4库的话，可以使用以下命令（Ubuntu下）进行安装：

　　sudo pip install beautifulsoup4

　　

　　

>>>

>>> from bs4 import BeautifulSoup

>>>

>>> import urllib

>>> html = urllib.urlopen(“http://192.168.1.33/temwet/index.html“)

>>>

>>> html

addinfourl at 164618764 whose fp = socket._fileobject object at 0x9cd19ac

>>> html.code

200

>>>

　　下面看一下网页的源代码:

　　

　　

　　

　　使用BeautifulSoup进行解析:

　　使用bt = BeautifulSoup(html.read(),"lxml")语句对接收到的html进行解析，bt.title, bt.meta, bt.title.string, bt.find_all(‘meta‘)进行元素的查找。对查找到的多个结果，可以以数组的形式存储和访问。

　　

　　

　　

　　如果想提取网页中含有的超链接呢？我们只需要查找到”a”标签，并将其提取出来即可。links = bt.find_all(‘a‘) 可将网页中所有的超链接保存在links中，如果len(links)等于0的话就是网页中没有超链接，否则直接以数组的方式访问即可。

时间： 2024-11-10 01:18:23

python 解析HTML的相关文章

python解析json文件

概念序列化(Serialization):将对象的状态信息转换为可以存储或可以通过网络传输的过程,传输的格式可以是JSON.XML等.反序列化就是从存储区域(JSON,XML)读取反序列化对象的状态,重新创建该对象. JSON(JavaScript Object Notation):一种轻量级数据交换格式,相对于XML而言更简单,也易于阅读和编写,机器也方便解析和生成,Json是JavaScript中的一个子集. Python2.6开始加入了JSON模块,无需另外下载,Python的Json模

python解析json

认识 JSON(JavaScript Object Notation) 是一种轻量级的数据交换格式.它基于JavaScript(Standard ECMA-262 3rd Edition - December 1999)的一个子集. JSON采用完全独立于语言的文本格式,但是也使用了类似于C语言家族的习惯(包括C, C++, C#, Java, JavaScript, Perl, Python等).这些特性使JSON成为理想的数据交换语言.易于人阅读和编写,同时也易于机器解析和生成. 引用模块

python 解析docx文档的方法，以及提取插入的文本对象和图片

首先安装docx模块,通过pip install docx或者在docx官方链接上下载安装都可以下面来看下如何解析docx文档:文档格式如下有3个部分组成 1 正文:text文档 2 一个表格. 3一个插入的文件对象.4 一个图片这4个部分是我们在docx文档中最常见的几种格式.解析代码如下 import docx def docx_try(): doc=docx.Document(r'E:\py_prj\test.docx') for p in doc.paragraph

python 解析命令行

原文 http://python.jobbole.com/87014 python解析命令行 2016/12/13 · 基础知识 · 命令行分享到:0 原文出处: 顾慎为 getopt:和C中的getopt()等价.optparse:2.7后已不推荐使用.argparse:基于optparse的新库.docopt:根据文档描述,自动生成.另一份参考文档:docopt. 更详细的内容可参考上述文档. getopt 若对C的getopt()函数不熟悉,或者倾向于使用较少的代码,或者需要对帮助信息和

Python解析HDF文件

前段时间因为一个业务的需求需要解析一个HDF格式的文件.在这之前也不知道到底什么是HDF文件.百度百科的解释如下: HDF是用于存储和分发科学数据的一种自我描述.多对象文件格式.HDF是由美国国家超级计算应用中心NCSA(全称:National Center for Supercomputing Application)创建的,为了满足各种领域研究需求而研制的一种能高效存储和分发科学数据的新型数据格式.HDF可以表示出科学数据存储和分布的许多必要条件. 使用Python解析当然会用到第三方的包,

python解析xml文件操作的例子

python解析xml文件操作实例,操作XML文件的常见技巧. xml文件内容: <?xml version="1.0" ?>  <book> <title> sample xml thing </title> <author> <name> <first> ma </first> <last>

python解析RSS（feedparser）

虽然说当今的博客已经不像前几年那么火了,但是RSS还是一项很有创造性和实用性的东西.RSS 是用于分发 Web 站点上的内容的摘要的一种简单的 XML 格式.它能够用于共享各种各样的信息.关于RSS的详细信息在(http://www.rssboard.org/rss-profile),这里面详细的讲了各种值的含义(虽然各个版本的支持不太一样,但是还是比较有通用性的).这里我先介绍一下怎么使用feedparser操作RSS然后再介绍一些常用的属性,也方便大家实验:一.feedparser的安装首先

Python解析器源码加密系列之（二）：一次使用标准c的FILE*访问内存块的尝试

摘要:由于近期打算修改Python解释器以实现pyc文件的加密/解密,出于保密的要求,解密之后的数据只能放在内存中,不能写入到文件中.但是后续的解析pyc文件的代码又只能接受FILE*作为入参,所以就提出了一种把通过FILE*来访问内存的需求,下文是针对这个需求的几个方面的尝试及其结论. 以下尝试的前提是:Win7 + VS2010. 在vc中,FILE其实就是_iobuf,定义如下: struct _iobuf { char *_ptr; //文件输入的下一个位置 int _cnt; //当前

python 解析html基础 HTMLParser库,方法,及代码实例

HTMLParser, a simple lib as html/xhtml parser 官方解释: This module defines a class HTMLParser which serves as the basis for parsing text files formatted in HTML (HyperText Mark-up Language) and XHTML.Unlike the parser in htmllib, this parser is not base

python解析百度网页源代码：取搜索引擎返回的前page_num*10个链接的url

如题:python解析百度网页源代码:取搜索引擎返回的前page_num*10个链接的url 最近因为做<信息检索>homework,需要在搜索引擎中搜索某个query,人工查找那些搜索引擎返回的链接,判断前30个是否相关,然后评价该搜索引擎的性能.蛋疼的一个个点进去链接,然后看网页搜索的内容是否和想要查询的query相关,从而进行下一步工作.于是想到解析网页,找到搜索引擎返回的链接的url,等做完了作业才做这个,无碍.目前分析了百度的源代码,进行了分析工作.对于其他搜索引擎的任务再分析. #

猜你喜欢

【POJ】1088滑雪

滑雪 Time Limit: 1000MS Memory Limit: 65536K Total Submissions: 97335 Accepted: 36911 Description ...

Redis封装之RedisHashService

RedisHashService: /// <summary> /// Hash:类似dictionary,通过索引快速定位到指定元素的,耗时均等,跟string的区别在于不用反序列化,直 ...

软件工程第一次作业补充

软件工程第一次作业的补充对于作业"在一周之内快速看完<构建之法>,列出你不懂的5-10个问题". 作业要求有: (1)在每个问题后面,请说明哪一章节的什么内容引起了你 ...

C#中的委托和事件(续)

C#中的委托和事件(续) 引言如果你看过了 C#中的委托和事件一文,我想你对委托和事件已经有了一个基本的认识.但那些远不是委托和事件的全部内容,还有很多的地方没有涉及.本文将讨论委托和事件一些更为 ...

php时间函数的学习

手工画了一张图,来大体概括php中对于时间的处理函数首先时间戳是这样“1441202665”的一串数字,虽然人看起来麻烦,但是计算机却很容易识别这样的时间表示形式. 所以给计算机看的时间是时间戳,给 ...

我们在 web 应用开发过程中经常遇到输出某种编码的字符，如 iso8859-1 等，如何输出一个某种编码的字符串？

public String translate (String str) { String tempStr = ""; try { tempStr = new String(str ...

黑马程序员-Java面向对象上《二》

------- android培训.java培训.期待与您交流! ---------- 1.面向对象的设计思想面向过程:是以一个流程为单位,考虑它 ...

四种方案解决ScrollView嵌套ListView问题

在工作中,曾多次碰到ScrollView嵌套ListView的问题,网上的解决方法有很多种,但是杂而不全.我试过很多种方法,它们各有利弊. 在这里我将会从使用ScrollView嵌套ListView结 ...

cisco路由器设置动态pppoe

CISCO上配置 PPPOE拨号 r1(config)#vpdn enable 开启虚拟拨号VPDN r1(config)#vp ...

Integer VS AtomicInteger VS MutableInteger

由于Integer是不可变的,每个循环增加key的value时会创建一个新的对象每次value+1时不需要重新创建Integer对象 Integer, Boolean 等 is immutable, ...

遍历树的所有非递归方法

http://blog.csdn.net/ns_code/article/details/12977901 二叉树的非递归遍历二叉树是一种非常重要的数据结构,很多其它数据结构都是基于二叉树的基础演变 ...

[LeetCode]题解（python）：049-Groups Anagrams

题目来源 https://leetcode.com/problems/anagrams/ Given an array of strings, group anagrams together. For ...

dojo/dom-construct.toDom方法学习笔记

toDom方法用来将html标签字符串转化成DOM节点.1.7之后toDom方法被分配到了dom-construct模块. require(["dojo/dom-construct" ...

经典的开源协议分析工具：Wireshark.

2. TCP/IP协议经典书是:W.Richard Stevens 著<TCP/IP详解>三卷书,卷1是协议,卷2是实现,卷3是TCP事务协议等.还有官方的协议文档:RFC当然也可以在网上 ...

POJ 3422 Kaka's Matrix Travels（最大费用最大流 + 拆点）

题目链接:http://poj.org/problem?id=3422 Description On an N × N chessboard with a non-negative number in ...

lua简单地异或加密文件

用lua简单地异或加密文件,注意解密的key是加密key的倒序: 1 require 'bit' 2 3 local encode = function(inpath, outpath, key) 4 ...

javaweb-控制反转与依赖注入

1.控制反转(Inversion of Control)与依赖注入(Dependency Injection) 控制反转即IoC (Inversion of Control),它把传统上由程序代码直接 ...

华科机考：字符串连接

输入描述: 每一行包括两个字符串,长度不超过100. 输出描述: 可能有多组测试数据,对于每组数据, 不借用任何字符串库函数实现无冗余地接受两个字符串,然后把它们无冗余的连接起来. 输出连接后的字符串 ...

使用Lucene.Net实现全文检索

目录一 Lucene.Net概述二分词三索引四搜索五实践中的问题一 Lucene.Net概述 Lucene.Net是一个C#开发的开源全文索引库,其源码包括“核心”与“外围”两部分 ...

unity中如何调用另一个角色的avatar

链接:http://v.youku.com/v_show/id_XMTUyOTM1NDI3Mg==.html 1.复制原角色一份,将原角色下面的模型骨骼全部删除. 2.将现角色拉入场景,删除该角色的相 ...

专题

随机推荐

© 2024 憋错料 | info#biecuoliao.com | 10 q. 0.025 s.