python爬微信公众号前10篇历史文章（3）-lxml&xpath初探

理解lxml以及xpath

什么是lxml？

python中用来处理XML和HTML的library。与其他相比，它能提供很好的性能，并且它支持XPath。具体可以查看官方文档->http://lxml.de/index.html

结构化数据：

XML, JSON

非结构化数据：

HTML文本是最常见的数据格式，因为一般我们需要的关键信息并非直接可以得到，需要进行对HTML的解析查找，甚至一些字符串操作才能得到，所以归类于非结构化的数据处理中。

常见解析方式如下： XPath、CSS选择器、正则表达式

python lxml库可以使用elements来创建XML/HTML结构，也可以从XML/HTML结构中解析出想要的信息。

创建HTML结构

1. 导包， etree用来创建元素和结构

from lxml import etree

2. 使用 Element class API 来创建多个元素。元素也被称作结点。

root = etree.Element(‘html‘)

3.XML/HTML结构遵循父亲-儿子范例，一个结点可以是其他结点的父亲或者儿子。在lxml中要创建这种关系可以使用etree模块下的SubElement。

In [5]: etree.SubElement(root, ‘head‘)
Out[5]: <Element head at 0x7f43a5c51e60>

In [6]: etree.SubElement(root, ‘body‘)
Out[6]: <Element body at 0x7f43a5c51f38>

In [7]: print etree.tostring(root)
<html><head/><body/></html>

4 每个结点有很多属性

解析HTML结构

1 使用 lxml 的 etree 库，然后利用 etree.HTML解析

In [19]: import requests
In [20]: from lxml import etree
In [21]: page = requests.get(‘http://www.cnn.com‘)
In [22]: html_content = etree.html(page.text)

当我们获得一个etree结构时，接下来需要用到XPath去定位信息。它有特定的表达式去选择结点或者一组特定结点。

XPath

XPath（XML Path Language）是XML路径语言,它是一种用来定位XML文档中某部分位置的语言。

表达式	描述
/	从根节点选取。
nodename	选取此节点的所有子节点。
//	从当前节点选择所有匹配文档中的节点
.	选取当前节点。
..	选取当前节点的父节点。
@	选取属性。

每个结点类型是一种灵活的容器对象，用于在内存中存储结构化数据。

每个结点对象都具有以下属性：

　　1. tag：string对象，标签，用于标识该元素表示哪种数据（即元素类型）。

　　2. attrib：dictionary对象，表示附有的属性。

　　3. text：string对象，表示element的内容。

　　4. tail：string对象，表示element闭合之后的尾迹。

<tag attrib1=1>text</tag>tail
1     2        3         4

谓语条件（Predicates）

谓语用来查找某个特定的信息或者包含某个指定的值的节点。
所谓"谓语条件"，就是对路径表达式的附加条件
谓语是被嵌在方括号中，都写在方括号"[]"中，表示对节点进行进一步的筛选。

原文地址：https://www.cnblogs.com/duwenlu/p/8481750.html

时间： 2024-10-03 22:05:00

python爬微信公众号前10篇历史文章（3）-lxml&xpath初探的相关文章

python爬微信公众号前10篇历史文章（1）

作为程序员,要时刻保持一颗好奇心和想要学习的姿态. 练习怎样利用搜狗微信爬取某指定微信公众号的历史文章.爬取微信公众号本身难度非常大,感谢搜狗提供了一个可以爬取数据的平台. 代码部分参考于: https://github.com/Chyroc/WechatSogou/tree/master/wechatsogou 目标: 1. 从http://weixin.sogou.com/搜狗微信搜索中获取指定公众号名称的搜索页面 2. 抓取指定公众号的历史文章列表待解决难题: 如何从输入验证码页面自动跳

python爬微信公众号前10篇历史文章（2）

如何拼接想要的url http://weixin.sogou.com/weixin?type=1&page=1&ie=utf8&query=%E5%A4%A7%E7%BA%BD%E7%BA%A6%E5%90%83%E8%B4%A7%E5%B0%8F%E5%88%86%E9%98%9F 等同于 http://weixin.sogou.com/weixin?type=1&page=1&ie=utf8&query=大纽约吃货小分队 python中的urlencod

python爬微信公众号前10篇历史文章（5）-JSON相关内容小结

json - JSON encoder and decoder JSON: JavaScript object notation,是一种轻量级的数据交换格式.JSON 是 JS 对象的字符串表示法,它使用文本表示一个 JS 对象的信息,本质是一个字符串. JSON 使用 JavaScript 语法来描述数据对象,但是 JSON 仍然独立于语言和平台.JSON 解析器和 JSON 库支持许多不同的编程语言. JSON语法规则: 对象表示为键值对数据由逗号分割花括号保存对象方括号保存数组 JS

用python进行微信公众号开发（仅测试学习）

今天看到篇教程,是用python开发微信公众号的,觉得有意思,就敲代码实现了一下,成功后更觉得好玩,故记录,方便开发深入时使用. 基础背景介绍: 首先得有个人微信号(没有自行注册),为方便测试学习: 其次,还要注册微信公众号,微信公众号不止一种,是分多种的,具体详情见官方说明,但仅测试学习时可先不注册公众号,(需要用个人微信号扫描登陆测试公众平台)利用微信提供的测试平台接口即可: 微信公众号说明:http://kf.qq.com/faq/120911VrYVrA130805byM32u.html

python编写微信公众号首图思路详解

前言之前一直在美图秀秀调整自己的微信公众号首图,效果也不尽如人意,老是调来调去,最后发出来的图片被裁剪了一大部分,丢失部分关键信息,十分恼火,于是想着用python写一个程序,把微信公众号首图的模式固定下来,方便以后写公众号. 思路根据微信公众号首图要求,可以上传一个不超过5M的图片,且图片尺寸要是2.35:1的尺寸,换算成像素是900:383,有了这些参数就可以做文章了,这里有两种思路把今天推文的标题(文字)用图片展示出来,使得文字排列错落有致,简单粗暴,而又不失美感,这里可以利用mat

nodejs 中koa框架下的微信公众号开发初始篇

最近在搞微信公众号开发,后端采用的是nodejs下的koa框架,初识后端的菜鸟,自己搞难度太大了,网上找了很多文章,采用的中间件大都是express框架下的,不过好在爬了许多坑之后总算看见点曙光了,遂把探索出来的一点东西拿出来分享,毕竟能力有限,拿出来也是希望大神看到了给点建议, 主要用 koa-wechat 处理验证和消息解析 ,用wechat-api来进行按钮组等api操作,刚开始没什么内容,大家随意看看就好, 废话不多说,直接上代码(这是一个route的代码): var koa = req

[python]通过微信公众号“Python程序员”，编写python代码

今天发现微信公众号中,居然可以编写python代码,很是惊喜,觉得蛮有趣的. 步骤如下: 1.关注微信公众号“Python程序员” 2.关注成功后,点击右下角的“潘多拉”->"Python终端“->"阅读原文”. 3.Python开发页面被打开,在下面的输入框内,输入python代码,点击确认即可. 可以用来练习python,是不是很有趣呢?

当你想用python往微信公众号发信息...

微信现在是人人必备的APP,所以它是一个比电子邮箱更加随身的告警手段,这篇文章就是讲解如何申请微信企业号,搭配python脚本来发送信息.让你能更加先进的实时监(装)控(逼). 首先,我们先登陆https://work.weixin.qq.com/ ,选择"企业注册",如图: 然后在下一个图片里面任意选择"企业"or"政府"or"组织",由于这个报警平台比较简陋,并不是很规范而且仅仅是内部人使用,那么就直接选择"没有

微信公众号文章抓去

微信公众号存在不少精彩的文章,如果善于挖掘,可以得到不少的收获.但由于微信对PC端的支持并不友好,虽然有搜狗搜索可以用,但其结果仍然不全,一些公众号发的不是文章类型的只是一段话,搜狗就不收录.想要得到一个账号所有的文章,还是要从爬虫着手.网上对于微信公众号文章爬取的方法几乎没有介绍,不过有几个网站,比如传送门就做出来了.这就告诉我们这个目标是可以达到的.废话不多说,直入主题. 要想得到一个公众号发送的所有文章,需要从微信手机端入手.点击公众号右上角小人图标,会有查看历史消息的链接.点了之后可查看

python爬微信公众号前10篇历史文章（3）-lxml&xpath初探

理解lxml以及xpath

python爬微信公众号前10篇历史文章（3）-lxml&xpath初探的相关文章