python爬微信公众号前10篇历史文章(3)-lxml&xpath初探

  • 理解lxml以及xpath

什么是lxml?

python中用来处理XML和HTML的library。与其他相比,它能提供很好的性能, 并且它支持XPath。 具体可以查看官方文档->http://lxml.de/index.html

  • 结构化数据:

XML, JSON

  • 非结构化数据:

HTML文本是最常见的数据格式,因为一般我们需要的关键信息并非直接可以得到,需要进行对HTML的解析查找,甚至一些字符串操作才能得到,所以归类于非结构化的数据处理中。

常见解析方式如下: XPath、CSS选择器、正则表达式

python lxml库可以使用elements来创建XML/HTML结构, 也可以从XML/HTML结构中解析出想要的信息。

创建HTML结构

1. 导包, etree用来创建元素和结构

from lxml import etree

2. 使用 Element class API 来创建多个元素。元素也被称作结点。

root = etree.Element(‘html‘)

3.XML/HTML结构遵循父亲-儿子范例,一个结点可以是其他结点的父亲或者儿子。在lxml中要创建这种关系可以使用etree模块下的SubElement。

In [5]: etree.SubElement(root, ‘head‘)
Out[5]: <Element head at 0x7f43a5c51e60>

In [6]: etree.SubElement(root, ‘body‘)
Out[6]: <Element body at 0x7f43a5c51f38>

In [7]: print etree.tostring(root)
<html><head/><body/></html>

4 每个结点有很多属性

解析HTML结构

1 使用 lxml 的 etree 库,然后利用 etree.HTML解析

In [19]: import requests
In [20]: from lxml import etree
In [21]: page = requests.get(‘http://www.cnn.com‘)
In [22]: html_content = etree.html(page.text)

当我们获得一个etree结构时,接下来需要用到XPath去定位信息。 它有特定的表达式去选择结点或者一组特定结点。

XPath

XPath(XML Path Language)是XML路径语言,它是一种用来定位XML文档中某部分位置的语言。

表达式 描述
/ 从根节点选取。
nodename 选取此节点的所有子节点。
// 从当前节点 选择 所有匹配文档中的节点
. 选取当前节点。
.. 选取当前节点的父节点。
@ 选取属性。
  • 每个结点类型是一种灵活的容器对象,用于在内存中存储结构化数据。

    每个结点对象都具有以下属性:

  1. tag:string对象,标签,用于标识该元素表示哪种数据(即元素类型)。

  2. attrib:dictionary对象,表示附有的属性。

  3. text:string对象,表示element的内容。

  4. tail:string对象,表示element闭合之后的尾迹。

<tag attrib1=1>text</tag>tail
1     2        3         4

谓语条件(Predicates)

  1. 谓语用来查找某个特定的信息或者包含某个指定的值的节点。
  2. 所谓"谓语条件",就是对路径表达式的附加条件
  3. 谓语是被嵌在方括号中,都写在方括号"[]"中,表示对节点进行进一步的筛选。
 

原文地址:https://www.cnblogs.com/duwenlu/p/8481750.html

时间: 2024-08-02 18:46:03

python爬微信公众号前10篇历史文章(3)-lxml&xpath初探的相关文章

python爬微信公众号前10篇历史文章(1)

作为程序员,要时刻保持一颗好奇心和想要学习的姿态. 练习怎样利用搜狗微信爬取某指定微信公众号的历史文章.爬取微信公众号本身难度非常大,感谢搜狗提供了一个可以爬取数据的平台. 代码部分参考于: https://github.com/Chyroc/WechatSogou/tree/master/wechatsogou 目标: 1. 从http://weixin.sogou.com/搜狗微信搜索中获取指定公众号名称的搜索页面 2. 抓取指定公众号的历史文章列表 待解决难题: 如何从输入验证码页面自动跳

python爬微信公众号前10篇历史文章(2)

如何拼接想要的url http://weixin.sogou.com/weixin?type=1&page=1&ie=utf8&query=%E5%A4%A7%E7%BA%BD%E7%BA%A6%E5%90%83%E8%B4%A7%E5%B0%8F%E5%88%86%E9%98%9F 等同于 http://weixin.sogou.com/weixin?type=1&page=1&ie=utf8&query=大纽约吃货小分队 python中的urlencod

python爬微信公众号前10篇历史文章(5)-JSON相关内容小结

json - JSON encoder and decoder JSON: JavaScript object notation,是一种轻量级的数据交换格式.JSON 是 JS 对象的字符串表示法,它使用文本表示一个 JS 对象的信息,本质是一个字符串. JSON 使用 JavaScript 语法来描述数据对象,但是 JSON 仍然独立于语言和平台.JSON 解析器和 JSON 库支持许多不同的编程语言. JSON语法规则: 对象表示为键值对 数据由逗号分割 花括号保存对象 方括号保存数组 JS

用python进行微信公众号开发(仅测试学习)

今天看到篇教程,是用python开发微信公众号的,觉得有意思,就敲代码实现了一下,成功后更觉得好玩,故记录,方便开发深入时使用. 基础背景介绍: 首先得有个人微信号(没有自行注册),为方便测试学习: 其次,还要注册微信公众号,微信公众号不止一种,是分多种的,具体详情见官方说明,但仅测试学习时可先不注册公众号,(需要用个人微信号扫描登陆测试公众平台)利用微信提供的测试平台接口即可: 微信公众号说明:http://kf.qq.com/faq/120911VrYVrA130805byM32u.html

python编写微信公众号首图思路详解

前言 之前一直在美图秀秀调整自己的微信公众号首图,效果也不尽如人意,老是调来调去,最后发出来的图片被裁剪了一大部分,丢失部分关键信息,十分恼火,于是想着用python写一个程序,把微信公众号首图的模式固定下来,方便以后写公众号. 思路 根据微信公众号首图要求,可以上传一个不超过5M的图片,且图片尺寸要是2.35:1的尺寸,换算成像素是900:383,有了这些参数就可以做文章了,这里有两种思路 把今天推文的标题(文字)用图片展示出来,使得文字排列错落有致,简单粗暴,而又不失美感,这里可以利用mat

nodejs 中koa框架下的微信公众号开发初始篇

最近在搞微信公众号开发,后端采用的是nodejs下的koa框架,初识后端的菜鸟,自己搞难度太大了,网上找了很多文章,采用的中间件大都是express框架下的,不过好在爬了许多坑之后总算看见点曙光了,遂把探索出来的一点东西拿出来分享,毕竟能力有限,拿出来也是希望大神看到了给点建议, 主要用 koa-wechat 处理验证和消息解析 ,用wechat-api来进行按钮组等api操作,刚开始没什么内容,大家随意看看就好, 废话不多说,直接上代码(这是一个route的代码): var koa = req

[python]通过微信公众号“Python程序员”,编写python代码

今天发现微信公众号中,居然可以编写python代码,很是惊喜,觉得蛮有趣的. 步骤如下: 1.关注微信公众号“Python程序员” 2.关注成功后,点击右下角的“潘多拉”->"Python终端“->"阅读原文”. 3.Python开发页面被打开,在下面的输入框内,输入python代码,点击确认即可. 可以用来练习python,是不是很有趣呢?

当你想用python往微信公众号发信息...

微信现在是人人必备的APP,所以它是一个比电子邮箱更加随身的告警手段,这篇文章就是讲解如何申请微信企业号,搭配python脚本来发送信息.让你能更加先进的实时监(装)控(逼). 首先,我们先登陆https://work.weixin.qq.com/ ,选择"企业注册",如图: 然后在下一个图片里面任意选择"企业"or"政府"or"组织",由于这个报警平台比较简陋,并不是很规范而且仅仅是内部人使用,那么就直接选择"没有

微信公众号文章抓去

微信公众号存在不少精彩的文章,如果善于挖掘,可以得到不少的收获.但由于微信对PC端的支持并不友好,虽然有搜狗搜索可以用,但其结果仍然不全,一些公众号发的不是文章类型的只是一段话,搜狗就不收录.想要得到一个账号所有的文章,还是要从爬虫着手.网上对于微信公众号文章爬取的方法几乎没有介绍,不过有几个网站,比如传送门就做出来了.这就告诉我们这个目标是可以达到的.废话不多说,直入主题. 要想得到一个公众号发送的所有文章,需要从微信手机端入手.点击公众号右上角小人图标,会有查看历史消息的链接.点了之后可查看