爬虫基础知识五

数据提取方法一

利用json

  • 数据交换格式,看起来像python类型(列表,字典)的字符串
  • 使用json之前需要导入 import  json
  • 哪里会返回json的数据
    • 浏览器切换到手机版
    • 抓包app
  • json.loads
    • 把json字符串转换为python类型
    • json.loads(json字符串)
  • json.dumps
    • 把python类型转化为json字符串(用于保存数据到文本中)
    • json.dumps({})
    • json.dumps(ret,ensure_ascii=False,indent=2)
      • ensure_ascii:让中文显示成中文
      • indent:能够让下一级在上一级的基础上空格几个

数据提取方法二

利用xpath

  • xpath

    • 一门从html中提取数据的语言
  • xpath语法
    • xpath helper插件:帮助我们从elments中定位数据
    • 1.选择节点(标签)
      • /html/head/meta:能够选中html下的所有的meta标签
    • 2.//:能够从任意节点开始选择
      • //li :当前页面上所有的li标签
      • /html/head//link :head下的所有的link标签
    • [email protected]符号的用途
      • 选择具体的某个元素://div[@class=‘feed‘]/ul/li

        • 选择class=‘feed’的div下的ul下的li
      • a/@href:选择a的href的值
    • 4.获取文本:
      • /a/text():获取a下的文本
      • /a//text():获取a下的所有的文本
    • 5.点前
      • ./a:当前节点下的a标签
  • lxml
    • 安装:pip install lxml
    • 使用

      from lxml import etree
      element=etree.HTML("html字符串")
      element.xpath("")

原文地址:https://www.cnblogs.com/-chenxs/p/11415701.html

时间: 2024-10-14 08:58:40

爬虫基础知识五的相关文章

ASP.NET Core 2.2 基础知识(五) 环境

原文:ASP.NET Core 2.2 基础知识(五) 环境 一.环境变量 系统启动时,会读取环境变量 ASPNETCORE_ENVIRONMENT ,并将该变量的值存储在 IHostingEnvironment.EnvironmentName 字段中.如: 新建一个 WebAPI 项目,修改 Configure 方法: public void Configure(IApplicationBuilder app, IHostingEnvironment env) { ...... { app.R

Linux 基础知识(五)

一.每12小时备份并压缩/etc/目录到/back目录中,保存文件名格式为,etc-年-月-日-时-分.tar.gz) crontab -e *12/*** /usr/bin/tar -czf `date +%F-%H-%M`-etc.tar.gz /etc/ ??二.rpm包管理功能总结以及实例应用演示rpm命令:rpm [OPTIONS] [PACKAGE_FILE]安装:-i, --install升级:-U, --update, -F, --freshen卸载:-e, --erase查询:

Python网络爬虫基础知识学习

对Python有一些简单了解的朋友都知识Python编程语言有个很强大的功能,那就是Python网络爬虫(http://www.maiziedu.com/course/python/645-9570/),一提到Python,就会想到相关的Python爬虫和scrapy等等,今天就来简单认识学习Python爬虫的基础知识,有了一定的相关爬虫知识,以后学习scrapy.urllib等等知识时,会相对轻松些. 爬虫: 网络爬虫是一个自动提取网页的程序,它为搜索引擎从万维网上下载网页,是搜索引擎的重要组

Python爬虫基础知识及前期准备

学习爬虫有一小段时间了,于是决定把自己学爬虫时所学的,写过的代码以及看过的文档记录下来,权当小结.第一次写这些,如果有错误,请多指教. 首先我们需要了解一下什么是爬虫. 根据百度百科上给出的定义," 网络爬虫(又被称为网页蜘蛛,网络机器人,在FOAF社区中间,更经常的称为网页追逐者),是一种按照一定的规则,自动地抓取万维网信息的程序或者脚本."简单来说,爬虫类似手动下载网页信息,比如小说.歌曲.说到这,或许会有疑问,既然这样,干嘛还去敲代码,直接人工处理不好吗?话是这么说,但如果下载的

C# 基础知识 (五).变量类型和字符串处理

        这篇文章是阅读<C#入门经典(Beginning C#)>书籍里面的内容,作者Karli Watson.主要包括自己缺乏的一些C#基础知识和在线笔记使用,文章主要包括C#简单变量类型和复杂变量类型.命名规则.隐式转换和显示转换.变量字符串处理等内容,都是非常基础的知识,希望对初学者有所帮助. 一. C#简单变量类型和命名规则         简单类型组成应用程序中基本构件的类型,其中主要有以下类型: 整数类型 sbyte(-128~127之间整数) byte(0~255之间整数

Python基础知识(五)------字典

Python基础知识(四)------字典 字典 一丶什么是字典 ? dict关键字 , 以 {} 表示, 以key:value形式保存数据 ,每个逗号分隔 ? 键: 必须是可哈希,(不可变的数据类型),必须是唯一的 ? 值: 任意数据类型 特点: ? 查询的效率非常高,通过key来查找元素 ? 内部使用key来计算一个内存地址(暂时), hash算法,key必须是不可变的数据类型(key 必须是可哈希的数据类型),key必须是不可变的数据类型 ? 字典是无序的, python3.6版本以上,默

Python爬虫基础知识入门一

一.什么是爬虫,爬虫能做什么 爬虫,即网络爬虫,大家可以理解为在网络上爬行的一直蜘蛛,互联网就比作一张大网,而爬虫便是在这张网上爬来爬去的蜘蛛咯,如果它遇到资源,那么它就会抓取下来.比如它在抓取一个网页,在这个网中他发现了一条道路,其实就是指向网页的超链接,那么它就可以爬到另一张网上来获取数据. 爬虫可以抓取的某个网站或者某个应用的内容,提取有用的价值.也可以模拟用户在浏览器或者App应用上的操作,实现自动化的程序.以下行为都可以用爬虫实现: 咨询报告(咨询服务行业) 抢票神器 投票神器 预测(

第三章:爬虫基础知识回顾

第一节:技术选型,爬虫能做什么技术选型scrapy vs requests + beautifulsoup1. requests + beautifulsoup都是库,scrapy是框架2.scrapy框架中可以加入requests + beautifulsoup3.scrapy基于twisted,性能是最大的优势4.scrapy方便扩展,提供了很多内置的功能5.scrapy内置的css和xpath selector非常方便,beautifulsoup最大的缺点就是慢 网页分类常见类型的服务1.

【VB6】使用VB6创建和访问Dom树【爬虫基础知识 】

使用VB6创建和访问Dom树 关键字:VB,DOM,HTML,爬虫,IHTMLDocument 我们知道,在VB中一般大家会用WebBrowser来获取和操作dom对象. 但是,有这样一种情形,却让我们纠结不已: 我们需要做爬虫,然后爬虫不需要太高的效率,但是我们被复杂的正则表达式给弄的头晕眼花. 不知道何去何从. 今天,下定决心研究下html的解析,终于掌握了对IHTMLDocument等接口对象的使用. 源代码放在:http://www.extencent.com 具体的文章将会放在博客园以