Python_爬虫_数据解析回顾

--数据解析原理

  --定位标签

  --提取标签中存储的数据

--xpath解析原理

  --实例化一个etree的对象且将解析的页面源码数据加载到该对象中

  --通过xpath方法(返回值:列表)结合者xpath表达式进行数据解析

      -- //tagName

      -- //tagName[@attr = ‘value‘]

      -- //tagName[index]

      -- /text() //text()

      -- /@attrName

--bs4解析原理

  --实例化一个bs4的对象且将解析的页面源码数据加载到该对象中

  --通过相关的方法和属性进行数据解析

      -- soup.tagName

      -- soup.find(‘tagName‘, attrName = ‘value‘)  <==> find_all()

      -- select(‘css选择器‘) //标签, 类, id, 层级

      -- string,text,get_text()

      -- tag[‘attrName‘]

  

原文地址:https://www.cnblogs.com/helloboke/p/11504150.html

时间: 2024-07-30 16:32:49

Python_爬虫_数据解析回顾的相关文章

爬虫02 /数据解析

目录 爬虫02 /数据解析 1. 数据解析概述 2. 正则实现的数据解析 3. bs4实现数据解析 4. xpath解析 总结: 爬虫02 /数据解析 1. 数据解析概述 什么是数据解析,数据解析可以干什么? 概念:就是将一组数据中的局部数据进行提取. 作用:使用来实现聚焦爬虫 数据解析的通用原理 问题:html展示的数据可以存储在哪里? 标签之中 属性中 1.标签定位 2.取文本或者取属性 数据解析的常用方法 re bs4 xpath pyquery 2. 正则实现的数据解析 需求:http:

爬虫项目数据解析方式

数据解析 requests实现数据爬取的流程 指定url 基于requests模块发起请求 获取响应对象中的数据 进行持久化存储 因为大多数情况下的需求,我们都会指定去使用聚焦爬虫,也就是爬取页面中指定部分的数据值,而不是整个页面的数据,所以,我们的数据爬取的流程可以修改为: 指定url 基于requests模块发起请求 获取响应中的数据 数据解析 进行持久化存储 正则解析 常用的正则表达式回顾: 单字符: . : 除换行以外所有字符 [] :[aoe] [a-w] 匹配集合中任意一个字符 \d

05 Python网络爬虫的数据解析方式

一.爬虫数据解析的流程 1.指定url 2.基于requests模块发起请求 3.获取响应中的数据 4.数据解析 5.进行持久化存储 二.解析方法 (1)正则解析 (2)bs4解析 (3)xpath解析 1. 正则解析 常用正则表达式 1 单字符: 2 . : 除换行以外所有字符 3 [] :[aoe] [a-w] 匹配集合中任意一个字符 4 \d :数字 [0-9] 5 \D : 非数字 6 \w :数字.字母.下划线.中文 7 \W : 非\w 8 \s :所有的空白字符包,括空格.制表符.

爬虫之数据解析,网页源码数据分析

数据解析,就是对网页源码数据的解析和清洗,获取自己想要的数据信息. 常用的数据解析有下面四种: 1.正则 2.bs4 3.xpath 4.pyquery 一: 正则:熟练使用正则表达式,对数据进行提取即可 二:BS4 解析原理: 1.实例化一个BeautifulSoup的一个对象,并且将即将被解析的页面源码加载到该对象中 2.调用bs对象中相关属性和方法进行标签定位和数据的提取 环境安装: pip install lxml pip install bs4 使用; from bs4 import

爬虫之数据解析的三种方式

一,正则表达式解析 re正则就不写了,前面已经写入一篇很详细的正则表达式模块了~ 而且,在爬虫中,下面两种方式用的多一些~ 正则表达式:https://www.cnblogs.com/peng104/p/9619801.html 大致用法: pattern = re.compile('<dd>.*?board-index.*?>(\d+)</i>.*?src="(.*?)".*?name"><a' +'.*?>(.*?)<

python_爬虫_腾讯新闻app 单页新闻数据分析爬取

p.p1 { margin: 0.0px 0.0px 0.0px 0.0px; font: 11.0px "Helvetica Neue"; color: #000000 } p.p2 { margin: 0.0px 0.0px 0.0px 0.0px; font: 11.0px "Helvetica Neue"; color: #000000; min-height: 12.0px } p.p3 { margin: 0.0px 0.0px 0.0px 0.0px;

Python_爬虫_BeautifulSoup网页解析库

BeautifulSoup网页解析库 from bs4 import BeautifulSoup 0.BeautifulSoup网页解析库包含 的 几个解析器 Python标准库[主要,系统自带;] 使用方法: BeautifulSoup(markup,"html.parser")[注:markup是html文档] Python的内置标准库 案例: ` from bs4 import BeautifulSoup ` soup = BeautifulSoup.(html,'html.pa

Python_爬虫_百度图片

百度图片有些有编码问题,暂时不能爬取,多试几个 #思路:抓取图片地址,根据地址转存图片(注意名称):难点:转码 # -*- coding:utf-8 -*- from urllib import request,error import json,re # for page in range(4): # url = "http://image.baidu.com/search/acjson?tn=resultjson_com&ipn=rj&ct=201326592&is=

Python爬虫:数据解析 之 xpath

资料: W3C标准:https://www.w3.org/TR/xpath/all/ W3School:https://www.w3school.com.cn/xpath/index.asp 菜鸟教程:https://www.runoob.com/xpath/xpath-tutorial.html xpath教程:http://www.zvon.org/xxl/XPathTutorial/General_chi/examples.html XPATH在线测试:http://www.bejson.