寒假学习报告10

今天继续研究了爬虫

遇到了一些问题,各种查阅资料才得以解决。

response.xpath.extract()爬取的值里面含有\r\n\t,
如何去掉呢?需要normalize-space()
比如:
response.xpath(‘//div[@class=""]/text()‘).extract()
使用normalize-space()后:
response.xpath(‘normalize-space(//div[@class=""]/text())‘).extract()

在xpath的外面还可以用name = name.replace(‘\r‘, ‘‘).replace(‘\t‘, ‘‘).replace(‘ ‘, ‘‘)
name = name.replace(‘\n‘, ‘‘)
name = name.replace(‘\t‘, ‘‘)
name = name.replace(‘ ‘, ‘‘)来去除\r\n\t空格

scrapy 爬虫爬到<div>标签里面包含<p>标签
我想爬取div标签中的所有的内容,但是里面有p标签,
直接response.xpath(‘//div[@class=""]/text()‘).extract()的话是没有<div>里的<p>中的内容的,
需要response.xpath(‘//div[@class=""]/descendant::text()‘).extract()

scrapy中parse函数向其他函数传参

def parse(self, response):
    yield scrapy.Request(url,callback=self.next,meta={‘rname‘:‘2‘})
def next(self,response):
    print(response.meta[‘rname‘])

然后又把上一个程序优化了一下

原文地址:https://www.cnblogs.com/baimafeima/p/12292978.html

时间: 2024-11-03 01:17:18

寒假学习报告10的相关文章

寒假学习报告04

今天学习了Scala的剩余的基础内容和安装了spark.sbt. Scala 函数声明格式: def functionName ([参数列表]) : [return type] Scala 函数定义格式: def functionName ([参数列表]) : [return type] = { function body return [expr]} Scala 提供了多种不同的函数调用方式 调用方法的标准格式: functionName( 参数列表 ) 函数使用了实例的对象来调用: [ins

寒假学习进度-10(pyecharts的下载和使用)

1.下载 最初是常规方法 pip install pyecharts 发现总是下载失败,网上说是由于墙的原因,下载时会出现断线和速度过慢的问题导致下载失败,所以建议通过清华镜像来进行下载: pip install -i https://pypi.tuna.tsinghua.edu.cn/simple pyecharts 2.使用 实例: from pyecharts.charts import Bar from pyecharts import options as opts # V1 版本开始

寒假学习报告9

今天外面雾霾严重,请大家出门务必带好口罩,全面遮掩口鼻,不要让飞沫喷出,尽量减少外出,减少去人员密集场所的次数,买菜不要扎堆,在家的各位请注意保持开窗通风,保证室内外空气流通,回家时先消毒,勤洗手,饭前便后请大家保证双手保持洁净的状态.吃饭要吃熟食,切忌生冷.油腻.海鲜等不易消化的食物.多喝水,喝热水,勤洗澡,及时更换衣物,换下来的衣服及时放到洗衣机里面清洗,做到病毒零传播,安全你我他.今天依旧没有出门,在家学习算法与数据结构.没有其他特殊情况,生命体征良好,体温正常,无发烧发热状况. 原文地址

寒假学习报告05

今天在虚拟机上安装sbt和maven,按着林子雨老师的教程来的,也不知道是什么原因老出问题,到现在也没解决好.还学一些简单的爬虫知识. 原文地址:https://www.cnblogs.com/baimafeima/p/12267035.html

寒假学习报告06

学了使用scarpy框架进行爬虫,爬取了某网站的部分信息. 部分代码: # -*- coding: utf-8 -*- import scrapy from dangdang01.items import Dangdang01Item from scrapy.http import Request class DdSpider(scrapy.Spider): name = 'dd' allowed_domains = ['dangdang.com'] start_urls = ['http://

寒假学习报告12

把昨天剩余的Scala基础编程做了,也按要求做了下一个实验的内容 3. 统计学生成绩 学生的成绩清单格式如下所示,第一行为表头,各字段意思分别为学号.性别.课程名 1.课程名 2 等,后面每一行代表一个学生的信息,各字段之间用空白符隔开 给定任何一个如上格式的清单(不同清单里课程数量可能不一样),要求尽可能采用函 数式编程,统计出各门课程的平均成绩,最低成绩,和最高成绩:另外还需按男女同学分开, 分别统计各门课程的平均成绩,最低成绩,和最高成绩. 测试样例 1 如下: 样例 1 的统计结果输出为

寒假学习报告13

实验 4  RDD 编程初级实践 一.实验目的 (1)熟悉 Spark 的 RDD 基本操作及键值对操作: (2)熟悉使用 RDD 编程解决实际具体问题的方法. 二.实验平台 操作系统:Ubuntu16.04 Spark 版本:2.1.0 三.实验内容和要求 1.spark-shell 交互式编程 下载 chapter5-data1.txt,该数据集包含 了某大学计算机系的成绩,数据格式如下所示: 请根据给定的实验数据,在 spark-shell 中通过编程来计算以下内容: 创建目录,将chap

苏黄的假期学习报告3

苏黄的假期学习报告3 复习进度 所有需要复习科目都已经过了一遍,但是时间所剩不多,因为本来寒假就短,我还因为病情住院.不爽! 春节安排 如果学校放假时间往后延一两个星期,我就可以和家人.同学在家乡过完一个完整的春节--从大年三十到元宵节.可惜学校就是想让我们这群年轻人体验一把春运抢不着返程票的滋味,真TMD的生气!我前几天就帮家里人收拾屋子,明天去买只活鸡宰了来祭祀.年三十肯定和家里人过,看不看春晚另外讲:初一就按小学.初中.高中.家这个路线去"行大运":初二回老家.之后就在吃汤圆.粽

jQuery学习笔记10:Ajax技术

jQuery 库拥有完整的 Ajax 兼容套件.其中的函数和方法允许我们在不刷新浏览器的情况下从服务器加载数据. jQuery 采用了三层封装:最底层的封装方法为:$.ajax(),而通过这层封装了第二层有三种方法:.load().$.get()和$.post(),最高层是$.getScript()和$.getJSON()方法. 函数 描述 jQuery.ajax() 执行异步 HTTP (Ajax) 请求. .ajaxComplete() 当 Ajax 请求完成时注册要调用的处理程序.这是一个