寒假学习报告06

学了使用scarpy框架进行爬虫,爬取了某网站的部分信息。

部分代码:

# -*- coding: utf-8 -*-
import scrapy
from dangdang01.items import Dangdang01Item
from scrapy.http import Request

class DdSpider(scrapy.Spider):
    name = ‘dd‘
    allowed_domains = [‘dangdang.com‘]
    start_urls = [‘http://search.dangdang.com/?key=%C5%AE%D7%B0&act=input&page_index=1‘]

    def parse(self, response):
        item = Dangdang01Item()
        item["title"] = response.xpath("//a[@name=‘itemlist-title‘]/@title").extract()
        item["link"] = response.xpath("//a[@name=‘itemlist-title‘]/@href").extract()
        item["comment"] = response.xpath("//a[@name=‘itemlist-review‘]/text()").extract()
        yield item
        for i in range(2,81):
            url = ‘http://search.dangdang.com/?key=%C5%AE%D7%B0&act=input&page_index=‘+str(i)
            yield Request(url,callback=self.parse)

原文地址:https://www.cnblogs.com/baimafeima/p/12271212.html

时间: 2024-11-03 23:44:46

寒假学习报告06的相关文章

寒假学习报告04

今天学习了Scala的剩余的基础内容和安装了spark.sbt. Scala 函数声明格式: def functionName ([参数列表]) : [return type] Scala 函数定义格式: def functionName ([参数列表]) : [return type] = { function body return [expr]} Scala 提供了多种不同的函数调用方式 调用方法的标准格式: functionName( 参数列表 ) 函数使用了实例的对象来调用: [ins

寒假学习报告9

今天外面雾霾严重,请大家出门务必带好口罩,全面遮掩口鼻,不要让飞沫喷出,尽量减少外出,减少去人员密集场所的次数,买菜不要扎堆,在家的各位请注意保持开窗通风,保证室内外空气流通,回家时先消毒,勤洗手,饭前便后请大家保证双手保持洁净的状态.吃饭要吃熟食,切忌生冷.油腻.海鲜等不易消化的食物.多喝水,喝热水,勤洗澡,及时更换衣物,换下来的衣服及时放到洗衣机里面清洗,做到病毒零传播,安全你我他.今天依旧没有出门,在家学习算法与数据结构.没有其他特殊情况,生命体征良好,体温正常,无发烧发热状况. 原文地址

寒假学习报告05

今天在虚拟机上安装sbt和maven,按着林子雨老师的教程来的,也不知道是什么原因老出问题,到现在也没解决好.还学一些简单的爬虫知识. 原文地址:https://www.cnblogs.com/baimafeima/p/12267035.html

寒假学习报告10

今天继续研究了爬虫 遇到了一些问题,各种查阅资料才得以解决. response.xpath.extract()爬取的值里面含有\r\n\t,如何去掉呢?需要normalize-space()比如:response.xpath('//div[@class=""]/text()').extract()使用normalize-space()后:response.xpath('normalize-space(//div[@class=""]/text())').extrac

寒假学习报告12

把昨天剩余的Scala基础编程做了,也按要求做了下一个实验的内容 3. 统计学生成绩 学生的成绩清单格式如下所示,第一行为表头,各字段意思分别为学号.性别.课程名 1.课程名 2 等,后面每一行代表一个学生的信息,各字段之间用空白符隔开 给定任何一个如上格式的清单(不同清单里课程数量可能不一样),要求尽可能采用函 数式编程,统计出各门课程的平均成绩,最低成绩,和最高成绩:另外还需按男女同学分开, 分别统计各门课程的平均成绩,最低成绩,和最高成绩. 测试样例 1 如下: 样例 1 的统计结果输出为

寒假学习报告13

实验 4  RDD 编程初级实践 一.实验目的 (1)熟悉 Spark 的 RDD 基本操作及键值对操作: (2)熟悉使用 RDD 编程解决实际具体问题的方法. 二.实验平台 操作系统:Ubuntu16.04 Spark 版本:2.1.0 三.实验内容和要求 1.spark-shell 交互式编程 下载 chapter5-data1.txt,该数据集包含 了某大学计算机系的成绩,数据格式如下所示: 请根据给定的实验数据,在 spark-shell 中通过编程来计算以下内容: 创建目录,将chap

苏黄的假期学习报告3

苏黄的假期学习报告3 复习进度 所有需要复习科目都已经过了一遍,但是时间所剩不多,因为本来寒假就短,我还因为病情住院.不爽! 春节安排 如果学校放假时间往后延一两个星期,我就可以和家人.同学在家乡过完一个完整的春节--从大年三十到元宵节.可惜学校就是想让我们这群年轻人体验一把春运抢不着返程票的滋味,真TMD的生气!我前几天就帮家里人收拾屋子,明天去买只活鸡宰了来祭祀.年三十肯定和家里人过,看不看春晚另外讲:初一就按小学.初中.高中.家这个路线去"行大运":初二回老家.之后就在吃汤圆.粽

Linux内核分析第一次学习报告

Linux内核分析第一次学习报告 学生 黎静 学习内容 1.存储程序计算机工作模型 冯诺依曼体系结构:核心思想为存储程序计算机. CPU抽象为for循环,总是执行下一条指令,内存保存指令和数据,CPU来解释和执行这些指令. API:应用程序编程接口(程序员与计算机的接口界面) ABI:二进制接口,指令编码(程序员与CPU的接口界面) 2.X86汇编 1.寄存器 (1)通用寄存器 (2)段寄存器: (3)标志寄存器 2.计算机的汇编指令 (1)movl指令: 寄存器寻址,寄存器模式,以%开头的寄存

分布式事务处理学习报告

1.什么是事务? 事务通俗说就是一个事情分为多个步骤完成: 比如: 2.事务的ACID四大属性: 原子性(Atomicity):意为:即一事务的操作要么全部执行,要么全部不执行.当事务非正常终止时,其中间结果将被取消. 一致性(Consistence):指的是保证数据在变化中只存在一个完整状态.比如修改一个人的信息(姓名,性别,年龄),在更新过程中发生错误,则所做的修改要么全没了,要么全保留. 隔离性(Isolation):一个未完成事务不能在提交前就把其中间结果提供给其它事务使用. 持久性(D