使用scrapy爬取网站的商品数据

目标是爬取网站http://www.muyingzhijia.com/上全部的商品数据信息，包括商品的一级类别，二级类别，商品title，品牌，价格。

搜索了一下，python的scrapy是一个不错的爬虫框架，于是基于scrapy写了一个简易的爬虫。

先分析商品页面，在http://www.muyingzhijia.com/主页面上，有类链接有用的链接，即：http://www.muyingzhijia.com/Shopping/category.aspx?cateID=11和http://www.muyingzhijia.com/Shopping/subcategory.aspx?cateID=185&small=1，前者为一级类别，后者为二级类别，这两级类别含有部分商品信息，但是没有包含文章开头所需的五类商品信息。而与http://www.muyingzhijia.com/shopping/productdetail.aspx?pdtID=33158&fromPromType=tttj类似的链接中，上述五种信息，均包含。所以计划以http://www.muyingzhijia.com/Shopping/alllist.aspx，http://www.muyingzhijia.com/Shopping/category.aspx?cateID，http://www.muyingzhijia.com/Shopping/subcategory.aspx?cateID三类链接为入口，对http://www.muyingzhijia.com/Shopping/category.aspx?cateID及http://www.muyingzhijia.com/Shopping/subcategory.aspx?cateID类链接进行自动抓取，同时遇到http://www.muyingzhijia.com/shopping/productdetail.aspx?类链接，进行页面解析，解析出所需的五类信息。

爬虫实现了自动爬取，item去重，链接去重，取出的数据存入数据库。

代码详见： https://github.com/darlwen/spider

时间： 2024-08-09 09:36:46

使用scrapy爬取网站的商品数据的相关文章

Scrapy实战---Scrapy对接selenium爬取京东商城商品数据

本篇目标:我们以爬取京东商城商品数据为例,展示Scrapy框架对接selenium爬取京东商城商品数据. 背景: 京东商城页面为js动态加载页面,直接使用request请求,无法得到我们想要的商品数据,故需要借助于selenium模拟人的行为发起请求,输出源代码,然后解析源代码,得到我们想要的数据. 第一步:设置我们需要提取的字段,也就是在Scrapy框架中设置Item.py文件. class ProductItem(scrapy.Item): # define the fields for y

scrapy爬取booking酒店评论数据

# scrapy爬取酒店评论数据 -- 代码 here:github地址:https://github.com/760730895/scrapy_Booking-- 采用scrapy爬取酒店评论数据. 总共有28W条记录. 做某NLP任务,需要一些hotel reviews, 选择从`www.booking.com`搞一点数据来.根据主页显示总共有20个城市from diferrent countries,每个城市下有若干个酒店,每个酒店下若干条评论. # 〇.数据源介绍数据源:`www.

Python3爬虫爬取淘宝商品数据

这次的主要的目的是从淘宝的搜索页面获取商品的信息.其实分析页面找到信息很容易,页面信息的存放都是以静态的方式直接嵌套的页面上的,很容易找到.主要困难是将信息从HTML源码中剥离出来,数据和网页源码结合的很紧密,剥离数据有一定的难度. 然后将获取的信息写入excel表格保存起来,这次只爬取了前面10页的内容.在运行代码的过程中发现,30页后面的数据有问题,出现了手机价格为0的情况,这是不符合实际的,码也没有写错误处理的代码. 这次先写个粗略的,有点凌乱的感觉,下次有时间再系统的整理整理吧. im

用scrapy爬取ttlsa博文相关数据存储至mysql

运维生存时间这个博客内容还是比较详尽的,对与运维技术人员的我来说,是偶尔溜达进来的地方,从中也学习到不少知识,感谢博主的奉献! 这段时间我就通过scrapy来收集下此博客内文章的相关数据,供以后需要从中提取我认为值得看的文章作为数据依据. 今天,要做的事就是把数据先抓取出来,后期再将其数据存储起来. 首先通过命令scrapy genspider ttlsa www.ttlsa.com创建一个蜘蛛程序应用名为ttlsa 其次在ttlsa.py下编写如下代码. # -*- coding: utf-8

Python3.5：爬取网站上电影数据

首先我们导入几个pyhton3的库: from urllib import requestimport urllibfrom html.parser import HTMLParser 在Python2和Python3之间一个重要区别就是,在Python2有urllib,urllib2两个库,在Python3整合到一起,里面的函数方式也有一点变,先定义一个函数,将header,url,request,都打包成一个函数方便调用,且看下面代码: def print_movies(url): # 伪装

python scrapy爬取皇冠体育源码下载网站数据二（scrapy使用详细介绍）

1.scrapy工程创建皇冠体育源码下载论坛:haozbbs.com Q1446595067 在命令行输入如下命令,创建一个使用scrapy框架的工程 scrapy startproject scrapyDemo 1 命令创建好后的工程结构如下图scrapy工程结构输入如下命令,在工程目录中创建示例代码 PS C:\ProjectPycharm> cd scrapyDemoPS C:\ProjectPycharm\scrapyDemo> scrapy genspider example ex

利用linux curl爬取网站数据

看到一个看球网站的以下截图红色框数据,想爬取下来,通常爬取网站数据一般都会从java或者python爬取,但本人这两个都不会,只会shell脚本,于是硬着头皮试一下用shell爬取,方法很笨重,但旨在结果嘛,呵呵. 2.首先利用curl工具后者wget工具把整个网站数据爬取下来 curl 网址 >wangzhan.txt 3.查看wangzhan.txt文件,找出规则,看到数据是存放在哪个地方,本人是把txt文件拷到本机上用UE打开方便查看.通过查看文件,我发现数据是存储在"var aut

scrapy爬取西刺网站ip

# scrapy爬取西刺网站ip # -*- coding: utf-8 -*- import scrapy from xici.items import XiciItem class XicispiderSpider(scrapy.Spider): name = "xicispider" allowed_domains = ["www.xicidaili.com/nn"] start_urls = ['http://www.xicidaili.com/nn/']

Scrapy爬取慕课网(imooc)所有课程数据并存入MySQL数据库

爬取目标:使用scrapy爬取所有课程数据,分别为 1.课程名 2.课程简介 3.课程等级 4.学习人数并存入MySQL数据库 (目标网址 http://www.imooc.com/course/list) 一.导出数据文件到本地 1.新建imooc项目 1 scrapy startproject imooc 2.修改 items.py,添加项目item 1 from scrapy import Item,Field 2 class ImoocItem(Item): 3 Course_na

猜你喜欢

Puremvc一点理解

PHP中的验证码类（验证码功能设计之一）

<?php class Vcode { private $width; //宽 private $height; //高 priva ...

javascript中，如何判断input中输入的为纯数字

用正则表达式判断.如果纯数字是指整数的话(不包含小数点),可以这样: function check(){ var value = document.getElementById("input ...

centos mysql 实战第八节课

f

HDU - 1385 Minimum Transport Cost(最短路＋最小字典序路径)

题目大意:有N个村庄.过村庄时需要交一定的费用.现在问从村庄A,要运一批货物到村庄B,怎样走才能使费用达到最小,起始和终点都不用缴费解题思路:这题借鉴了别人的思路,用字符串存储路径. 其实不用字符串 ...

转：渗透测试工具实战技巧合集

转自:http://www.freebuf.com/sectool/105524.html 选择性的删了一部分内容最好的 NMAP 扫描策略 # 适用所有大小网络最好的 nmap 扫描策略 # ...

OPW-00029 (passwordfile in Oracle Database 12c Release 2)

APPLIES TO: Oracle Database - Enterprise Edition - Version 12.2.0.1 and laterInformation in this doc ...

实验四+036+吴心怡

一.实验目的 1) 学习QTP工具的使用 2)了解黑盒自动化测试二.实验要求 (1)对被测程序进行黑盒测试用例设计 (2)对QTP的飞机订票系统的任一界面或控件实现自动化测试.(测试的具体自选) ( ...

iOS开发线程和RunLoop

一般来讲,一个线程一次只能执行一个任务,执行完毕后线程就会退出,如果我们需要一个机制让线程能随时处理时间但并不退出,通常的代码逻辑是这样: 这就是 Event Loop框架. runloop实际上就是 ...

Dynamic CRM 2013学习笔记（九）CrmFetchKit.js介绍：Fetchxml、多表联合查询, 批量更新

CrmFetchKit.js是一个跨浏览器的一个类库,允许通过JavaScript来执行fetch xml的查询,还可以实现批量更新,分页查询等.目前已支持Chrome 25, Firefox 19 ...

Python——nose实例示例

1. 脚本示例: 执行结果: 2. 脚本示例: 执行结果: 由以上截图可以看出执行顺序: 大体可以得出如下结论: 1)测试的顺序总体上按照包->模块->类的顺序进行: 2) 然后按照测试用 ...

office安装不了 “windows installer 服务不能更新一个或多个受保护的windows文件”

出现这种情况可能是系统中某些文件缺失了,一般发生于安装GHOST版或做过精简的系统打开C:\WINDOWS\msagent 看看文件夹中内容是不是如下图所示: 再打开C:\Program Files ...

PHP中刷新输出缓冲

http://www.cnblogs.com/mutuan/archive/2012/03/18/2404957.html PHP中刷新输出缓冲buffer是一个内存地址空间,Linux系统默认大小一 ...

今天简单说一下cdc 的使用

从08开始,sql server 提供了一种叫做变更数据捕获 cdc(Change Data Capture) 的功能,可以通过启用这个功能,来实现查看数据库中的表对象的数据的变化情况.(我感觉就是 ...

1个简单的case脚本

1个简单的case脚本: # vi aa.sh #!/bin/bash case $1 in "foo") echo 'bar' ;; "bar") echo ...

PS常用快捷键整理

Alt + Delte 填充前景色 Ctrl + Delete 填充背景色 D 恢复默认前景色和背景色 X 切换前景色和背景色 V 移动工具 i 吸管 M 选框工具 E 橡皮 Ctrl + 1 按实际 ...

python 发送邮件函数模块

发送邮件函数功能 1 #!/usr/bin/env python 2 # -*- coding:utf-8 -*- 3 import smtplib 4 from email.mime.text im ...

Xcode4快速Doxygen文档注释 — 简明图文教程

转自:http://blog.csdn.net/totogo2010/article/details/9100767 准备2个文件: 文件一,ThisService.app 文件二,Doxygen.r ...

linux下查看机器的CPU、内存信息

Linux下如何查看版本信息, 包括位数和多核信息,今天我们就来一起看看linux 查看版本信息以及查看CPU内核信息.CPU具体型号等等,整个CPU信息一目了然.相信不会让大家失望. # uname ...

python文件写入后读出空字符、读出乱码的解决方案

第一步排除文件打开方式错误: r只读,r+读写不创建,w新建写,w+新建写创建,a附加,b二进制文件以w,w+的方式打开文件,会将文件内容清零 (以w方式打开,不能读出.w+可读写) 以r,r+的 ...

专题

随机推荐

© 2024 憋错料 | info#biecuoliao.com | 10 q. 0.019 s.