「实例操作」抓取耐克中国官网数据转淘宝数据包-1 获取商品链接

最近接了个单子,要抓耐克中国的数据,把里面的商品转化成淘宝数据包,可以直接上传宝贝

客户提出了3个要求:

  1:批量下载全网站商品;

  2:定期更新网站新品;

  3:批量更新淘宝库存,检查网站数据

这边先确定思路

第一是要抓取这些商品的列表,

第二是抓取单品的信息,

第三是把信息按照淘宝数据包格式输出。

这样就解决了第一个要求,

第二个邀请是抓取新品,这个要求可以这样理解,定期抓取所以链接,并保存下来,如果有的新的链接,那就是新品,

第三个要求更新库存,这个要有淘宝接口,我朋友那边有,借用下即可

==================================================

以上是需求的第一分析

接下去就是实际操作,打开网页,这里采用firefox+firebug进行分析

先选了一个小类目,鞋类的休闲鞋

男子 休闲 鞋类 (236)

有236个商品,首先查看商品链接格式

http://store.nike.com/cn/zh_cn/pd/classic-cortez-leather-qs-%E7%94%B7%E5%AD%90%E8%BF%90%E5%8A%A8%E9%9E%8B/pid-11296763/pgid-11491812

http://store.nike.com/cn/zh_cn/product/air-force-1-high-id-shoe/?piid=43206&pbid=215878983#?pbid=215878983

发现有2中格式,一种是pgid格式,pid是颜色,还有一种是ppid,pbid是颜色

不多说,先用urllib2.urlopen().read()来一发

#!/usr/bin/env python
#coding:utf-8
import urllib2,urllib
import re
import time

url = "http://store.nike.com/cn/zh_cn/pw/%E7%94%B7%E5%AD%90-%E4%BC%91%E9%97%B2%E7%94%9F%E6%B4%BB-%E9%9E%8B%E7%B1%BB/7puZoneZoi3?ipp=120"
data = urllib2.urlopen(url).read()

print 了一下,问题不大,可以读取,接下去用正则匹配ppid和pgid,并去重,获取到了了39+20个,总共59个

回头看了下类目商品数,236个,看来没那么简单,源文件中的商品数量不全

这个时候使用firebug进行分析,首先开启

然后刷新页面,并且把页面拉到底

这个过程可以看见浏览器不停的发送请求,把最后一个商品链接复制一下进去搜索

ok,找到了,查看下请求链接

这里根据老司机经验,pn是页数,然后那个7pu的有点眼熟,wait a momonent,那不就是

看来那个是类目id,把这个链接复制到浏览器打开,ok,完美打开,urllib2.urlopen().read()来一发

ok,数据获取到了,这样看来就是通过这个接口来获取新的商品链接,核对了一下,总共有4页,分别获取piid和pgid,得到236个商品,

换了一个类目id测试并获取商品数量,结果完全和页面上一致,至此,获取商品链接这一步工作算是完成了

基于现在的进度,已经可以把新品更新脚本做出来了,只要把第一次获取到的商品id存起来,

下次再获取商品id,和之前的做比对,就可以获取新的商品id,这些商品可以认为是新品了

=======================================================

至此,第一阶段工作完毕,接下去更新第二阶段

时间: 2024-10-12 22:27:40

「实例操作」抓取耐克中国官网数据转淘宝数据包-1 获取商品链接的相关文章

Python -- 网络编程 -- 抓取网页图片 -- 图虫网

字符串(str)编码成字节码(bytes),字节码解码为字符串 获取当前环境编码:sys.stdin.encoding url编码urllib.parse.quote() url解码urllib.parse.unquote() 列表去重:pages = list(set(pages)) 创建文件夹(可多级创建):os.makedirs(folder)  os.mkdir()只能单级创建 首先分析网页(图虫网)的URL规律: 根网页地址形如: http://tuchong.com/tags/人像/

如何评价苹果中国官网 iOS 8 介绍页面的文案「开发者的大事、大快所有人心的大好事」?[转自知乎]

在什么是「苹果式中文」答案中,小七得出了这个结论: 「苹果式中文」是指句子结构破碎,经常缺乏主语,滥用排比,顶真,偏正短语,和不恰当四字词的广告文体. (有关什么是苹果式中文,小七原来贴错地方了TAT,具体分析请移步:什么是「苹果式中文」?) 那么作为广告翻译,苹果做得如何呢? 首先,有个翻译的概念需要向大家普及: 很多知友提出文案有明显的翻译腔,这个说法其实不准够确啊,有关什么是翻译腔,我的分析请移步:什么是「翻译腔」?「翻译腔」是好是坏? 在这里节选原文一段补充说明: 3. 明明能说中文,非

在Spring的新版官网中下载spring的jar包操作步骤

第一步:百度搜索Spring 第二步:点击第一个链接进入 第三步:看图吧: 第四步: 第五步: 第六步: 第七步: 第八步: 第九步: 第十步: 第十一步: 第十二步: 在Spring的新版官网中下载spring的jar包操作步骤

Java爬虫爬取 天猫 淘宝 京东 搜索页和 商品详情

Java爬虫爬取 天猫 淘宝 京东 搜索页和 商品详情 先识别商品url,区分平台提取商品编号,再根据平台带着商品编号爬取数据. 1.导包 <!-- 爬虫相关Jar包依赖 --> <dependency> <groupId>org.apache.poi</groupId> <artifactId>poi-ooxml</artifactId> <version>3.10-FINAL</version> </

php 文件操作之抓取网站图片

$str= file_get_contents("http://v.qq.com/");preg_match_all("/\<img\s+src=.*\s*\>/i", $str,$images);//抓取图片地址echo "<pre>"; print_r($images);echo "<pre>";

Python3爬虫爬取淘宝商品数据

这次的主要的目的是从淘宝的搜索页面获取商品的信息.其实分析页面找到信息很容易,页面信息的存放都是以静态的方式直接嵌套的页面上的,很容易找到.主要困难是将信息从HTML源码中剥离出来,数据和网页源码结合的很紧密,剥离数据有一定的难度. 然后将获取的信息写入excel表格保存起来,这次只爬取了前面10页 的内容.在运行代码的过程中发现,30页后面的数据有问题,出现了手机价格为0的情况,这是不符合实际的,码也没有写错误处理的代码. 这次先写个粗略的,有点凌乱的感觉,下次有时间再系统的整理整理吧. im

Python实例之抓取淘宝商品数据(json型数据)并保存为TXT

本实例实现了抓取淘宝网中以'python'为关键字的搜索结果,经详细查看数据存储于html文档中的js脚本中,数据类型为JSON 通过浏览器相关工具发现捧腹网笑话页面的数据存储在HTML页面而非json数据中,因此可以直接使用soup.select()方法来抓取数据,具体实现代码如下: import requests import re import json from urllib.parse import urlencode from bs4 import BeautifulSoup fin

Python实例之抓取网易云课堂搜索数据(post方式json型数据)并保存为TXT

本实例实现了抓取网易云课堂中以'java'为关键字的搜索结果,经详细查看请求的方式为post,请求的结果为JSON数据 具体实现代码如下: import requests import json finalstr = '' #初始化字符串 totlePage = 0 #初始化总页数 test = 0 #初始化数据总条数 url = 'http://study.163.com/p/search/studycourse.json' headers = {'content-type': 'applic

我也来学着写写WINDOWS服务-解析xml抓取数据并插入数据库

项目告一段落,快到一年时间开发了两个系统,一个客户已经在试用,一个进入客户测试阶段,中间突然被项目经理(更喜欢叫他W工)分派一个每隔两小时用windows服务去抓取客户提供的外网xml,解析该xml,然后将截取的节点字段值插入到已经建好相应结构的表中.并记录日志. xml结构概要如下: <?xml version="1.0" encoding="UTF-8"?> <list> <info> <id>93ef7c7ccc