京东商城大规模爬虫的开发

先说下这个网站,首先在首页随便输入一个想爬取的商品类别,观察到一般商品数目都是100页的,除非有些比较稀少的商品,如图

小编整理一套Python资料,有需要Python学习资料可以加学习群:923414804 ,在这寒冷的冬天,泡一壶热茶,看书学习,岂不快哉。

介 绍一下网站的分析过程,默认情况下在首页输入一件商品时,出来的搜索页面是只有30件商品的,屏幕的右侧下拉框拉到下面会触发一个ajax的请求,把剩下 的30个商品渲染出来,一般每页60个商品里面是有三个左右是广告的,也就是有效商品一般是57个。这里看一下这个AJAX请求,这个是爬取难点

看一看这个请求头,我当时第一个感觉以为很多参数是可以去掉,拿到一个很简便的链接就可以了

当 时没注意,删了很多参数直接请求,结果调试了很久,获得的商品在插进数据库去重的时候都是只剩网页的一般,细细观察了一下发现链接虽然不同,请求回来的商 品却是一样的,然后我再细细看了看这个ajax请求,鼓捣了好久,最终发现这个URL后面的每个数字都是每一件商品的ID,而这个ID隐藏在第一次刚打开 网页时候最初的那些商品里面,如图.........

这里结合ajax请求的参数看,

然后我又从新改掉爬虫逻辑,改代码,又花了两个小时,好惨啊.......

然后终于可以一次提取完整的网页商品了,最后提示一下,京东网页第一页的商品里面页数page是显示1和2的,第二页是3和4,这个有点特殊,最后上一张爬虫主程序图

运行结果如图

运行了几分钟,每页一千条,共爬了几万条裤子,京东的裤子真是多

原文地址:https://www.cnblogs.com/paisenpython/p/10291458.html

时间: 2024-08-19 16:14:05

京东商城大规模爬虫的开发的相关文章

一只初学者级别的京东商城商品爬虫(爬取索尼微单的参数信息)

近期对摄影产生一些兴趣,所以就自己爬了一下京东商城上Canon微单的数据.爬虫爬取了商品价格以及详细参数信息.作为一个初学者,幸运或者不幸的是,由于爬虫性能较差,在以下的代码中我并没有用到反爬虫的问题,只熟悉Python下载与安装的朋友也可以放心食用这篇文章. 以下我记下了完整详细的爬虫制作过程,供新手朋友参考.高端玩家指正. 一.开发前的准备 开发环境:Python3.6+Jupyter notebook 爬取过程使用的库:requests+re+BeautifulSoup 数据存取以及清洗过

读书笔记--大规模web服务开发技术

总评   这本书是日本一个叫hatena的大型网站的CTO写的,通过hatena网站从小到大的演进来反应一个web系统从小到大过程中的各种系统和技术架构变迁,比较接地气. 书的内容不是很难,所以总的来说比较容易阅读,不需要特别累的啃,可想而知,不是非常深入的,更多的还是把作者的一些经验写出来,hatena这种量级的在国内应该是一个中型网站的水平,作者基本把这个量级web服务的运维的方方面面都讲了一遍,看完可以对这个这种量级网站有一个总体的了解,个人认为还是值得一读的. 逐章读书笔记: 第一章 大

大规模web服务开发技术 读书笔记之一

作为一个web开发的小白,本书对我还是很有指导意义的. 1. 本书讲解的内容 一开始本书就给出了讲述的内容 1. 什么是大规模web服务开发? 2. 面对大规模数据问题时,处理的基本思路和重点在那里? 例如cache缓存机制,大规模数据情况下数据库的运用方法. 3. 算法与数据结构的选择 4. 规模超出RDBMS处理能力时,如何处理? 上面的内容贯穿整本书,怎么强调都不为过. 2. web 服务的规模 多大才算大规模? 1. 百万级用户注册,millions, 独立用户(unique user)

商城项目实战 | 1.1 Android 仿京东商城底部布局的选择效果 —— Selector 选择器的实现

前言 本文为菜鸟窝作者刘婷的连载."商城项目实战"系列来聊聊仿"京东淘宝的购物商城"如何实现. 京东商城的底部布局的选择效果看上去很复杂,其实很简单,这主要是要感谢 selector 选择器,本文将讲解仿照京东商城的底部布局的选择效果,如何实现 selector 选择器,在不同的状态下,给 view 设置不同的背景.京东商城底部布局的选择效果如下. View主要的几种状态 主要状态有8种,设置状态的代码以及相应的含义如下. 1 1. android:state_pr

分享一个源码下载网站,高仿京东商城源码下载

仿照京东商城做出的APP(仅实现了部分界面),自己开发着玩的,需要的拿去 京东商城,小试牛刀之作,与广大开发者分享,需要的拿去 http://www.devstore.cn/code/info/87.html 登陆界面 新品特惠疯狂抢购页面 京东商城项目相关服务--支付平台的选择,市场上的支付平台有支付宝,银联,机锋支付,360开放平台,有米,豌豆荚,中国移动应用,微信,微派,百度钱包等等,在如此多的支付平台里面你的项目该集合哪几个支付平台呢,推荐你关注参考相关资料DevStore这个平台,有关

【源码分享下载】每日更新之高仿京东商城

高仿京东商城 服务分类: 其他 使用服务: 其他 功能分类: 生活 支持平台: Android 运行环境: Android 开发语言: Java 开发工具: Eclipse 源码大小: 5.51MB 下载地址:http://www.devstore.cn/code/info/87.html 源码简介 仿照京东商城做出的APP(仅实现了部分界面) 源码片段 ? 源码运行截图:

类似京东商城客户端应用源码

IOS商城,电商开源APP,类似京东商城,天猫商城,淘宝,去年开发的一个项目,现在把它分享出来.服务端是java 商城,对应项目是Shop-for-JavaWeb1.App使用MVC框架完成开发.2.使用CocoaPods引入各大第三方组件:pod 'Masonry', '~> 0.6.4'pod 'AFNetworking', '~> 2.6.3'pod 'TouchJSON', '~> 1.1'pod 'SDWebImage', '~> 3.7.1'pod 'FMDB', '~

python抓取京东商城的商品名称和价格

突然心血来潮想抓一个京东的商品价格,突然发现网页的源码里没有价格这一项,只有商品的编号,网上说是显示的同事js从数据库里取出商品价格,放在页面上,那么我只能模拟请求了.哇咔咔,记得去你给京东投简历之后就没有然后了,难道就因为我也叫京东,你这也太浮夸了,给我幼小心灵造成创伤了. 原本要写一下creepy这个模块来抓取了,但今天时间不够了,明天还要上班....明天再写那个模块吧,据说是台湾大牛开发的,超级给力. import urllib import json import re class Jd

android仿京东商城例子

最近做android的开发,发现了一个好的工程,android仿京东商城. demo地址::http://download.csdn.net/detail/a358763471/8728155 上几张图