python网页爬虫--京东家电版块

双十二就要到了,浏览京东商城也浏览的比较多,突然想到写一个爬虫来爬取一些“京东家电”的数据,可能会对双十二的活动有点预见性,也挺好玩的。

1、选定爬取的模块  京东商城--京东家电--家用电器--大家电

2、爬取“平板电视”这一模块的数据

我用的是火狐浏览器的HttpFox插件来查看网页的加载信息。当进入“平板电视”这一模块的时候,网页的加载信息是这样的:

打开第一个“GET”进来的网页信息,然后查看该加载的网页的“Header”信息,发现该网页是重新加载的,从“Referer”可看出该网页的新的链接:

3、打开"Referer"的链接信息,验证一下:

4、打开几个商品的链接,发现网页的URL有一定的规律,像是这样的网址:

地址中只是数字发生着变化,所以这一定有猫腻,所以进一步去观察HttpFox的信息。

下面是加载“平板电视”电视的时候,HttpFox生成的信息,找到第一条的json信息,发现了需要得到的数字:

5、将网页往下拉,可以看到分页,这就自己观察URL就可以了,简单的规律,每页的URL改变的只是页码的数字。

6、所以爬虫的大体思路就出来了:

  (1)获取json数值

  (2)组合生成xpath

  (3)匹配信息

  (4)去重、规整等处理数据

  (5)数据导到本地

7、这样我们就可以爬取23页的数据了,而且其他的京东网页做小的修改就可以了。下面该上代码了:不知道今晚能不能写出来~

时间: 2024-10-12 17:55:45

python网页爬虫--京东家电版块的相关文章

Python天气预报采集器 python网页爬虫

这个天气预报采集是从中国天气网提取广东省内主要城市的天气并回显.本来是打算采集腾讯天气的,但是貌似它的数据是用js写上去还是什么的,得到的html文本中不包含数据,所以就算了 爬虫简单说来包括两个步骤:获得网页文本.过滤得到数据. 1.获得html文本.  python在获取html方面十分方便,寥寥数行代码就可以实现需要的功能. def getHtml(url): page = urllib.urlopen(url) html = page.read() page.close() return

Python 网页爬虫

一.要解决的问题 需要解决的是根据自定义的关键词自动搜索google学术,解析搜索到的网页,下载所有相应的论文的PDF链接.这里我们采用Python来实现, 二.Python入门 python 自动缩进:shift+table整块向左缩进,table向右缩进,在修改整块代码时很有用比如将函数变成单独执行时. 了解python的变量,包,函数定义等 三.网页知识 3.1 浏览网页的过程 打开网页的过程其实就是浏览器作为一个浏览的“客户端”,向服务器端发送了 一次请求,把服务器端的文件“抓”到本地,

Python 网页爬虫 & 文本处理 & 科学计算 & 机器学习 & 数据挖掘兵器谱(转)

原文:http://www.52nlp.cn/python-网页爬虫-文本处理-科学计算-机器学习-数据挖掘 曾经因为NLTK的缘故开始学习Python,之后渐渐成为我工作中的第一辅助脚本语言,虽然开发语言是C/C++,但平时的很多文本数据处理任务都交给了Python.离开腾讯创业后,第一个作品课程图谱也是选择了Python系的Flask框架,渐渐的将自己的绝大部分工作交给了Python.这些年来,接触和使用了很多Python工具包,特别是在文本处理,科学计算,机器学习和数据挖掘领域,有很多很多

【Python】Python 网页爬虫 & 文本处理 & 科学计算 & 机器学习 & 数据挖掘兵器谱

好文 mark http://www.52nlp.cn/python-%E7%BD%91%E9%A1%B5%E7%88%AC%E8%99%AB-%E6%96%87%E6%9C%AC%E5%A4%84%E7%90%86-%E7%A7%91%E5%AD%A6%E8%AE%A1%E7%AE%97-%E6%9C%BA%E5%99%A8%E5%AD%A6%E4%B9%A0-%E6%95%B0%E6%8D%AE%E6%8C%96%E6%8E%98 曾经因为NLTK的缘故开始学习Python,之后渐渐成为我工

python网页爬虫浅析

Python网页爬虫简介: 有时候我们需要把一个网页的图片copy 下来.通常手工的方式是鼠标右键 save picture as ... python 网页爬虫可以一次性把所有图片copy 下来. 步骤如下: 1. 读取要爬虫的html 2. 对爬下来的html 进行存储并处理: 存储原始html 过滤生成list 正则匹配出picture的连接 3. 根据连接保存图片到本地 主要的难点: 熟悉urllib , 正则匹配查找图片链接 代码如下: import urllib.request im

Python网页爬虫学习

我总结的了ython网页爬虫的笔记,使用BeautifulSoup和requests两个模块实现,能够爬取百度贴吧帖子图片的功能.里面还包括的了两个模块具体的使用讲解,还包含了详细的注释.有问题请在GIT留言或者邮箱联系 可以直接去Github下载: 下载地址: https://github.com/liangz0707/WebCrawler git地址:[email protected]:liangz0707/WebCrawler.git

python网页爬虫

以前也接触过爬虫方面的知识,但是总体感觉写爬虫的话,最好使用python,因为python有很多数据采集方面的库, 此外python这面语言使用起来比较简洁易读,在采集的过程中,维护起来也比较方便! 首先来几个简单的数据采集: import requests req=requests.get("http://www.baidu.com") print req.content 这个相当于简单的http的get 请求! import urllib req=urllib.urlopen(&q

python网页爬虫小项目开发

这是我最近接的一个小项目,花了是整整四天多时间,最终老师也很好,给了两千块的报酬. 任务是将http://www.examcoo.com/index/detail/mid/7网站下所有的试卷里的试题全部提取出来,首先按照题型进行分类,接着分析出题目的类型 类别 来源 出题时间等等信息,最终将这些信息转化到excel表格中,excel中的数据有着统一的格式.其中有些信息有关医学,故而需要自行了解. 由于仅仅是是为了完成最终的任务,故而没有使用什么爬虫框架之类的,也没有使用什么数据库来保存数据,尽量

python网页爬虫开发之六-Selenium使用

chromedriver禁用图片,禁用js,切换UA selenium 模拟chrome浏览器,此时就是一个真实的浏览器,一个浏览器该加载的该渲染的它都加载都渲染,所以爬取网页的速度很慢.如果可以不加载图片等操作,网页加载速度就会快不少,代码中列出了了禁用图片,禁用JS,切换UA的方法. from selenium import webdriver from fake_useragent import UserAgent ua = UserAgent().random print(ua) chr