python+scrapy爬取亚马逊手机商品

 1 # -*- coding: utf-8 -*-
 2
 3 # Define here the models for your scraped items
 4 #
 5 # See documentation in:
 6 # http://doc.scrapy.org/en/latest/topics/items.html
 7
 8 import scrapy
 9
10
11 class AmazonItem(scrapy.Item):
12     # define the fields for your item here like:
13     # name = scrapy.Field()
14     description=scrapy.Field()
15     price=scrapy.Field()
16     url=scrapy.Field()
17     value=scrapy.Field()
 1 #!/usr/bin/python
 2
 3 import scrapy
 4 class AmazonSpider(scrapy.Spider):
 5     name=‘amazon‘
 6     allowd_domains=[‘amazon.cn‘]
 7     start_urls=[‘http://www.amazon.cn/s/ref=sv_cps_0?ie=UTF8&node=665002051&page=1‘]
 8     def parse(self,response):
 9         try:
10             page=response.xpath("//span[@class=‘pagnDisabled‘]/text()").extract()[0]
11         except:
12             pass
13         for item in response.xpath("//li[@class=‘s-result-item‘]"):
14             title=item.xpath("./div/div[2]/div/a/h2/text()").extract()[0]
15             price=item.xpath("./div/div[3]/div[1]/a/span[1]/text()").extract()[0]
16             url=item.xpath("./div/div[1]/div/div/a[1]/@href").extract()[0]
17             print title
18             print price
19             print url
20         for i in range(int(page)):
21             request=scrapy.Request(‘http://www.amazon.cn/s/ref=sv_cps_0?ie=UTF8&node=665002051&page=‘+str(i),callback=self.parse)
22             yield request
23             
时间: 2024-11-05 22:49:59

python+scrapy爬取亚马逊手机商品的相关文章

用python爬取亚马逊物品列表

1. 仔细分析亚马逊查询详细界面可以看出来,主要关键部分有三个地方,这三个地方分别控制了查询列表的页面和关键字,所以修改这几个参数可以改变列表页数以及模糊查询的结果 http://www.amazon.cn/s/ref=sr_pg_3?rh=n%3A658390051%2Ck%3Aphp&page=3&keywords=Java&ie=UTF8&qid=1459478790 2. 通过基础链接以及正则表达式匹配的方法进行替换的方式改变爬取页面,注意由于使用了正则表达式匹配,

amazon爬取亚马逊页面信息

代码: # -*- coding: cp936 -*- import requests from lxml import etree ASIN = 'B00X4WHP5E' #ASIN = 'B017R1YFEG' url = 'https://www.amazon.com/dp/'+ASIN r = requests.get(url) html = r.text tree = etree.HTML(html) #获取产品单价 span = tree.xpath("//span[@id='pri

python爬虫----(6. scrapy框架,抓取亚马逊数据)

利用xpath()分析抓取数据还是比较简单的,只是网址的跳转和递归等比较麻烦.耽误了好久,还是豆瓣好呀,URL那么的规范.唉,亚马逊URL乱七八糟的.... 可能对url理解还不够. amazon ├── amazon │   ├── __init__.py │   ├── __init__.pyc │   ├── items.py │   ├── items.pyc │   ├── msic │   │   ├── __init__.py │   │   └── pad_urls.py │  

利用Python抓取亚马逊评论列表数据

前段时间,我家妹子公司老板叫她去将法国亚马逊评论列表的前100页共1000个评论用户的联系方式找出来.1000个用户,要一个个的去看再记录下来,而且并不是每个评论用户都会将个人的联系方式留下来.那么问题来了,这样费时费力的工作如果人工去做的话,那么就是花了两天的时间也就找了前30页的数据(还有别的工作要做),然后累的够呛的.本着心疼的原则(程序猿能找到妹子就很不错了,所以得心疼着),就想帮着她做点事. 我本身的工作是做游戏客户端开发的,主要使用的开发语言是lua和c++,并没有接触过网页.网站相

python多线程爬虫:亚马逊价格

import re import requests import threading import time from time import ctime,sleep from queue import Queue keywords_a=[ 'ELPLP80', 'ELPLP23', 'ELPLP29', 'NP14LP', 'POA-LMP126', 'ELPLP66', ] keywords_b=[ 'VIP230W0.8E20.8', 'VIP240W0.8E20.9N', 'NP30LP

python scrapy爬取皇冠体育源码下载网站数据二(scrapy使用详细介绍)

1.scrapy工程创建皇冠体育源码下载论坛:haozbbs.com Q1446595067 在命令行输入如下命令,创建一个使用scrapy框架的工程 scrapy startproject scrapyDemo 1 命令创建好后的工程结构如下图scrapy工程结构 输入如下命令,在工程目录中创建示例代码 PS C:\ProjectPycharm> cd scrapyDemoPS C:\ProjectPycharm\scrapyDemo> scrapy genspider example ex

requests实例2:亚马逊网站商品网页的爬取

这个网页具备检测爬虫和浏览器访问的功能. 因此为了成功爬取该网页,我们需要伪装requests的headers(把爬虫伪装成一个浏览器) 代码如下: 1 import requests 2 url = "http://www.amazon.cn/gp/product/B01M8L5Z3Y" 3 try: 4 kv = {'user-agent':'Mozilla/5.0'} 5 r = requests.get(url, headers=kv) 6 r.raise_for_status

python scrapy爬取动态页面

preface:最近学习工作之外,有个异性朋友需要爬取动态网页的要求,输入关键词爬取某个专利网站在该关键词下的一些专利说明.以往直接python urllib2可破,但是那只是对于静态网页可破,但是对于用js等其他的生成的动态网页的话,则貌似不行(没试过).然后在网上找了些资料,发现scrapy结合selenium包好像可以.(之所以这么说,暂时卤主也还没实现,先记录下来.) #=====================根据官网中简单的介绍作个人理解=======================

python+scrapy 爬取西刺代理ip(一)(ubuntu环境下) -赖大大 -博客园

第一步:环境搭建 1.python2 或 python3 2.用pip安装下载scrapy框架 具体就自行百度了,主要内容不是在这. 第二步:创建scrapy(简单介绍) 1.Creating a project(创建项目) scrapy startproject 项目名称 2.Defining our item(定义我们的项目) 3.writing a spider(写spider) scrapy genspider (spider的名称)(爬取的网页) 4.writing & Configu