requests实例2:亚马逊网站商品网页的爬取

这个网页具备检测爬虫和浏览器访问的功能。

因此为了成功爬取该网页,我们需要伪装requests的headers(把爬虫伪装成一个浏览器)

代码如下:

 1 import requests
 2 url = "http://www.amazon.cn/gp/product/B01M8L5Z3Y"
 3 try:
 4     kv = {‘user-agent‘:‘Mozilla/5.0‘}
 5     r = requests.get(url, headers=kv)
 6     r.raise_for_status()
 7     r.encoding = r.apparent_encoding
 8     print(r.text[1000:2000])
 9 except:
10     print("爬取失败")

输出:

 1 log");ue.stub(ue,"onunload");ue.stub(ue,"onflush");
 2
 3 (function(d,e){function h(f,b){if(!(a.ec>a.mxe)&&f){a.ter.push(f);b=b||{};var c=f.logLevel||b.logLevel;c&&c!==k&&c!==m&&c!==n&&c!==p||a.ec++;c&&c!=k||a.ecf++;b.pageURL=""+(e.location?e.location.href:"");b.logLevel=c;b.attribution=f.attribution||b.attribution;a.erl.push({ex:f,info:b})}}function l(a,b,c,e,g){d.ueLogError({m:a,f:b,l:c,c:""+e,err:g,fromOnError:1,args:arguments},g?{attribution:g.attribution,logLevel:g.logLevel}:void 0);return!1}var k="FATAL",m="ERROR",n="WARN",p="DOWNGRADED",a={ec:0,ecf:0,
 4 pec:0,ts:0,erl:[],ter:[],mxe:50,startTimer:function(){a.ts++;setInterval(function(){d.ue&&a.pec<a.ec&&d.uex("at");a.pec=a.ec},1E4)}};l.skipTrace=1;h.skipTrace=1;h.isStub=1;d.ueLogError=h;d.ue_err=a;e.onerror=l})(ue_csm,window);
 5
 6 ue.stub(ue,"event");ue.stub(ue,"onSushiUnload");ue.stub(ue,"onSushiFlush");
 7
 8 var ue_url=‘/gp/product/B01M8L5Z3Y/uedata/unsticky/461-6495535-0834918/NoPageType/ntpoffrw‘,
 9 ue_sid=‘461-6495535-0834918‘,
10 ue_mid=‘AAH

原文地址:https://www.cnblogs.com/Shiko/p/10827981.html

时间: 2024-08-01 03:06:55

requests实例2:亚马逊网站商品网页的爬取的相关文章

jquery:提取亚马逊网站的dropdown下拉菜单

上面是亚马逊网站的下拉导航菜单,类似于天猫和京东商城.精心开发5年的UI前端框架! 鼠标移上去的效果反应非常迅速,事实上做过这种效果的人都应该知道,一般要做到如此快速的效果,当你从左侧移到右侧的时候是会出问题的.大多数dropdown菜单在鼠标移到菜单项并显示子菜单的时候,都会有一定的延迟效果,下面是old Khan Academy网站的一个例子: 看到那延迟效果了没?其实你是需要这个延迟的,不管是代码上还是审美上,如果没有这个延迟,你从主菜单移到子菜单的瞬间,子菜单会消失掉.这会让用户觉得心里

python+scrapy爬取亚马逊手机商品

1 # -*- coding: utf-8 -*- 2 3 # Define here the models for your scraped items 4 # 5 # See documentation in: 6 # http://doc.scrapy.org/en/latest/topics/items.html 7 8 import scrapy 9 10 11 class AmazonItem(scrapy.Item): 12 # define the fields for your

爬虫实例(二):多线程,多进程对网页的爬取

采用多线程对韩寒的微博进行爬取,这个只是不需要进行模拟登陆的: 1 #--coding:utf-8--- 2 #!/usr/bin/env python 3 import urllib 4 import os 5 import re 6 import time 7 from threading import Thread 8 from multiprocessing import Process 9 10 def downloadURL(urls,dirpath): 11 ##在之前中分装一个l

亚马逊危险了!面临创业公司和科技巨头的颠覆

由于四面树敌,亚马逊的疯狂扩张战略似乎蕴含着巨大风险. 光是过去 9 个月,这家靠网上卖书起家的电子商务巨头,就凭借着流媒体电视机顶盒.Fire Phone 智能手机和 Local Register 支付服务,挺进了三大硬件领域.亚马逊还发布了本地化服务集市.不限数量的电子书订阅服务.Pantry 杂货配送服务(及其配套的条形码扫描仪),以及一款流媒体音乐服务.它同时还在尝试无人机送货,并向自制剧领域投入了数百万美元. 不仅如此,它旗下还拥有 Zappos.Diapers.com 和 IMDB—

亚马逊海淘攻略大全

相信许多海淘新手都有这样的疑问,如何海淘?怎么样海淘?海淘如何支付?海淘清关要多久?海淘转运公司哪家好?等等.我当年第一次海淘时也是这样,然后开始了漫长的搜索和阅读,最后才迈出了自己的处女淘.为了使大家能够在一个地方全面的了解海淘,免去到处搜索资料的痛苦,我特地编写了这个亚马逊海淘入门系列文章.而之所以选择亚马逊,这是因为亚马逊作为全球第一大电商,不但商品种类非常齐全之外,而且堪称完美的在线客服,使得它成为所有海淘爱好者的理想购物之地,但是你真的了解亚马逊吗?海淘实验室试图以一系列文章全面的介绍

亚马逊如何用19年拼出一个帝国

6月19日,亚马逊终于发布了众人翘首以盼的智能手机Fire Phone,为他的帝国增添了一块坚实的砖瓦.从1995年到2014年,亚马逊走过了19年.现在让我们来看看,这家开创电子商务的公司,其帝国都是如何构成的. <<<-------------  <_< 向左看 [基础设施]数字书店:亚马逊与图书出版商的缘分,从最初合作尝试,到相互抵制,再到和解,历经数年.亚马逊以设备+内容式的捆绑,赢得了用户,可谓是颠覆性创新,开辟了数字出版业的先河.数字阅读业务可谓亚马逊的根基,原本

亚马逊——不一样的电商公司

其一: 电商公司就是电子商务公司.电子商务通俗的说就是利用电子工具进行各种商务活动,如网上购物.在线电子支付等.可以说电子商务是传统商业活动的电子化和网络化.离我们最近的就是网购了,通常我们会在淘宝.天猫.聚美优品.亚马逊等购物平台上购买东西,他们已然成为了我们生活的一部分.但我们不曾留意,他们分别代表着不同的电商公司,拥有不同的理念与策略.下面我们将通过与淘宝的对比,谈一下与众不同的电商公司亚马逊公司. 亚马逊公司,是美国最大的一家网络电子商务公司,于2004年进入中国.再他的发展史上有三次定

亚马逊称网络星期一成公司史上“最大的购物日

腾讯科技讯 据外媒报道,亚马逊周三表示,今年的"网络星期一"成为该公司史上最大的购物日,超过其在今年7月举行的Prime Day购物狂欢节. 与往常一样,亚马逊并未透露任何具体的数字.此外,亚马逊也没有透露其所谓"全球最大的购物日"是指营收.所售商品数量.参与的消费者人数,亦或是三者全部包括. 本周早些时候,亚马逊表示它在感恩节期间售出的自有品牌设备创造了记录.亚马逊零售业务CEO杰夫·威尔克(Jeff Wilke)表示,在感恩节至网络星期一的五天时间内,消费者购买

股价飙升500倍,市值超过4700亿美元,从网络书店起家的亚马逊凭什么一飞冲天?

砺石导语:亚马逊股价上周创出999.00美元的历史最高价,距1000美元的关口仅有一步之遥.从一家建在自家车库里的网络图书公司,到被媒体称为"吞噬世界的怪物",亚马逊崛起的背后有着怎样的征途? 文|文媛媛 如果你在亚马逊IPO的时候投资1万美元,那么现在你会得到500万美元. 作为美国最大的电子商务公司,亚马逊股价上周创出999.00美元的历史最高价,距1000美元的关口仅有一步之遥.上周五,亚马逊股价报收于995.78美元,市值达到4730亿美元. 亚马逊公司1995年成立,是世界上