爬取灯带情况

from urllib.request import Request
from urllib.request import urlopen
from bs4 import BeautifulSoup

url = "https://www.amazon.com/s?k=led+strip+lights&page=1"
headers = {"User-Agent": "Mozilla/5.0 (Windows NT 6.3; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) ……", #保密,按F12即可知道自己的专属User-Agent
"referer": "https://www.amazon.com/Nike-Womens-Pegasus-Running-Shoes/dp/B07CXGMVJL/ref=cts_sh_2_vtp",
"authority": "www.amazon.com",
"path": "/s?k=led+strip+lights&ref=nb_sb_noss_1",
"cookie": ""} #此处 保密

req = Request(url=url, headers=headers)
response = urlopen(req)
print(type(response))
soup = BeautifulSoup(response, "lxml")
print(type(soup))
products = soup.find("div", {"class":"s-result-list s-search-results sg-row"})

想要知道每页展示的灯数,但结果不对

print(len(products.div.div))

print(products.div.div)

print(products.get_text())

<span class="a-size-base-plus a-color-base a-text-normal"

header = products.find("span",{"class":"a-size-base-plus a-color-base a-text-normal"})
print("header:", header.string.strip())
score = products.find("span", {"class":"a-icon-alt"})
print("score:", score.string.strip())
review = products.find("div", {"class":"a-row a-size-small"}).descendants
print(review)
"""
review = review.find("span", {"class":"a-size-base"})
print("review:", review.string.strip())
price = products.find("span", {"class":"a-offscreen"})
print("price:", price.string.strip())
delivery = products.find("i", {"aria-label":"Amazon Prime"})
if delivery:
FBA = True
else:
FBA = False
print("FBA:", FBA)
image_url = products.find("img", {"class":"s-image"})
image_url = image_url.attrs["src"]
print("image_url:", image_url)
coupon = products.find("span", {"class":"a-size-base s-coupon-highlight-color s-highlighted-text-padding aok-inline-block"})
print("coupon:", coupon.string.strip())
Sponsered = products.find("span", {"class":"a-size-base a-color-secondary"})
if Sponsered:
Sponsered = True
else:
Sponsered = False
print("Sponsered:", Sponsered)
"""

"""
Num = 0
for pro in products:
print(Num)
attrs =
#asin = pro.div.div.attrs["data-asin"]
#print(asin, "\n")
No += 1
”“”

未完,ing

原文地址:https://www.cnblogs.com/wyy1480/p/11247779.html

时间: 2024-11-04 18:09:53

爬取灯带情况的相关文章

Java分布式爬虫Nutch教程——导入Nutch工程,执行完整爬取

Java分布式爬虫Nutch教程--导入Nutch工程,执行完整爬取 by briefcopy · Published 2016年4月25日 · Updated 2016年12月11日 在使用本教程之前,需要满足条件: 1)有一台Linux或Linux虚拟机 2)安装JDK(推荐1.7) 3)安装Apache Ant 下载Nutch源码: 推荐使用Nutch 1.9,官方下载地址:http://mirrors.hust.edu.cn/apache/nutch/1.9/apache-nutch-1

大神教你如果学习Python爬虫 如何才能高效地爬取海量数据

Python如何才能高效地爬取海量数据 我们都知道在互联网时代,数据才是最重要的,而且如果把数据用用得好的话,会创造很大的价值空间.但是没有大量的数据,怎么来创建价值呢?如果是自己的业务每天都能产生大量的数据,那么数据量的来源问题就解决啦,但是没有数据怎么办??哈哈哈,靠爬虫来获取呀!!! 通过利用爬虫技术获取规模庞大的互联网数据,然后做市场分析.竞品调研.用户分析.商业决策等. 也许对于小白来说,爬虫是一件非常难且技术门槛高的是,但是如果掌握了正确的方法,在短时间内可以让你应运自如.下面就分享

还在考虑去哪找小视频?Python爬虫带你爬取数百万部国产小视频!

郑重声明:本项目旨在学习Scrapy爬虫框架和MongoDB数据库,不可用于其他不正当的事情与商业.若使用不当产生任何不好的后果,以及法律责任,均由个人承担!!! 在本次项目当中,我们将会用到PornHubBot项目,该项目主要是用来爬取全球最大的小电影网站PornHub的视频标题.时长.mp4链接.封面URL和具体的PornHub链接.该项目爬取的是PornHub.com,它的结构简洁,运行速度超快.爬取PornHub视频的速度可以达到500万/天以上.这个爬取速度还因网络的情况来定.本项目还

爬虫学习(七)——带cookie的网页进行爬取

# 前提:# # 通常,很多网站需要登录才能进行浏览,所以在爬取这些网站时,也需要进行登录,并拿取登录时的cookie# # 登录网页,服务器会给客户端一个牌子cookie# # 访问登录页面时,带着牌子进行请求才能返回响应# # 登录界面的爬取 # 做法: # 找到牌子,带着牌子进行请求 # cookie有的在请求头里 # 如下是在登录后的页面中找到请求头里的cookie,然后进行请求,访问其含登陆信息的页面 import urllib.requestimport urllib.parse #

中科大EPC课程爬取-带步骤

原文取自 木华生的帖子https://blog.csdn.net/qq_28491207/article/details/84261732 以前看了上文的帖子,感觉对自己有用,分享一下.在这里我就细说一下步骤,给大家提供较完整的教程:本文对源代码进行了删减,源代码功能更多,感兴趣可以回去研读一下 功能:定时爬取课程,若有课程给自己发送邮件,用微信或者QQ邮箱给自己提醒 第一步:首先你要安装python IDE 本文采用python3.7.0下载地址如下链接:https://pan.baidu.c

【Python3 爬虫】06_robots.txt查看网站爬取限制情况

大多数网站都会定义robots.txt文件来限制爬虫爬去信息,我们在爬去网站之前可以使用robots.txt来查看的相关限制信息 例如: 我们以[CSDN博客]的限制信息为例子 在浏览器输入:https://blog.csdn.net/robots.txt 获取到信息如下: 从上图我们可以看出: ①该网站无论用户使用哪种代理都允许爬取 ②但是当爬取/css,/images-等链接的时候是禁止的 ③我们可以看到还存在一个网址Sitemap,j具体解析如下: 网站提供的Sitemap文件(即网站地图

Python爬取CSDN博客文章

之前解析出问题,刚刚看到,这次仔细审查了 0 url :http://blog.csdn.net/youyou1543724847/article/details/52818339Redis一点基础的东西目录 1.基础底层数据结构 2.windows下环境搭建 3.java里连接redis数据库 4.关于认证 5.redis高级功能总结1.基础底层数据结构1.1.简单动态字符串SDS定义: ...47分钟前1 url :http://blog.csdn.net/youyou1543724847/

使用 Chrome 浏览器插件 Web Scraper 10分钟轻松实现网页数据的爬取

本文标签: WebScraper Chrome浏览器插件 网页数据的爬取 使用Chrome 浏览器插件 Web Scraper 可以轻松实现网页数据的爬取,不写代码,鼠标操作,点哪爬哪,还不用考虑爬虫中的登陆.验证码.异步加载等复杂问题. Web Scraper插件 Web Scraper 官网中的简介: Web Scraper Extension (Free!)Using our extension you can create a plan (sitemap) how a web site

从爬取华科hub教务系统课表浅谈Java信息抓取的实现 —— import java.*;

原创文章与源码,如果转载请注明来源. 开发环境:Myeclipse,依赖包:apache-httpclient . Jsoup.base64 一.概述 华科大的教务系统(hub系统)做的算是比较好的,无论是界面还是其安全性来说,都是很不错的.大家可以用浏览器的调试工具F12看一下里面的源码.关于它的安全性,在后面会为大家提到.而在布局方面,用<div>代替了一些传统网站使用的<iframe>,导航栏也是使用的比较流行的插件. 其首页地址为http://hub.hust.edu.cn