爬虫实战--使用Selenium模拟浏览器抓取淘宝商品美食信息

from selenium import webdriver
from selenium.webdriver.common.by import By
from selenium.common.exceptions import TimeoutException
from selenium.webdriver.support.ui import WebDriverWait
from selenium.webdriver.support import expected_conditions as EC
from pyquery import PyQuery as pq
import re

browser = webdriver.Chrome()
wait = WebDriverWait(browser,10)
def search():
    try:
        browser.get("https://www.taobao.com")
        input = wait.until(EC.presence_of_element_located((By.CSS_SELECTOR,‘#q‘)))
        submit = wait.until(EC.element_to_be_clickable((By.CSS_SELECTOR,‘#J_TSearchForm > div.search-button > button‘)))
        input.send_keys(‘美食‘)
        submit.click()
        total = wait.until(EC.presence_of_element_located((By.CSS_SELECTOR,‘#mainsrp-pager > div > div > div > div.total‘)))
        get_products()
        return total.text
    except TimeoutException:
        return search()

def next_page(page_number):
    try:
        input = wait.until(EC.presence_of_element_located((By.CSS_SELECTOR, ‘#mainsrp-pager > div > div > div > div.form > input‘)))
        submit = wait.until(EC.element_to_be_clickable((By.CSS_SELECTOR, ‘#mainsrp-pager > div > div > div > div.form > span.btn.J_Submit‘)))
        input.clear()
        input.send_keys(page_number)
        submit.click()
        wait.until(EC.text_to_be_present_in_element((By.CSS_SELECTOR,‘#mainsrp-pager > div > div > div > ul > li.item.active > span‘),str(page_number)))
        get_products()
    except TimeoutException:
        next_page(page_number)

def get_products():
    wait.until(EC.presence_of_element_located((By.CSS_SELECTOR,"#mainsrp-itemlist .items .item")))
    html = browser.page_source
    doc = pq(html)
    items = doc(‘#mainsrp-itemlist .items .item‘).items()
    for item in items:
        product = {
            ‘image‘:item.find(‘.pic .img‘).attr(‘src‘),
            ‘price‘:item.find(‘.price‘).text(),
            ‘deal‘:item.find(‘.deal-cnt‘).text()[:-3],
            ‘title‘:item.find(‘.title‘).text(),
            ‘shop‘:item.find(‘.shop‘).text(),
            ‘location‘:item.find(‘.location‘).text()
        }
        print(product)
def main():
    total = search()
    total = int(re.compile(‘(\d+)‘).search(total).group(1))
    for i in range(2,total + 1):
        next_page(i)

if __name__ ==  "__main__":
    main()

 1 {‘title‘: ‘坚果小吃零食组合装好吃的\n美食\n休闲食品孕妇成人款散装混合一箱‘, ‘deal‘: ‘1910‘, ‘image‘: ‘//g-search1.alicdn.com/img/bao/uploaded/i4/imgextra/i4/123456239/TB2CqDhqgZC2uNjSZFnXXaxZpXa_!!0-saturn_solar.jpg_180x180.jpg‘, ‘shop‘: ‘果木时光旗舰店‘, ‘price‘: ‘¥\n59.80‘, ‘location‘: ‘江苏 泰州‘}
 2 {‘title‘: ‘三只松鼠 肉松饼456g传统糕点早餐点心办公室\n美食‘, ‘deal‘: ‘68153‘, ‘image‘: ‘//g-search2.alicdn.com/img/bao/uploaded/i4/i3/725677994/TB2RFQ8cZbpK1RjSZFyXXX_qFXa_!!725677994-0-sm.jpg_180x180.jpg‘, ‘shop‘: ‘天猫超市‘, ‘price‘: ‘¥\n26.90‘, ‘location‘: ‘上海‘}
 3 {‘title‘: ‘轩妈家蛋黄酥6枚装 红豆味雪媚娘麻薯网红糕点点心\n美食\n早餐零食‘, ‘deal‘: ‘110112‘, ‘image‘: ‘//g-search2.alicdn.com/img/bao/uploaded/i4/i4/3282604381/O1CN011iEXcnPKoV6ODRN_!!3282604381.jpg_180x180.jpg‘, ‘shop‘: ‘轩妈食品旗舰店‘, ‘price‘: ‘¥\n45.00‘, ‘location‘: ‘广西 南宁‘}
 4 {‘title‘: ‘【百草味零食大礼包】休闲网红小吃一箱组合整箱超大混装\n美食\n批发‘, ‘deal‘: ‘196990‘, ‘image‘: ‘//g-search3.alicdn.com/img/bao/uploaded/i4/i3/628189716/TB2w6WHdMHqK1RjSZFgXXa7JXXa_!!628189716-0-item_pic.jpg_180x180.jpg‘, ‘shop‘: ‘百草味旗舰店‘, ‘price‘: ‘¥\n58.90‘, ‘location‘: ‘浙江 杭州‘}
 5 {‘title‘: ‘桂花鸭南京盐水鸭1000g正宗江苏特产中秋送礼\n美食\n板鸭咸水鸭熟食‘, ‘deal‘: ‘6665‘, ‘image‘: ‘//g-search3.alicdn.com/img/bao/uploaded/i4/i2/2095703462/O1CN011bRddgG0RUsR8tR_!!2095703462.jpg_180x180.jpg‘, ‘shop‘: ‘桂花鸭旗舰店‘, ‘price‘: ‘¥\n52.00‘, ‘location‘: ‘江苏 南京‘}
 6 {‘title‘: ‘良品铺子零食大礼包抖音网红小吃吃货一箱组合整箱混装\n美食\n批发‘, ‘deal‘: ‘158982‘, ‘image‘: ‘//g-search3.alicdn.com/img/bao/uploaded/i4/i1/619123122/TB1ODM4ev5TBuNjSspcXXbnGFXa_!!0-item_pic.jpg_180x180.jpg‘, ‘shop‘: ‘良品铺子旗舰店‘, ‘price‘: ‘¥\n59.90‘, ‘location‘: ‘湖北 武汉‘}
 7 {‘title‘: ‘轩妈家蛋黄酥2盒装 红豆雪媚娘麻薯糕点点心\n美食\n早餐网红零食‘, ‘deal‘: ‘55683‘, ‘image‘: ‘//g-search2.alicdn.com/img/bao/uploaded/i4/i2/3282604381/O1CN011iEXcnzrOwKPzVy_!!3282604381.jpg_180x180.jpg‘, ‘shop‘: ‘轩妈食品旗舰店‘, ‘price‘: ‘¥\n89.00‘, ‘location‘: ‘广西 南宁‘}
 8 {‘title‘: ‘轩妈家蛋黄酥55g*6枚2盒手工网红糕点\n美食\n早餐零食小吃雪媚娘麻薯‘, ‘deal‘: ‘11107‘, ‘image‘: ‘//g-search3.alicdn.com/img/bao/uploaded/i4/i1/681185851/O1CN011t5nqIzARzgEZZX-681185851.jpg_180x180.jpg‘, ‘shop‘: ‘猫诚旗舰店‘, ‘price‘: ‘¥\n89.00‘, ‘location‘: ‘广西 南宁‘}
 9 {‘title‘: ‘南京特产金陵夫子庙小吃零食传统糕点\n美食\n6盒大礼包送礼品袋‘, ‘deal‘: ‘1897‘, ‘image‘: ‘//g.alicdn.com/s.gif‘, ‘shop‘: ‘鹊菓食品旗舰店‘, ‘price‘: ‘¥\n59.90‘, ‘location‘: ‘江苏 南京‘}
10 {‘title‘: ‘其妙麻薯干吃汤圆整箱面包早餐糯米糍驴打滚糍粑网红小吃零食\n美食‘, ‘deal‘: ‘101377‘, ‘image‘: ‘//g.alicdn.com/s.gif‘, ‘shop‘: ‘其妙旗舰店‘, ‘price‘: ‘¥\n19.90‘, ‘location‘: ‘福建 厦门‘}
11 {‘title‘: ‘脆皮烤肉五花肉 云南特产\n美食\n真空熟食香辣猪肉干非红烧肉送蘸料‘, ‘deal‘: ‘2268‘, ‘image‘: ‘//g.alicdn.com/s.gif‘, ‘shop‘: ‘傣小妹‘, ‘price‘: ‘¥\n27.80‘, ‘location‘: ‘云南 西双版纳‘}
12 {‘title‘: ‘20枚玫瑰鲜花饼云南特产玫瑰花饼胡先生正宗糕点早餐零食\n美食\n1kg‘, ‘deal‘: ‘18481‘, ‘image‘: ‘//g.alicdn.com/s.gif‘, ‘shop‘: ‘mrhu旗舰店‘, ‘price‘: ‘¥\n39.90‘, ‘location‘: ‘云南 昆明‘}
13 {‘title‘: ‘轩妈家蛋黄酥55g*6枚/盒手工雪媚娘麻薯糕点\n美食\n早餐网红零食小吃‘, ‘deal‘: ‘24889‘, ‘image‘: ‘//g.alicdn.com/s.gif‘, ‘shop‘: ‘猫诚旗舰店‘, ‘price‘: ‘¥\n45.00‘, ‘location‘: ‘广西 南宁‘}
14 {‘title‘: ‘切糕小吃新疆特产纯手工正宗传统散装坚果点心玛仁糖零食孕妇\n美食‘, ‘deal‘: ‘199‘, ‘image‘: ‘//g.alicdn.com/s.gif‘, ‘shop‘: ‘yuxi钰玺‘, ‘price‘: ‘¥\n39.90‘, ‘location‘: ‘新疆 乌鲁木齐‘}
15 {‘title‘: ‘其妙麻薯干吃汤圆整箱面包早餐糯米糍驴打滚糍粑网红小吃零食\n美食‘, ‘deal‘: ‘42446‘, ‘image‘: ‘//g.alicdn.com/s.gif‘, ‘shop‘: ‘香客食品专营店‘, ‘price‘: ‘¥\n19.80‘, ‘location‘: ‘福建 厦门‘}
16 {‘title‘: ‘云南脆皮烤肉五花肉猪\n美食\n刘立民休闲食品熟食成人款即食小吃真空‘, ‘deal‘: ‘1216‘, ‘image‘: ‘//g.alicdn.com/s.gif‘, ‘shop‘: ‘小牛的烤肉‘, ‘price‘: ‘¥\n30.00‘, ‘location‘: ‘云南 西双版纳‘}
17 {‘title‘: ‘南萃坊流心蛋黄饼20个800克传统糕点办公室网红零食小吃\n美食\n整箱‘, ‘deal‘: ‘9557‘, ‘image‘: ‘//g.alicdn.com/s.gif‘, ‘shop‘: ‘南萃坊旗舰店‘, ‘price‘: ‘¥\n32.80‘, ‘location‘: ‘浙江 杭州‘}
18 {‘title‘: ‘梅菜扣肉饼黄山烧饼梅干菜手工薄脆饼好吃的\n美食\n网红零食小吃16个‘, ‘deal‘: ‘501‘, ‘image‘: ‘//g.alicdn.com/s.gif‘, ‘shop‘: ‘tb361290_55‘, ‘price‘: ‘¥\n29.80‘, ‘location‘: ‘安徽 黄山‘}
19 {‘title‘: ‘美食\n作家王刚自贡特色冷吃牛肉 105克-205克‘, ‘deal‘: ‘10353‘, ‘image‘: ‘//g.alicdn.com/s.gif‘, ‘shop‘: ‘wg王刚1590‘, ‘price‘: ‘¥\n49.90‘, ‘location‘: ‘四川 自贡‘}
20 {‘title‘: ‘鲜花饼云南特产\n美食\n手工玫瑰饼五味糕点心零食1000g中秋礼盒送礼‘, ‘deal‘: ‘4162‘, ‘image‘: ‘//g.alicdn.com/s.gif‘, ‘shop‘: ‘花香随鲜花饼店‘, ‘price‘: ‘¥\n34.80‘, ‘location‘: ‘云南 昆明‘}
21 {‘title‘: ‘北方无糖零食曲阳缸炉烧饼特产正宗河北\n美食\n小吃芝麻饼传统纯手工‘, ‘deal‘: ‘346‘, ‘image‘: ‘//g.alicdn.com/s.gif‘, ‘shop‘: ‘付太安‘, ‘price‘: ‘¥\n32.50‘, ‘location‘: ‘河北 保定‘}
22 {‘title‘: ‘新品【三只松鼠_黄金肉松饼1.25kg/整箱】早餐面包食品糕点心\n美食‘, ‘deal‘: ‘10148‘, ‘image‘: ‘//g.alicdn.com/s.gif‘, ‘shop‘: ‘三只松鼠旗舰店‘, ‘price‘: ‘¥\n42.90‘, ‘location‘: ‘安徽 芜湖‘}
23 {‘title‘: ‘爱福龙须酥正宗手工糕点小吃点心龙须糖\n美食\n好吃的怀旧零食特产‘, ‘deal‘: ‘239‘, ‘image‘: ‘//g.alicdn.com/s.gif‘, ‘shop‘: ‘海艳食品专营店‘, ‘price‘: ‘¥\n29.90‘, ‘location‘: ‘湖北 随州‘}

打印后的结果为:

原文地址:https://www.cnblogs.com/zhuifeng-mayi/p/9718171.html

时间: 2024-10-29 19:11:18

爬虫实战--使用Selenium模拟浏览器抓取淘宝商品美食信息的相关文章

使用Selenium模拟浏览器抓取淘宝商品美食信息

淘宝页面比较复杂,含有各种请求参数和加密参数,如果直接请求或者分析Ajax将会非常繁琐.Selenium是一个自动化测试工具,可以驱动浏览器去完成各种工作,比如模拟点击.输入和下拉等多种功能,这样我们只需关心操作,不需要关心后台发生了怎么样的请求下面对具体操作步骤进行详述. 创建webdriver对象 #创建一个WebDriver对象 from Selenium import webdriver browser = webdriver.Chrome() 大多数网络应用程序都使用AJAX技术.当浏

使用selenium模拟浏览器抓取淘宝信息

通过Selenium模拟浏览器抓取淘宝商品美食信息,并存储到MongoDB数据库中. from selenium import webdriver from selenium.common.exceptions import TimeoutException from selenium.webdriver.common.by import By from selenium.webdriver.support.ui import WebDriverWait from selenium.webdri

python基础项目实战:selenium控制浏览器爬取淘宝商品信息

今天为大家介绍一个Python利用selenium打开浏览器的方式来爬取淘宝商品的信息,下面就来看看,关于selenium的知识点,是如何做到控制浏览器获取网站的信息 导入第三方库 关键词搜索 抓取索引页 大家在学python的时候肯定会遇到很多难题,以及对于新技术的追求,这里推荐一下我们的Python学习扣qun:784758214,这里是python学习者聚集地!!同时,自己是一名高级python开发工程师,从基础的python脚本到web开发.爬虫.django.数据挖掘等,零基础到项目实

用PHP抓取淘宝商品的用户晒单评论+图片实例

为什么想起来做这个功能?是因为前段时间在做一个淘客网站的时候,想到是否能抓取到淘宝商品的买家秀呢?经过一番折腾发现,淘宝商品用户评价信息是通过Ajax来调取的,通过嗅探网址发现,评论数据的请求接口是: https://rate.tmall.com/list_detail_rate.htm?itemId=524394294771&spuId=341564036&sellerId=100414600&order=3&currentPage=1&append=0&

selenium抓取淘宝商品

我们知道,javascript动态渲染页面不止ajax这一种,有些网站可能整个都是由javascript渲染后生成的,还有些网站,比如淘宝,它虽然有ajax请求,但其中加入了很多复杂的参数,需要耗费大量时间才能找出规律,这时候,我们就可以用selenium,它可以直接模仿浏览器运行,并且抓取在运行时的源码,不用管ajax那些复杂的数,此次我们使用一种无界面的浏览器PhantomJS,它可以做到不用打开浏览器就可以运行,另外,需要正确安装好Selenium库. #我们需要用到MongoDB数据库,

selenium+pyquery爬取淘宝商品信息

import re from selenium import webdriver from selenium.common.exceptions import TimeoutException from selenium.webdriver.common.by import By from selenium.webdriver.support.ui import WebDriverWait from selenium.webdriver.support import expected_condi

Python爬虫实战四之抓取淘宝MM照片

福利啊福利,本次为大家带来的项目是抓取淘宝MM照片并保存起来,大家有没有很激动呢? 最新动态 更新时间:2015/8/2 最近好多读者反映代码已经不能用了,原因是淘宝索引页的MM链接改了.网站改版了,URL的索引已经和之前的不一样了,之前可以直接跳转到每个MM的个性域名,现在中间加了一个跳转页,本以为可以通过这个页面然后跳转到原来的个性域名,而经过一番折腾发现,这个跳转页中的内容是JS动态生成的,所以不能用Urllib库来直接抓取了,本篇就只提供学习思路,代码不能继续用了. 之后博主会利用其它方

PHP curl模拟浏览器抓取网站信息

curl是一个利用URL语法在命令行方式下工作的文件传输工具. 官方解释 curl是一个利用URL语法在命令行方式下工作的文件传输工具.curl是一个利用URL语法在命令行方式下工作的文件传输工具.它支持很多协议:FTP, FTPS, HTTP, HTTPS, GOPHER, TELNET, DICT, FILE 以及 LDAP.curl同样支持HTTPS认证,HTTP POST方法, HTTP PUT方法, FTP上传, kerberos认证, HTTP上传, 代理服务器, cookies,

Java爬虫实战(二):抓取一个视频网站上2015年所有电影的下载链接

前言:这是Java爬虫实战的第二篇文章,在第一篇文章仅仅只是抓取目标网站的链接的基础上,进一步提高难度,抓取目标页面上我们所需要的内容并保存在数据库中.这里的测试案例选用了一个我常用的电影下载网站(http://www.80s.la/).本来是想抓取网站上的所有电影的下载链接,后来感觉需要的时间太长,因此改成了抓取2015年电影的下载链接. 注:文末有我抓取到的整个列表的下载链接(包括:电影名称和迅雷下载链接) 一 原理简介 其实原理都跟第一篇文章差不多,不同的是鉴于这个网站的分类列表实在太多,