03 淘宝-使用selenium采集关键词为电动车的数据

参考:

静觅丨崔庆才的个人博客

项目地址:

copywang/spiders_collection

实现功能:

  1. 使用geckodriver驱动firefox访问淘宝首页,输入关键词,点击搜索按钮,翻页,点击确定按钮,采集信息,存储到mongodb,导出成CSV文件,统计程序运行时间
  2. 使用selenium的WebDriverWait(browser,10).until(expected_conditions.条件((By.条件,‘条件‘)))方法,判断输入框是否加载完成,搜索按钮是否出现
  3. 使用send_keys()方法,输入关键字,使用click()方法,点击搜索
  4. 获取第1页的产品信息
  5. 使用第2步的方法,判断总页数是否出现,用text方法返回string
  6. 翻页的方法使用,使用第2步的方法,判断输入框是否出现,确定按钮是否出现,调用clear()方法清空输入框,send_keys()方法输入页码,click()方法点击按钮
  7. 使用第2步的方法,判断高亮的页码是否为翻页需要的页码
  8. 每获取1页翻页,就获取1页产品信息
  9. 产品信息的解析,使用pyquery库,首先使用第2步的方法,判断整个页面加载完成,即产品框的frame都出现了
  10. 提取需要的产品信息字段,存储到MONGODB

遇到的问题:

  1. Chrome版本和ChromeDriver不匹配,改为使用firefox
  2. 使用PhantomJS报错,设置窗口大小后解决
  3. 从mongodb导出到csv文件,首次打开为乱码,用的是utf-8 without BOM编码,windows下需要使用utf-8,用notepad++打开csv文件设置一下编码保存即可
  4. 从firefox复制的CSS选择器格式错误,改用chrome
  5. 使用PhantomJS程序的运行时间: 251.23947518380507,而使用firefox的程序的运行时间: 143.89224086472169,所以其实并不是无界面浏览器就快
  6. 图片链接没有抓取完全,提取图片信息属性的时候应该直接使用data-src

收获

  1. 初步学会使用selenium采集JS渲染的页面
  2. mongodb导出
  3. CSS选择器使用
时间: 2024-10-29 04:16:21

03 淘宝-使用selenium采集关键词为电动车的数据的相关文章

课堂作业03——淘宝网的质量属性

淘宝网的六个主要质量属性场景描述 1.可用性: 多个用户同时登录,需要庞大的数据处理架构来支撑,淘宝公司的 session框架采用的是client cookie实现,主要将状态 保存到了cookie里面,这样就使得应用节点本身不需要保存任何状态信息,这样在系统用户变多的时候,就可以通过增加更多的应用节点来达到水平扩展的目的. 场景描述: 刺激源 用户 刺激 大量用户群同时登录 制品 存储.数据库 环境 系统运行时 响应 使用多值cookie 响应度量 正常登录,无异常 2.可修改性: 与为诊断缺

如何设计淘宝天猫这种成功而有价值的大数据可视化?

大数据人工智能淘宝天猫双十一幕后:实时可视化查询大屏 这张图片来源于天猫双十一数据直播,来自大数据可视化的魅力 [what]什么是数据可视化? 塔夫特所说,"图形表现数据.实际上比传统的统计分析法更加精确和有启发性."对于广大的编辑.设计师.运营分析师.大数据研究者等等都需要从不同维度.不同层面.不同粒度的数据处理统计中,借助图表和信息图的方式为用户(只获得信息).阅读者(消费信息)及管理者(利用信息进行管理和决策)呈现不同于表格式的分析结果.数据可视化技术综合运用计算机图形学.图像.

淘宝天猫关键词SEO优化

淘宝天猫的网站完全像是一个成熟的搜索引擎,只是从google.bing.baidu改成了淘宝天猫而已,普通搜索引擎有品专,有皇冠,有PC,有无线:淘宝天猫里面有钻展,有直通车,也有PC,无线.搜索引擎是依靠竞价和热度来排名的,但是淘宝天猫却是完全依靠热度在排名,打开淘宝天猫的页面可以看到: 商品根据搜索关键词来进行展现,但是排序方式有这几种: 1.综合排序 2.人气排序 3.销量排序 4.信用排序 5.价格排序 系统默认的排序是综合排序,在其他情况不变的情况下,怎么通过优化关键词来将排名靠前呢?

selenium chrome登陆手机 pc淘宝

接口登录淘宝,困难度极高,没有人已经实现过. 淘宝登录selenium 手机版  pc版. 由于每天需要使用ip代理大批量的异地登录淘宝帐号,这种情况必然会出现淘宝滑动验证码,使用ActionChains, 使用手机版m.taobao.login登录,采用短信验证码交互方式登录,获取验证码按钮的点击需要使用TouchActions,不能通过click触发. 但魔蝎科技app也没有提供淘宝在后台处理登录. #coding=utf8 import platform,time,random,os fr

gui采集淘宝列表商品[后期有空更新采集各大电商平台]

import requestsfrom pymysql import *from tkinter import * window = Tk()window.title("淘宝列表商品采集")window.geometry('200x180') Label(window, text='关键字采集').pack()name = StringVar()Entry(window, textvariable=name).pack() Label(window, text='采集起始页').pac

selenium跳过webdriver检测并爬取淘宝我已购买的宝贝数据

简介 上一个博文已经讲述了如何使用selenium跳过webdriver检测并爬取天猫商品数据,所以在此不再详细讲,有需要思路的可以查看另外一篇博文. 源代码 # -*- coding: utf-8 -*- from selenium import webdriver from selenium.webdriver.common.by import By from selenium.webdriver.support.ui import WebDriverWait from selenium.w

网红淘宝店的成与败

近年来,随着直播的人气火热上升,越来越多的网红出现在我们的眼前.很多人都想成为网红,为什么呢?因为他们有人气,有喜欢自己的粉丝,而他们能通过这些粉丝和人气来获取利益,例如通过自己的人气接广告或卖东西给喜欢自己的粉丝.这就是为什么淘宝里有越来越多的网红店,他们通过自身的人气效应给自己打广告,在直播或博客中秀出自己店里的商品. 想要了解网红淘宝店的成与败,我们先来谈论网红淘宝店的运营方式.网红淘宝店当然老板是网红,但其实在幕后有一个操作团体,他们不仅起到封装网红的作用,还帮他们进货出货,网红只要负责

淘宝商品列表以及商品详情数据抓取

前段时间老师让我爬取淘宝的商品列表以及其商品详情数据,期间遇到了很多问题.最困难的就是淘宝的价格数据是以Ajax异步加载的,这些数据暂时还没有能力获取到. 下面介绍一下基本思路. 首先,通过抓取商品列表的商品ID获取商品的身份标识,然后根据商品ID跳转到具体的商品列表,对其他属性进行抓取. 观察两条商品列表的URL: https://s.taobao.com/search?q=帽子&imgfile=&commend=all&ssid=s5-e&search_type=ite

教你利用淘宝指数详尽掌握并指导店铺运营

近期荣一电商对运营团队进行了培训,主要是讲淘宝指数对淘宝店铺运营的重要性,下面是主要的内容. 要想做好店铺运营,必得做好数据工作!不但要会看,最重要是会分析,找出规律和找到方法.对于数据分析,很多人都知道利用数据魔方和生E经.可是这两样工具不但收费,还规定店铺要到达到一定的级别才能使用,这对于小卖家来说,无疑是只能看不能接触.这时,淘宝指数就很实用了.因为淘宝指数可以让小卖家在没有数据魔方和生E经的情况下利用淘宝指数来了解淘宝搜索热点,查询成交走势,定位消费人群以及研究细分市场.如果淘宝指数运用