python爬虫实践——爬取京东商品信息

 1 ‘‘‘
 2 爬取京东商品信息:
 3     请求url:
 4         https://www.jd.com/
 5     提取商品信息:
 6         1.商品详情页
 7         2.商品名称
 8         3.商品价格
 9         4.评价人数
10         5.商品商家
11 ‘‘‘
12 from selenium import webdriver
13 from selenium.webdriver.common.keys import Keys
14 import time
15
16
17 def get_good(driver):
18     try:
19
20         # 通过JS控制滚轮滑动获取所有商品信息
21         js_code = ‘‘‘
22             window.scrollTo(0,5000);
23         ‘‘‘
24         driver.execute_script(js_code)  # 执行js代码
25
26         # 等待数据加载
27         time.sleep(2)
28
29         # 3、查找所有商品div
30         # good_div = driver.find_element_by_id(‘J_goodsList‘)
31         good_list = driver.find_elements_by_class_name(‘gl-item‘)
32         n = 1
33         for good in good_list:
34             # 根据属性选择器查找
35             # 商品链接
36             good_url = good.find_element_by_css_selector(
37                 ‘.p-img a‘).get_attribute(‘href‘)
38
39             # 商品名称
40             good_name = good.find_element_by_css_selector(
41                 ‘.p-name em‘).text.replace("\n", "--")
42
43             # 商品价格
44             good_price = good.find_element_by_class_name(
45                 ‘p-price‘).text.replace("\n", ":")
46
47             # 评价人数
48             good_commit = good.find_element_by_class_name(
49                 ‘p-commit‘).text.replace("\n", " ")
50
51             good_content = f‘‘‘
52                         商品链接: {good_url}
53                         商品名称: {good_name}
54                         商品价格: {good_price}
55                         评价人数: {good_commit}
56                         \n
57                         ‘‘‘
58             print(good_content)
59             with open(‘jd.txt‘, ‘a‘, encoding=‘utf-8‘) as f:
60                 f.write(good_content)
61
62         next_tag = driver.find_element_by_class_name(‘pn-next‘)
63         next_tag.click()
64
65         time.sleep(2)
66
67         # 递归调用函数
68         get_good(driver)
69
70         time.sleep(10)
71
72     finally:
73         driver.close()
74
75
76 if __name__ == ‘__main__‘:
77
78     good_name = input(‘请输入爬取商品信息:‘).strip()
79
80     driver = webdriver.Chrome()
81     driver.implicitly_wait(10)
82     # 1、往京东主页发送请求
83     driver.get(‘https://www.jd.com/‘)
84
85     # 2、输入商品名称,并回车搜索
86     input_tag = driver.find_element_by_id(‘key‘)
87     input_tag.send_keys(good_name)
88     input_tag.send_keys(Keys.ENTER)
89     time.sleep(2)
90
91     get_good(driver)

原文地址:https://www.cnblogs.com/lweiser/p/11047871.html

时间: 2024-10-12 21:01:48

python爬虫实践——爬取京东商品信息的相关文章

python爬虫:爬取京东商品信息

''' 初级版 ''' import time from selenium import webdriver from selenium.webdriver.common.keys import Keys driver = webdriver.Chrome(r'C:\Users\Auraro\Desktop/chromedriver.exe') num = 1 try: driver.implicitly_wait(10) driver.get('https://www.jd.com/') in

Python爬虫入门 | 爬取豆瓣电影信息

这是一个适用于小白的Python爬虫免费教学课程,只有7节,让零基础的你初步了解爬虫,跟着课程内容能自己爬取资源.看着文章,打开电脑动手实践,平均45分钟就能学完一节,如果你愿意,今天内你就可以迈入爬虫的大门啦~好啦,正式开始我们的第二节课<爬取豆瓣电影信息>吧!啦啦哩啦啦,都看黑板~1. 爬虫原理1.1 爬虫基本原理听了那么多的爬虫,到底什么是爬虫?爬虫又是如何工作的呢?我们先从"爬虫原理"说起.爬虫又称为网页蜘蛛,是一种程序或脚本.但重点在于:它能够按照一定的规则,自动

python爬虫实战(一)----------爬取京东商品信息

本文章的例子仅用于学习之用,如涉及版权隐私信息,请联系本人删除,谢谢. 最近一直在练习使用python爬取不同网站的信息,最终目的是实现一个分布式的网络爬虫框架,可以灵活适用不同的爬取需求. 项目github地址: https://github.com/happyAnger6/anger6Spider 在学习的过程中遇到不少问题,在这里做一下总结,并分享出来,希望有兴趣的朋友批评指正,共同学习共同进步. 本着实用至上的目的,不准备过多讲实现细节和原理,直接通过项目需求来边实战边学习,因此本系列文

爬取京东商品信息和评价的爬虫实现源码

话不多说,直接上源码: var keyword = "d3.js";//@input(keyword, 查询关键字, 爬取该关键字搜索出来的京东商品) var comment_count = 100;//@input(comment_count, 爬取的评论数, 最多爬取多少条评论) var page_count = comment_count / 10; keyword = keyword.trim(); var scanUrls = []; scanUrls.push("

Java爬虫爬取京东商品信息

<strong> java<em style="color:red;">爬虫</em></strong>工具:Jsoup Maven地址 <dependency> <!-- jsoup HTML parser library @ https://jsoup.org/ --> <groupId>org.jsoup</groupId> <artifactId>jsoup</ar

团队-张文然-需求分析-python爬虫分类爬取豆瓣电影信息

首先要明白爬网页实际上就是:找到包含我们需要的信息的网址(URL)列表通过 HTTP 协议把页面下载回来从页面的 HTML 中解析出需要的信息找到更多这个的 URL,回到 2 继续其次还要明白:一个好的列表应该:包含足够多的电影的 URL通过翻页,可以遍历到所有的电影一个按照更新时间排序的列表,可以更快抓到最新更新的电影最后模拟过程知道豆瓣网站不能一次性爬取所有信息,只能分类爬取使用工具pyspider分析完成实现代码,测试模拟运行,按照时间列表爬取每类最新电影资讯 代码分解,便于加入团队后组员

python制作爬虫爬取京东商品评论教程

作者:蓝鲸 类型:转载 本文是继前2篇Python爬虫系列文章的后续篇,给大家介绍的是如何使用Python爬取京东商品评论信息的方法,并根据数据绘制成各种统计图表,非常的细致,有需要的小伙伴可以参考下 本篇文章是python爬虫系列的第三篇,介绍如何抓取京东商城商品评论信息,并对这些评论信息进行分析和可视化.下面是要抓取的商品信息,一款女士文胸.这个商品共有红色,黑色和肤色三种颜色, 70B到90D共18个尺寸,以及超过700条的购买评论. 京东商品评论信息是由JS动态加载的,所以直接抓取商品详

Python爬取京东商品数据

对京东某一商品信息页面的HTML代码进行分析,可以发现它的图书产品信息页面都含有这样一段代码(不同类的商品页面有些不同): window.pageConfig={compatible:true,searchType: 1,product:{"skuid":"11408255","name":"\u4f17\u795e\u7684\u536b\u661f\uff1a\u4e2d\u56fd\u7981\u533a","

[Python爬虫] Selenium爬取新浪微博客户端用户信息、热点话题及评论 (上)

一. 文章介绍 前一篇文章"[python爬虫] Selenium爬取新浪微博内容及用户信息"简单讲述了如何爬取新浪微博手机端用户信息和微博信息. 用户信息:包括用户ID.用户名.微博数.粉丝数.关注数等. 微博信息:包括转发或原创.点赞数.转发数.评论数.发布时间.微博内容等. 它主要通过从文本txt中读取用户id,通过"URL+用户ID" 访问个人网站,如柳岩: http://weibo.cn/guangxianliuya 因为手机端数据相对精简简单,所以采用输