Java爬虫爬取京东商品信息

<strong> java<em style=“color:red;”>爬虫</em></strong>工具:Jsoup

Maven地址

<dependency>
  <!-- jsoup HTML parser library @ https://jsoup.org/ -->
  <groupId>org.jsoup</groupId>
  <artifactId>jsoup</artifactId>
  <version>1.11.2</version>
</dependency>

网页分析

商品布局分析:

Java代码实例:

 1 import org.jsoup.Jsoup;
 2 import org.jsoup.nodes.Document;
 3 import org.jsoup.nodes.Element;
 4 import org.jsoup.select.Elements;
 5
 6 /**
 7  * 作者:小鱼
 8  * 作者唯一QQ号:1132017151
 9  *
10  * 简单测试类
11  * 包含内容:京东商品页查询
12  * 不包含京东商品排除个性化查询和后半部动态加载,如有想要了解,请联系作者
13  * */
14 public class Test {
15
16     public static void main(String[] args) throws Exception {
17         String url = "https://search.jd.com/Search?keyword=%E6%89%8B%E6%9C%BA&enc=utf-8&psort=3&page=3";//第二页商品
18         //网址分析
19         /*keyword:关键词(京东搜索框输入的信息)
20          * enc:编码方式(可改动:默认UTF-8)
21          * psort=3 //搜索方式  默认按综合查询 不给psort值
22          * page=分业(不考虑动态加载时按照基数分业,每一页30条,这里就不演示动态加载)
23          * 注意:受京东商品个性化影响,准确率无法保障
24          * */
25         Document doc = Jsoup.connect(url).maxBodySize(0).get();
26         //doc获取整个页面的所有数据
27         Elements ulList = doc.select("ul[class=‘gl-warp clearfix‘]");
28         Elements liList = ulList.select("li[class=‘gl-item‘]");
29         //循环liList的数据
30         for (Element item : liList) {
31             //排除广告位置
32             if (!item.select("span[class=‘p-promo-flag‘]").text().trim().equals("广告")) {
33                 //如果向存到数据库和文件里请自行更改
34                 System.out.println(item.select("div[class=‘p-name p-name-type-2‘]").select("em").text());//打印商品标题到控制台
35             }
36         }
37     }
38 }

运行结果:

如有疑问可加作者QQ或者博客园留言,看到必回!

如有转载,请自觉贴上本帖地址,谢谢合作!

原文地址:https://www.cnblogs.com/zhuangbiing/p/9194994.html

时间: 2024-12-20 00:27:54

Java爬虫爬取京东商品信息的相关文章

python爬虫实践——爬取京东商品信息

1 ''' 2 爬取京东商品信息: 3 请求url: 4 https://www.jd.com/ 5 提取商品信息: 6 1.商品详情页 7 2.商品名称 8 3.商品价格 9 4.评价人数 10 5.商品商家 11 ''' 12 from selenium import webdriver 13 from selenium.webdriver.common.keys import Keys 14 import time 15 16 17 def get_good(driver): 18 try

python制作爬虫爬取京东商品评论教程

作者:蓝鲸 类型:转载 本文是继前2篇Python爬虫系列文章的后续篇,给大家介绍的是如何使用Python爬取京东商品评论信息的方法,并根据数据绘制成各种统计图表,非常的细致,有需要的小伙伴可以参考下 本篇文章是python爬虫系列的第三篇,介绍如何抓取京东商城商品评论信息,并对这些评论信息进行分析和可视化.下面是要抓取的商品信息,一款女士文胸.这个商品共有红色,黑色和肤色三种颜色, 70B到90D共18个尺寸,以及超过700条的购买评论. 京东商品评论信息是由JS动态加载的,所以直接抓取商品详

python爬虫:爬取京东商品信息

''' 初级版 ''' import time from selenium import webdriver from selenium.webdriver.common.keys import Keys driver = webdriver.Chrome(r'C:\Users\Auraro\Desktop/chromedriver.exe') num = 1 try: driver.implicitly_wait(10) driver.get('https://www.jd.com/') in

python爬虫实战(一)----------爬取京东商品信息

本文章的例子仅用于学习之用,如涉及版权隐私信息,请联系本人删除,谢谢. 最近一直在练习使用python爬取不同网站的信息,最终目的是实现一个分布式的网络爬虫框架,可以灵活适用不同的爬取需求. 项目github地址: https://github.com/happyAnger6/anger6Spider 在学习的过程中遇到不少问题,在这里做一下总结,并分享出来,希望有兴趣的朋友批评指正,共同学习共同进步. 本着实用至上的目的,不准备过多讲实现细节和原理,直接通过项目需求来边实战边学习,因此本系列文

爬取京东商品信息和评价的爬虫实现源码

话不多说,直接上源码: var keyword = "d3.js";//@input(keyword, 查询关键字, 爬取该关键字搜索出来的京东商品) var comment_count = 100;//@input(comment_count, 爬取的评论数, 最多爬取多少条评论) var page_count = comment_count / 10; keyword = keyword.trim(); var scanUrls = []; scanUrls.push("

基于python的scrapy爬虫抓取京东商品信息

这是上的第二节爬虫课程的课后作业:抓取京东某类商品的信息,这里我选择了手机品类. 使用scrapy爬虫框架,需要编写和设置的文件主要有phone.py , pipelines.py , items.py , settings.py , 其中主要编写的是前两个文件,最后一个文件主要设置破解反爬方法. phone.py编写程序如下: import scrapy from scrapy.http import Request from jd_phone.items import JdPhoneItem

c# 爬虫爬取京东所有商品信息

在一个小项目中,需要用到京东的所有商品ID,因此就用c#写了个简单的爬虫. 在解析HTML中没有使用正则表达式,而是借助开源项目HtmlAgilityPack解析HTML. 一.下载网页HTML 首先我们写一个公共方法用来下载网页的HTML. 在写下载HTML方法之前,我们需要去查看京东网页请求头的相关信息,在发送请求时需要用到. public static string DownloadHtml(string url, Encoding encode) { string html = stri

Java爬虫爬取 天猫 淘宝 京东 搜索页和 商品详情

Java爬虫爬取 天猫 淘宝 京东 搜索页和 商品详情 先识别商品url,区分平台提取商品编号,再根据平台带着商品编号爬取数据. 1.导包 <!-- 爬虫相关Jar包依赖 --> <dependency> <groupId>org.apache.poi</groupId> <artifactId>poi-ooxml</artifactId> <version>3.10-FINAL</version> </

Python爬取京东商品数据

对京东某一商品信息页面的HTML代码进行分析,可以发现它的图书产品信息页面都含有这样一段代码(不同类的商品页面有些不同): window.pageConfig={compatible:true,searchType: 1,product:{"skuid":"11408255","name":"\u4f17\u795e\u7684\u536b\u661f\uff1a\u4e2d\u56fd\u7981\u533a","