京东商品评价爬虫

京东商品评价爬虫

最近因为一些事情,需要爬一下京东商品的评论(大部分是书籍)

  • 准备环境:PyCharm,python3.5.2

话不多说赶紧上代码:

# -*- coding: utf-8 -*-

import re, json, requests
import codecs
from bs4 import BeautifulSoup
import csv
import os

s = requests.session()
url = ‘https://club.jd.com/comment/productPageComments.action‘
data = {
    ‘callback‘: ‘fetchJSON_comment98vv13933‘,
    # 需要抓取评论的商品id
    ‘productId‘: ‘11936238‘,

    # score 参数说明:
    # 0  抓取所有评论(好评在前)
    # 1  抓取所有差评
    # 2  抓取所有中评
    # 3  抓取所有追评
    # 4  抓取所有配图评论
    ‘score‘: 1,

    ‘sortType‘: 5,
    ‘page‘: 0,
    ‘pageSize‘: 10,
    ‘isShadowSku‘: 0,
    ‘fold‘: 1
}

# 设置抓取目标评论数
target_cnt = 100

# 设置保存文件名
target_file = str(data[‘productId‘]) + ‘_‘ + str(data[‘score‘]) + ‘.csv‘

cnt = 1

with open(target_file, "w", encoding=‘utf8‘, newline=‘‘) as csvFile:
    writer = csv.writer(csvFile, quoting=csv.QUOTE_ALL)
    writer.writerow(["stars", "time", "comment"])
    while cnt <= target_cnt:
        t = s.get(url, params=data).text
        try:
            t = re.search(r‘(?<=fetchJSON_comment98vv13933\().*(?=\);)‘, t).group(0)
        except Exception as e:
            break
        j = json.loads(t)
        commentSummary = j[‘comments‘]
        for comment in commentSummary:
            c_content = comment[‘content‘]  # 评论
            c_time = comment[‘referenceTime‘]
            c_name = comment[‘nickname‘]
            c_client = comment[‘userClientShow‘]
            score = comment[‘score‘]
            print(score)
            print(‘{} {} {}\n{}\n‘.format(c_name, c_time, c_client, c_content))
            writer.writerow([score, c_time, c_content])
        data[‘page‘] += 1
        cnt = cnt + 1

csvFile.close()

大概没什么其他需要讲的了吧,当然这个爬虫是在别的地方找的。而且也是最简单的一类,没有做反反爬处理。这些以后会找机会记录。

来源:Github

原文地址:https://www.cnblogs.com/georgeyang/p/9077118.html

时间: 2024-10-28 05:43:57

京东商品评价爬虫的相关文章

手把手教你写电商爬虫-第五课 京东商品评论爬虫 一起来对付反爬虫

系列教程: 手把手教你写电商爬虫-第一课 找个软柿子捏捏 手把手教你写电商爬虫-第二课 实战尚妆网分页商品采集爬虫 手把手教你写电商爬虫-第三课 实战尚妆网AJAX请求处理和内容提取 手把手教你写电商爬虫-第四课 淘宝网商品爬虫自动JS渲染 四节课过去了,咱们在爬虫界也都算见过世面的人,现在再来一些什么ajax加载之类的小鱼小虾应该不在话下了,即使是淘宝这种大量的ajax,我们 祭上我们的核武器,也轻松应对了,这一课主要是来看看除了技术上的页面处理外,我们还会遇上更棘手的问题,就是反爬虫,当然现

京东价格监控软件开发技术探讨七:如何获取京东商品评价信息

在购买商品的时候,这个商品质量怎么样.价格贵不贵.商家服务态度好不好?这些问题往往是购买者急需知道的信息. 京东平台提供了商品评价功能,能够让购买者通过其他购买者的反馈来决定自己到底买不买这个商品. 项目组在对"杀京东"程序进行需求调研时,认为提供商品的评价尤其是差评信息,对购买者非常有指导意义,能加强用户的操作体验.此时,如何获取京东商品的评价信息成为项目组的首要任务. 首先还是先上神器Fiddler,通过它来获取到访问地址. //差评 http://club.jd.com/prod

python使用requests库和re库写的京东商品信息爬虫

1 import requests 2 import re 3 4 def getHTMLText(url): 5 try: 6 r = requests.get(url, timeout=30) 7 r.raise_for_status() 8 r.encoding = r.apparent_encoding 9 return r.text 10 except: 11 return "" 12 13 def parsePage(ilt, html): 14 try: 15 plt =

爬取京东商品信息和评价的爬虫实现源码

话不多说,直接上源码: var keyword = "d3.js";//@input(keyword, 查询关键字, 爬取该关键字搜索出来的京东商品) var comment_count = 100;//@input(comment_count, 爬取的评论数, 最多爬取多少条评论) var page_count = comment_count / 10; keyword = keyword.trim(); var scanUrls = []; scanUrls.push("

python制作爬虫爬取京东商品评论教程

作者:蓝鲸 类型:转载 本文是继前2篇Python爬虫系列文章的后续篇,给大家介绍的是如何使用Python爬取京东商品评论信息的方法,并根据数据绘制成各种统计图表,非常的细致,有需要的小伙伴可以参考下 本篇文章是python爬虫系列的第三篇,介绍如何抓取京东商城商品评论信息,并对这些评论信息进行分析和可视化.下面是要抓取的商品信息,一款女士文胸.这个商品共有红色,黑色和肤色三种颜色, 70B到90D共18个尺寸,以及超过700条的购买评论. 京东商品评论信息是由JS动态加载的,所以直接抓取商品详

Java爬虫爬取京东商品信息

<strong> java<em style="color:red;">爬虫</em></strong>工具:Jsoup Maven地址 <dependency> <!-- jsoup HTML parser library @ https://jsoup.org/ --> <groupId>org.jsoup</groupId> <artifactId>jsoup</ar

python爬虫实践——爬取京东商品信息

1 ''' 2 爬取京东商品信息: 3 请求url: 4 https://www.jd.com/ 5 提取商品信息: 6 1.商品详情页 7 2.商品名称 8 3.商品价格 9 4.评价人数 10 5.商品商家 11 ''' 12 from selenium import webdriver 13 from selenium.webdriver.common.keys import Keys 14 import time 15 16 17 def get_good(driver): 18 try

python爬虫:爬取京东商品信息

''' 初级版 ''' import time from selenium import webdriver from selenium.webdriver.common.keys import Keys driver = webdriver.Chrome(r'C:\Users\Auraro\Desktop/chromedriver.exe') num = 1 try: driver.implicitly_wait(10) driver.get('https://www.jd.com/') in

八爪鱼采集教程——京东商品评论采集

京东商品评论信息采集 介绍采集使用八爪鱼7.0采集京东商品评论数据的方法 更多相关教程可以到八爪鱼教程中心查看: http://www.bazhuayu.com/tutorials?version=v7.0 八爪鱼下载: http://www.bazhuayu.com/download 采集网站: http://item.jd.com/11221162.html#comment 使用功能点: l Ajax翻页 l 分页内容提取   步骤1:创建采集任务 进入主界面选择,选择自定义模式 将上面网址