python爬京东评论

我,找回,密码了!

https://blog.csdn.net/weixin_42590877/article/details/99686720?tdsourcetag=s_pcqq_aiomsg

就是这个网址助我!

这个是我要爬的,看着暖和 https://item.jd.com/33919692427.html

# In[sy_final]:
#!/usr/bin/python
import requests
import json

#这个headers害惨了我,一定要有referer才可以运行
headers = {
‘User-Agent‘: ‘Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/75.0.3770.142 Safari/537.36‘,
‘Referer‘: ‘https://item.jd.com/33919692427.html‘
}

#这个url备用
url = ‘https://sclub.jd.com/comment/productPageComments.action?callback=fetchJSON_comment98vv382&productId=33919692427&score=0&sortType=5&page=0&pageSize=10&isShadowSku=0&fold=1‘
file = open("E:\\2020期末复习\\python\\军大衣前20页评论2.txt","w"); #打开一个文件
for i in range(20): #假定爬20页
url = ‘https://sclub.jd.com/comment/productPageComments.action?callback=fetchJSON_comment98vv382&productId=33919692427&score=0&sortType=5&page=%d&pageSize=10&isShadowSku=0&fold=1‘ % i
r = requests.get(url,headers=headers)
#jd = json.loads(r.text.lstrip(‘fetchJSON_comment98vv382(‘).rstrip(‘);‘))
#jd = json.loads(r.text)
jd = json.loads(r.text.strip(‘fetchJSON_comment98vv382();‘))
com_list=jd[‘comments‘]
for j in com_list:
file.write(j[‘content‘]); #写入内容
print(j[‘content‘]);
file.write(‘\r\n‘); #换行
file.close

原文地址:https://www.cnblogs.com/sakuraXiYue/p/12005991.html

时间: 2024-11-06 07:17:13

python爬京东评论的相关文章

python爬虫——京东评论、jieba分词、wordcloud词云统计

接上一章,抓取京东评论区内容. url='https://club.jd.com/comment/productPageComments.action?callback=fetchJSON_comment98vv399&productId=4560435&score=0&sortType=5&page=0&pageSize=10&isShadowSku=0&fold=1' 重点是productId--产品id.page--页码.pageSize:指定

Python爬取京东商品数据

对京东某一商品信息页面的HTML代码进行分析,可以发现它的图书产品信息页面都含有这样一段代码(不同类的商品页面有些不同): window.pageConfig={compatible:true,searchType: 1,product:{"skuid":"11408255","name":"\u4f17\u795e\u7684\u536b\u661f\uff1a\u4e2d\u56fd\u7981\u533a","

python 爬取视频评论生成词云图

首先爬取评论写入文件,用上一篇爬取腾讯是视频的评论的方法提取评论http://blog.51cto.com/superleedo/2126099 代码需要稍作修改如下: #!/usr/bin/env python # -*- coding: utf-8 -*- import re import urllib.request import time import urllib.error ##模拟浏览器安装headers headers=("User-Agent","Mozil

Python爬一爬网易云音乐

结果 对过程没有兴趣的童鞋直接看这里啦. 评论数大于五万的歌曲排行榜 首先恭喜一下我最喜欢的歌手(之一)周杰伦的<晴天>成为网易云音乐第一首评论数过百万的歌曲! 通过结果发现目前评论数过十万的歌曲正好十首,通过这前十首发现: 薛之谦现在真的很火啦~ 几乎都是男歌手啊,男歌手貌似更受欢迎?(别打我),男歌手中周杰伦.薛之谦.许嵩(这三位我都比较喜欢)几乎占了榜单半壁江山... <Fade>电音强势来袭,很带感哈(搭配炫迈写代码完全停不下来..) 根据结果做了网易云音乐歌单 : 评论数

Python爬取网页信息

Python爬取网页信息的步骤 以爬取英文名字网站(https://nameberry.com/)中每个名字的评论内容,包括英文名,用户名,评论的时间和评论的内容为例. 1.确认网址 在浏览器中输入初始网址,逐层查找链接,直到找到需要获取的内容. 在打开的界面中,点击鼠标右键,在弹出的对话框中,选择“检查”,则在界面会显示该网页的源代码,在具体内容处点击查找,可以定位到需要查找的内容的源码. 注意:代码显示的方式与浏览器有关,有些浏览器不支持显示源代码功能(360浏览器,谷歌浏览器,火狐浏览器等

使用python爬取csdn博客访问量

最近学习了python和爬虫,想写一个程序练练手,所以我就想到了大家都比较关心的自己的博客访问量,使用python来获取自己博客的访问量,这也是后边我将要进行的项目的一部分,后边我会对博客的访问量进行分析,以折线图和饼图等可视化的方式展示自己博客被访问的情况,使自己能更加清楚自己的哪些博客更受关注,博客专家请勿喷,因为我不是专家,我听他们说专家本身就有这个功能. 一.网址分析 进入自己的博客页面,网址为:http://blog.csdn.net/xingjiarong 网址还是非常清晰的就是cs

python 爬取淘宝的模特照片

前段时间花了一部分时间学习下正则表达式,总觉得利用正则要做点什么事情,所以想通过爬取页面的方式把一些美女的照片保存下来,其实过程很简单. 1.首先读取页面信息: 2.过滤出来照片的url地址: 3.通过URL地址来保存图片: #-*-coding:utf-8 -*- '''爬取评论区的美女照片''' import requests import re RE_PICTURE_NAME = re.compile(r'(\w)+\.[A-Za-z]+$') RE_URL = re.compile(r'

京东评论情感分类器(基于bag-of-words模型)

最近在本来在研究paraVector模型,想拿bag-of-words来做对比. 数据集是京东的评论,经过人工挑选,选出一批正面和负面的评论. 实验的数据量不大,340条正面,314条负面.我一般拿200正面和200负面做训练,剩下做测试. 做着做着,领悟了一些机器学习的道理.发现,对于不同的数据集,效果是不同的. 对于特定的数据集,随便拿来一套模型可能并不适用. 对于这些评论,我感觉就是bag-of-words模型靠谱点. 因为这些评论的特点是语句简短,关键词重要. paraVector模型感

python爬取某个网站的图片并保存到本地

python爬取某个网站的图片并保存到本地 #coding:utf-8 import urllib import re import sys reload(sys) sys.setdefaultencoding('gb2312') #获取整个页面的数据 def getHtml (url): page = urllib.urlopen(url) html = page.read() return html #保存图片到本地 def getImg(html): reg = r'src="(.+?\.