python爬京东评论

我，找回，密码了！

https://blog.csdn.net/weixin_42590877/article/details/99686720?tdsourcetag=s_pcqq_aiomsg

就是这个网址助我！

这个是我要爬的，看着暖和 https://item.jd.com/33919692427.html

# In[sy_final]:
#!/usr/bin/python
import requests
import json

#这个headers害惨了我，一定要有referer才可以运行
headers = {
‘User-Agent‘: ‘Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/75.0.3770.142 Safari/537.36‘,
‘Referer‘: ‘https://item.jd.com/33919692427.html‘
}

#这个url备用
url = ‘https://sclub.jd.com/comment/productPageComments.action?callback=fetchJSON_comment98vv382&productId=33919692427&score=0&sortType=5&page=0&pageSize=10&isShadowSku=0&fold=1‘
file = open("E:\\2020期末复习\\python\\军大衣前20页评论2.txt","w"); #打开一个文件
for i in range(20): #假定爬20页
url = ‘https://sclub.jd.com/comment/productPageComments.action?callback=fetchJSON_comment98vv382&productId=33919692427&score=0&sortType=5&page=%d&pageSize=10&isShadowSku=0&fold=1‘ % i
r = requests.get(url,headers=headers)
#jd = json.loads(r.text.lstrip(‘fetchJSON_comment98vv382(‘).rstrip(‘);‘))
#jd = json.loads(r.text)
jd = json.loads(r.text.strip(‘fetchJSON_comment98vv382();‘))
com_list=jd[‘comments‘]
for j in com_list:
file.write(j[‘content‘]); #写入内容
print(j[‘content‘]);
file.write(‘\r\n‘); #换行
file.close

原文地址：https://www.cnblogs.com/sakuraXiYue/p/12005991.html

时间： 2024-11-06 07:17:13

python爬京东评论的相关文章

python爬虫——京东评论、jieba分词、wordcloud词云统计

接上一章,抓取京东评论区内容. url='https://club.jd.com/comment/productPageComments.action?callback=fetchJSON_comment98vv399&productId=4560435&score=0&sortType=5&page=0&pageSize=10&isShadowSku=0&fold=1' 重点是productId--产品id.page--页码.pageSize:指定

Python爬取京东商品数据

对京东某一商品信息页面的HTML代码进行分析,可以发现它的图书产品信息页面都含有这样一段代码(不同类的商品页面有些不同): window.pageConfig={compatible:true,searchType: 1,product:{"skuid":"11408255","name":"\u4f17\u795e\u7684\u536b\u661f\uff1a\u4e2d\u56fd\u7981\u533a","

python 爬取视频评论生成词云图

首先爬取评论写入文件,用上一篇爬取腾讯是视频的评论的方法提取评论http://blog.51cto.com/superleedo/2126099 代码需要稍作修改如下: #!/usr/bin/env python # -*- coding: utf-8 -*- import re import urllib.request import time import urllib.error ##模拟浏览器安装headers headers=("User-Agent","Mozil

Python爬一爬网易云音乐

结果对过程没有兴趣的童鞋直接看这里啦. 评论数大于五万的歌曲排行榜首先恭喜一下我最喜欢的歌手(之一)周杰伦的<晴天>成为网易云音乐第一首评论数过百万的歌曲! 通过结果发现目前评论数过十万的歌曲正好十首,通过这前十首发现: 薛之谦现在真的很火啦~ 几乎都是男歌手啊,男歌手貌似更受欢迎?(别打我),男歌手中周杰伦.薛之谦.许嵩(这三位我都比较喜欢)几乎占了榜单半壁江山... <Fade>电音强势来袭,很带感哈(搭配炫迈写代码完全停不下来..) 根据结果做了网易云音乐歌单 : 评论数

Python爬取网页信息

Python爬取网页信息的步骤以爬取英文名字网站(https://nameberry.com/)中每个名字的评论内容,包括英文名,用户名,评论的时间和评论的内容为例. 1.确认网址在浏览器中输入初始网址,逐层查找链接,直到找到需要获取的内容. 在打开的界面中,点击鼠标右键,在弹出的对话框中,选择“检查”,则在界面会显示该网页的源代码,在具体内容处点击查找,可以定位到需要查找的内容的源码. 注意:代码显示的方式与浏览器有关,有些浏览器不支持显示源代码功能(360浏览器,谷歌浏览器,火狐浏览器等

使用python爬取csdn博客访问量

最近学习了python和爬虫,想写一个程序练练手,所以我就想到了大家都比较关心的自己的博客访问量,使用python来获取自己博客的访问量,这也是后边我将要进行的项目的一部分,后边我会对博客的访问量进行分析,以折线图和饼图等可视化的方式展示自己博客被访问的情况,使自己能更加清楚自己的哪些博客更受关注,博客专家请勿喷,因为我不是专家,我听他们说专家本身就有这个功能. 一.网址分析进入自己的博客页面,网址为:http://blog.csdn.net/xingjiarong 网址还是非常清晰的就是cs

python 爬取淘宝的模特照片

前段时间花了一部分时间学习下正则表达式,总觉得利用正则要做点什么事情,所以想通过爬取页面的方式把一些美女的照片保存下来,其实过程很简单. 1.首先读取页面信息: 2.过滤出来照片的url地址: 3.通过URL地址来保存图片: #-*-coding:utf-8 -*- '''爬取评论区的美女照片''' import requests import re RE_PICTURE_NAME = re.compile(r'(\w)+\.[A-Za-z]+$') RE_URL = re.compile(r'

京东评论情感分类器（基于bag-of-words模型）

最近在本来在研究paraVector模型,想拿bag-of-words来做对比. 数据集是京东的评论,经过人工挑选,选出一批正面和负面的评论. 实验的数据量不大,340条正面,314条负面.我一般拿200正面和200负面做训练,剩下做测试. 做着做着,领悟了一些机器学习的道理.发现,对于不同的数据集,效果是不同的. 对于特定的数据集,随便拿来一套模型可能并不适用. 对于这些评论,我感觉就是bag-of-words模型靠谱点. 因为这些评论的特点是语句简短,关键词重要. paraVector模型感

python爬取某个网站的图片并保存到本地

python爬取某个网站的图片并保存到本地 #coding:utf-8 import urllib import re import sys reload(sys) sys.setdefaultencoding('gb2312') #获取整个页面的数据 def getHtml (url): page = urllib.urlopen(url) html = page.read() return html #保存图片到本地 def getImg(html): reg = r'src="(.+?\.

猜你喜欢

[纯代码]Swift 2.0 开发新浪微博--第一天

开发环境:Xcode 7 Beta 4 1.1: 部署初步架构 1.2 设置根控制器(AppDelegate.swift) <span style="font-family:Micr ...

Python:10分钟搞定不写代码的爬虫

代码自己敲使用 Chrome 浏览器插件 Web Scraper 可以轻松实现网页数据的爬取,不写代码,鼠标操作,点哪爬哪,还不用考虑爬虫中的登陆.验证码.异步加载等复杂问题. Web Scrape ...

多态--对象的多种形态(继承是多态实现的基础) 引用多态:父类的引用可以指向本类的对象:父类的引用可以指向子类的对象方法多态:创建本类对象时,调用的方法为本类方法:创建子类对象时,调用的方法为子类重 ...

cocos2dx 3.9.1 mac模拟器log输出bug修正

今天发现某些情况下mac模拟器会出现不输出log的情况, 跟踪了一下发现问题出现在mac/SimulatorApp.mm文件的handleNotification方法. NSString *str = ...

java.sql.SQLException: No suitable driver found for jdbc:hive://localhost:10000/default

error: java.sql.SQLException: No suitable driver found for jdbc:hive://localhost:10000/default at ja ...

Linux-进程间通信（四）: 域套接字

1. 域套接字: (1) 只能用于同一设备上不同进程之间的通信: (2) 效率高于网络套接字.域套接字仅仅是复制数据,并不走协议栈: (3) 可靠,全双工: 2. 域套接字地址结构: struct s ...

R12 - Error 'Unable to process your transaction. The operating unit is either invalid or it cannot b

In this Document Symptoms Cause Solution Still Have Questions? References APPLIES TO: Orac ...

Linux 网络 DNS troubleshooting

1, netstat -a: 显示全部连接 -t: 显示tcp相关 -u显示udp相关 -n: 不加n的话,netstat会反解析IP为域名显示,加上的话就禁用反解析,加快速度 -p: 显示进程 -l ...

Lucene系列：（9）搜索结果排序

1.什么是搜索结果排序搜索结果是按某个或某些字段高低排序来显示的结果 2.影响网站排名的多种因素 head/meta/ 网页的标签整洁网页执行速度采用div+css ...... 3.Lucen ...

怎样写出一个较好的高速排序程序

写出一个较好的高速排序程序高速排序是经常使用的排序算法之中的一个,但要想写出一个又快又准的使用程序,就不是那么简单了须要注意的事项首先要写正确.通常使用递归实现.其递归相当于二叉树展开,因此假设 ...

JS中函数声明与函数表达式的不同

Js中的函数声明是指下面的形式: function functionName(){ } 这样的方式来声明一个函数,而函数表达式则是类似表达式那样来声明一个函数,如: var functionName ...

“你的这个只要一行代码就能搞定”

帮舍友代写了一个程序,中期检查的时候和他一起去见老师.老师看了说我们的工作量太少.这个几分钟就搞定.最后他居然说:"这个工作量太少了,就调用一行代码的事,几分钟就可以搞定".去之前 ...

PYTHON入门知识

基本数据类型注:查看对象相关成员 var,type,dir 一.整数如: 18.73.84 每一个整数都具备如下功能: class int(object): """ ...

MediaRecorder实现微信、QQ、人人、易信等语音录制功能工具:MediaUtilAPI

本文介绍使用MediaRecorder进行录制音频.录制视频学习,熟悉MediaRecorder执行流程,通过简单的Demo结合解释运行效果,最后封装MediaRecorder的API工具,实现常见比 ...

一个不当使用fclose引发的异常

最近服务器上一个后台传输文件的服务,经常会报出异常来,只能强行终止并重启. 昨天刚好有空,现场抓了一下dump,再把程序扔到IDA里看了一下,很快就找出原因了,原来是调用fclose时出错的. 使用C ...

织梦调用指定顶级栏目或当前子栏目名称的方法

有时候我们会在列表页或者内容详情页调用指定的顶级栏目名称及链接,试了很多方法,有的只能调用所有顶级栏目或者是该频道下面的子栏目,实在是让人感到费解..下面说说各种栏目名称的调用方法: 1.{dede ...

CentOS7 vs centos6

The CentOS Project has announced general availability of CentOS-7, the first release of the free Lin ...

自制无线共享工具C++源代码

// wire.cpp : 定义控制台应用程序的入口点. // #include <iostream> #include <string.h> using namespace ...

Shortcuts Now Are Paid Back with Interest Later

? Shortcuts Now Are Paid Back with Interest Later Scot Mcphee iT'S iMpoRTAnT To REMEMBER when archit ...

ORACLE 10G RAC ASM 恢复例

RAC服务器的ASM实例中的库发生破坏,丢失了一些数据文件,还有控制文件和SPFILE.数据库实例也处于shutdown状态. 1.找到备份片的位置通过查找,备份片处于 /u01/app/oracl ...

专题

随机推荐

© 2024 憋错料 | info#biecuoliao.com | 11 q. 0.025 s.