赵丽颖结婚了,分析下网友评论

  流量真的惹不起!我爬了1700条评论数据,包括了评论者评论内容、性别、微博认证与否、所属地区等指标,结果只是一分钟之间的事情~

  我还在分析者一分钟的评论时,赵姐跟我说,评论已经破百万了~~

  鹅鹅鹅,管他的,已经大于30个样本了,我切入正题吧。

  现在有一个可以直接进行微博爬取评论的包,名字是rwda(就是R语言微博数据分析的简称),函数很简单,百度作者直接教你用。获得评论数据的函数是get_comments(access_token, weiboid, maxpage = 10),参数就3个!从简单的说起:maxpage就是你要摘取的评论页数;weiboid的获取如下:进入微博正业,右击查看源代码,ctrl+F找到“mid=”,后面的那串数字就是weiboid。此处有一个坑,源代码里通常可以找到十几个weiboid,因为这个页面进来,旁边还有些小广告什么的,你注意跟你想要爬取内容相关的那个id就行;access_token稍麻烦一点,你得去http://open.weibo.com/tools/console 这里,成为一个开发者,创建好应用之后,平台才给你一个access_token。这里也有一个坑,就是这串数字一定要节约的用,因为用多了好像就失效了。你就得重新创建个应用获取新的接入码。(也不知道我理解得对不对,反正就是这里花了点时间。)

  从整体角度、followers前20、男女、地区、微博认证这几个方面进行了可视化,成果如图:

  

  其实,还有其他可以分析的。这里获取评论者的地区信息,是这样子的:(我只展示了重庆地区的评论,但应该懂我的意思哈,各省下面的各市评论数据都有记载~)

原文地址:https://www.cnblogs.com/wf-strongteam/p/9797720.html

时间: 2024-10-07 15:35:03

赵丽颖结婚了,分析下网友评论的相关文章

查询_观察者网_网友评论

Sub 查询_观察者网_网友评论() On Error Resume Next Cells.Clear Set oDoc = CreateObject("htmlfile") With CreateObject("WinHttp.WinHttpRequest.5.1") .Open "GET", "http://duoshuo.com/api/users/listActivity.json?user_id=8048002",

分析下自己写的SQL Server同步工具的性能和缺陷

分析下自己写的SQL Server同步工具的性能和缺陷 1. C#同步SQL Server数据库Schema 2. C#同步SQL Server数据库中的数据--数据库同步工具[同步新数据] 通过测试我写的同步程序,得出结论: 1.程序第一次调用SQLBulkCopy会耗时较长 2.同步程序放在目标机器在耗时方面相对少些 测试数据: declare @varI varchar(200) set @varI=0 while(@varI<100000) begin set @[email prote

参考消息网友评论查询

Sub 参考消息网友评论查询() Cells.Clear [a1:g1] = Array("用户名", "用户ID", "用户ip所在地", "用户ip地址", "用户评论ID", "创建时间", "用户评论") Set t = CreateObject("scriptcontrol") t.Language = "jscript&quo

TreeMap分析(下)

通过上篇文章,大家已经能够清楚的了解到treeMap插入结点的过程,那么本篇文章就来分析下TreeMap删除一个结点时,内部数据结构发生了怎样的变化. TreeMap删除某个结点的源码分析 1 /** 2 * 删除节点,并平衡红黑树的操作 3 * 4 * @Param Entry<K,V> p 要删除的节点Entry 5 */ 6 private void deleteEntry(Entry<K,V> p) { 7 modCount++; 8 size--; //节点总数-1 9

TIOBE11月份编程语言排行榜:C非常接近Java,分析下中美的就业情况

TIOBE公布11月份编程语言排行榜:C非常接近Java Swift挤进前10,分析下中美的就业情况. 我们先看看他们官方对数据的解读 本月TIOBE指数前20位出现了一些有趣的变动.首先,C语言现在非常接近Java.差异只有0.2%.也许C会在年底前再次成为第一.看到谁排在前十也很令人兴奋.这种情况几乎每个月都在变化.两个月前是SQL,上个月是Objective-C,但是这个月Swift接管了.与排名第11位的Ruby的差距几乎为0.4%,这可能意味着至少在未来几个月里,Swift仍将保持前1

产品经理之竞品分析下

竞品分析下 成果目的与竞品选取 收集高相关竞品动态报 关注行业新趋势/新技术 引发创新思考与讨论 2.分类分级的重要性 1.1分类让动态更好用 基于用户体验分层分类:战略层.范围层.框架层.结构层.表现层基于用户体验旅程分类:导购.加购支付.物流.客服.售后基于变更类型分类:功能迭代.体验优化.投融资.运营活动 1.2分级让动态更可用: 重要需关注: 直接对手重大调整 国家政策/行业规定出台 互联网巨头的本行业动作 核心优势被挑战 3.以小见大,洞察趋势 4.成果形式与特点 1. 以专项调研报告

Linux内核中断和异常分析(下)

这节,我们继续上,中(以前的日志有)篇目进行分析,结合一个真实的驱动案例来描述linux内核中驱动的中断机制,首先我们先了解一下linux内核中提供的中断接口. 这个接口我们需要包含一个头文件:#include <linux/interrupt.h> 在中断接口中,最重要的是以下的接口函数: 1.这个是请求中断函数 int request_irq(unsigned int irq, irq_handler_t handler, unsigned long irqflags, const cha

百度登录加密协议分析(下)

上一篇百度登录加密协议分析(上)主要讲解了codestring,gid,token,rsakey等参数的产生.好了,废话不多说,咱们进入今天的主题,咱们接着上一篇的内容往下讲解,最后还剩三个字段 callback,password,ppui_logintime. 第三部分: 分析第一次post已经产生,第二次post内容发生变化的字段 callback password ppui_logintime 通过之前的分析,可以了解到callback 可能没啥用,所以放到后面再分析. 一般来说passw

原理剖析-Netty之服务端启动工作原理分析(下)

一.大致介绍 1.由于篇幅过长难以发布,所以本章节接着上一节来的,上一章节为[原理剖析(第 010 篇)Netty之服务端启动工作原理分析(上)]: 2.那么本章节就继续分析Netty的服务端启动,分析Netty的源码版本为:netty-netty-4.1.22.Final: 二.三.四章节请看上一章节 四.源码分析Netty服务端启动 上一章节,我们主要分析了一下线程管理组对象是如何被实例化的,并且还了解到了每个线程管理组都有一个子线程数组来处理任务: 那么接下来我们就直接从4.6开始分析了: