PHP 基于laravel框架获取微博数据之二 用户数据的使用

开始抓取微博数据的时候,只是想获得一条热门微博下的所有评论,因为里面有不少图片广告,所以想试试能不能分析出热门微博评论里的异常用户。

使用PHP的Laravel框架后,通过队列、命令等各种功能,最后构架了一套完整的微博用户数据抓取平台,经过一段时间的运行积累了大量数据,那么使用这些数据能做什么呢?

微博数据分析很早就有人在做了,网上采集分析工具貌似有很多,搜索一下想找一些微博数据分析的具体方案。世事变幻,发现很多几年前的微博数据分析平台都不能用了,可能微博数据分析和微博一样在商业上还是没有什么更好的盈利模式。。。

根据之前网上微博数据分析的方案,微博传播力是数据分析的一个方向,热门微博转发传播可以用于广告营销分析,这个数据基础是采集微博内容和传播路径,和我的数据获取方式并不相同。

没有找到用户数据分析的解决方案,也没有数据挖掘相关知识的基础,所以还是以一个程序员的角度说说微博用户数据使用的设想吧。

使用Laravel框架搭建的平台是以微博用户为基础的数据抓取模式,可以获得某条微博下的所有评论、转发和赞。进一步深入,获得一个微博用户的所有微博后,即可以获得该用户所发微博,包括其评论、转发和赞的所有数据。

微博用户的完整数据中能够得到什么?

一、通过微博赞积累微博用户

微博不能重复点赞,所以一条有百万个赞的微博就能获得百万用户基础信息,这是积累微博用户池效率比较高的方式,不过随着累积量增加,重复数据变多,效率会降低。同样评论和转发也可以积累用户信息,不过重复性使得获取数据效率不高。

二、通过数据建立关于用户的数学模型

早就把数学模型还给大学老师了,当年这东西也没好好学。不过还是明白一点,一个用户,其粉丝量、微博数和转发、评论、赞应该有一定的数学模型关系。

具体来说,百万级的微博用户,其微博的平均转发、评论、赞,应该在一定的范围内。以大量微博用户数据为基础可建立数据模型。新视觉影院这种模型可以用来评估一个微博用户的健康性。

三、通过数据获得用户的活跃粉丝

一个微博用户的完整数据,通过交叉对比可以获得粉丝的活跃度。

当前微博除了用户自己,其他人是不能查看该用户所有粉丝数据的。但是通过“共同关注”关系,可以判断出是否是用户粉丝。
理论上说如果有全部几十亿微博用户数据,逐个对比,是可以获取某用户所有粉丝的,但这只是理论方案。
通过用户微博下的转发、评论、赞可缩小对比范围,虽然不能得到用户的所有粉丝,但能分析出和微博用户有过互动的所有粉丝,这些粉丝的占比可以评估出微博用户粉丝的质量。



以上就是通过微博用户数据抓取平台获得的数据后在使用方面的一些设想。

作为一个程序员,还是不适合写这种理论性的东西,自己都看不懂,还是好好写程序去吧。。。

时间: 2024-12-28 20:13:48

PHP 基于laravel框架获取微博数据之二 用户数据的使用的相关文章

PHP 基于laravel框架获取微博数据之一 模拟新浪微博登录

参考资料:http://www.csuldw.com/2016/11/10/2016-11-10-simulate-sina-login/http://blog.csdn.net/fly_leopard/article/details/51148904http://www.tuicool.com/articles/uIJzYff http://blog.csdn.net/u010029983/article/details/46364113等 模拟新浪微博登录是抓取新浪数据的基础,网上的参考资料

萌音影视:一款基于laravel框架的在线影视应用

简介 萌音影视是一款基于文雅的laravel框架和一点都不妹子的妹子UI的在线影视应用,特性是交关据库.无后台形式,仅除非一个配置文件(config/web.php),同时无海报,支持vip解析,官方源,速率快,多频道,多分类.同时行将新增独立的频道.首页电视台直播.多解析接口等功能,观望时不走伏笔VPS服务器流量,感触挺不错的,有兴趣的可以搭建个玩玩. 部署 Github地址:https://github.com/178146582/moeins 环境要求:Nginx/Apache.PHP 5

基于Dubbo框架构建分布式服务 (二)

Dubbo是Alibaba开源的分布式服务框架,我们可以非常容易地通过Dubbo来构建分布式服务,并根据自己实际业务应用场景来选择合适的集群容错模式,这个对于很多应用都是迫切希望的,只需要通过简单的配置就能够实现分布式服务调用,也就是说服务提供方(Provider)发布的服务可以天然就是集群服务,比如,在实时性要求很高的应用场景下,可能希望来自消费方(Consumer)的调用响应时间最短,只需要选择Dubbo的Forking Cluster模式配置,就可以对一个调用请求并行发送到多台对等的提供方

一维数据和二维数据

此文章为本人学习所得,如有不足之处,欢迎指正,分享原创,一起进步 维度:数据的组织形式 一维数据 由对等关系的有序或无序数据构成,采用线性方式(一条直线排开)组织 对等关系:这些数据平级关系(不是包含.从属关系) 一维数据的表示----- 如果数据间有序:使用列表类型.如:一维列表ls = [3.1 , 3.02 , 4.15]如果数据间无序:使用集合类型,如:一维集合st ={ 4.15 , 3.02 , 3.1} 切记:for循环可以遍历数据,进而对每个数据进行处理 一维数据的存储-----

laravel框架学习(一)

一.初识Laravel 1.百科形容:Laravel是一套简洁.优雅的PHP Web开发框架(PHP Web Framework). 2.资料来源:官方网址http://www.golaravel.com/ Laravel学院:http://laravelacademy.org/ 3.搭建一个自己的Laravel框架 Laravel 利用 Composer(Composer 中文)来管理其自身的依赖包.因此,在使用 Laravel 之前,请务必确保在你的机器上已经安装了 Composer (1)

UWP 应用获取各类系统、用户信息 (1) - 设备和系统的基本信息、应用包信息、用户数据账户信息和用户账户信息

应用开发中,开发者时常需要获取一些系统.用户信息用于数据统计遥测.问题反馈.用户识别等功能.本文旨在介绍在 Windows UWP 应用中获取一些常用系统.用户信息的方法.示例项目代码可参见 Github: https://github.com/validvoid/UWP-SystemInfoCollector 由于涉及内容较多,故本文会分为多篇展开.本篇介绍获取设备和系统的基本信息.应用包信息.用户数据账户信息和用户账户信息. 原博客阅读地址:http://validvoid.net/uwp-

奇点云数据中台技术汇 | 数据治理——企业数字化转型的基石

1 为什么要进行数据治理? 首先,数据是有价值的.根据埃森哲发布的"2035年之前各行业的平均GDP增长率",单纯看自然增长,制造行业只有2.1%,但是通过数据以及由此衍生出来的人工智能加成之后,这个数字就晋升到第二名4.4%,数据的价值是相当可观的. 但是,数据的应用环境是有风险的.Facebook的个人隐私泄露事件,直接导致Facebook市值缩水640亿美元,扎克伯格也受到国会质询. 此外,数据的应用环境是低效的.为什么数据的应用环境是低效的?一是数据不可知,用户不知道自己有哪些

从txt文件中读取数据放在二维数组中

1.我D盘中的test.txt文件内的内容是这样的,也是随机产生的二维数组 /test.txt/ 5.440000 3.4500006.610000 6.0400008.900000 3.0300000.140000 2.7400008.920000 7.2900002.580000 7.4300001.850000 6.1300001.350000 4.280000 ... ... 2.在我的test.cpp中添加头文件,即可使用FILE类来读取txt文件中的数据 #include <stdi

androidclient和站点数据交互的实现(基于Http协议获取数据方法)

androidclient一般不直接訪问站点数据库,而是像浏览器一样发送get或者post请求.然后站点返回client能理解的数据格式,client解析这些数据.显示在界面上.经常使用的数据格式是xml和json. 能够理解client事实上是一个你自定义标记语言的浏览器,一般浏览器能解析的是html+css的数据,而androidclient能解析的是xml和json(或者都不是而是你自定义的火星格式),服务端为了能满足client输出这样的数据格式的需求,不得不专门针对client开发不同