微博数据调研

1.新浪微博基于MySQL的分布式数据库实践

http://tech.it168.com/a2011/0415/1178/000001178546.shtml

2.新浪微博,腾讯微博mysql数据库主表猜想*

http://blog.csdn.net/cleanfield/article/details/6339428

3.百度学术:基于Hadoop的微博舆情分析预警系统研究

http://xueshu.baidu.com/s?wd=+基于Hadoop的微博舆情分析预警系统研究+&rsv_bp=0&tn=SE_baiduxueshu_c1gjeupa&rsv_spt=3&ie=utf-8&f=8&rsv_sug2=0&rsv_n=2

 4.新浪微博数据挖掘食谱

http://blog.csdn.net/guaguastd/article/category/2801483

“关注”是指你去关注他人,做他人的粉丝。而你的“粉丝”就是关注你的人。所以二者是关注与被关注的关系,好友圈一定要是互相关注的关系才可以的.

{"user": 作者信息  {"bi_followers_count": 366,     用户的互粉数  "domain": "", 用户的个性化域名  "avatar_large": "http://tp4.sinaimg.cn/1771566731/180/5601401086/0",     用户头像地址(大图),180×180像素  "ptype": 0,  "block_word": 0,  "star": 0,  "id": 1771566731, 用户UID  "city": "1000", 用户所在城市ID  "verified": false, 是否是微博认证用户,即加V用户 "block_app": 0,  "follow_me": false, 该用户是否关注当前登录用户 "verified_reason": "", 认证原因 "followers_count": 395, 粉丝数 "location": "\u6d77\u5916", 用户所在地  "mbtype": 0,  "profile_url": "u/1771566731",     用户的微博统一URL地址  "province": "400", 用户所在省级ID  "avatar_hd": "http://tp4.sinaimg.cn/1771566731/180/5601401086/0", 用户头像地址(高清),高清头像原图  "statuses_count": 271, 微博数 "description": "\u767e\u5206\u767e\u5c04\u624b\u5ea7",     用户个人描述  "friends_count": 977, 关注数 "online_status": 1, 用户的在线状态,0:不在线、1:在线  "mbrank": 0,  "allow_all_act_msg": false, 是否允许所有人给我发私信 "profile_image_url": "http://tp4.sinaimg.cn/1771566731/50/5601401086/0",     用户头像地址(中图),50×50像素  "idstr": "1771566731",     字符串型的用户UID  "allow_all_comment": true,     是否允许所有人对我的微博进行评论,true:是,false:否  "geo_enabled": true, 是否允许标识用户的地理位置 "class": 1,  "name": "DianaAnn-", 友好显示名称  "lang": "zh-cn", 用户当前的语言版本,zh-cn:简体中文,zh-tw:繁体中文,en:英语  "weihao": "",     用户的微号  "remark": "", 用户备注信息,只有在查询用户关系时才返回此字段  "favourites_count": 44,     收藏数  "screen_name": "DianaAnn-",     用户昵称  "url": "",     用户博客地址 "gender": "f",     性别,m:男、f:女、n:未知  "created_at": "Sat Jul 10 00:00:24 +0800 2010",     用户创建(注册)时间 "verified_type": -1, 暂未支持 "following": false}, 暂未支持 "favorited": false,是否已收藏,true:是,false:否  "annotations": [{元数据,主要是为了方便第三方应用记 "source": {"url": "http://huati.weibo.com/931263", 微博来源 (用户博客地址) "name": "\u8ffd\u8fc7\u7684\u6700\u4e45\u7684\u6b4c\u624b",  "appid": "438"}},  {"huati": {"tid": "931263",  "from": "pk"}}],  "attitudes_count": 0,     表态数  "truncated": false, 是否被截断,true:是,false:否  "text": "\u4e94\u6708\u5929 ^^ \u8be6\u60c5:http://t.cn/8sMWZM9", 微博信息内容  "created_at": "Mon Mar 31 22:09:13 +0800 2014",  "reposts_count": 0,转发数   "visible":{"type": 0, 微博的可见性及指定可见分组信息。该object中type取值,0:普通微博,1:私密微博,3:指定分组微博,4:密友微博;  "list_id": 0}, list_id为分组的组号 "idstr": "3694307271826493",     字符串型的微博ID  "mid": "3694307271826493", 评论的MID  "source": "<a href=\"http://app.weibo.com/t/feed/4AbAFV\" rel\"nofollow\">\u5fae\u8bdd\u9898</a>",     评论的来源  "in_reply_to_status_id": "",     (暂未支持)回复ID  "mlevel": 0, 暂未支持  "in_reply_to_screen_name": "", (暂未支持)回复人昵称  "in_reply_to_user_id": "", (暂未支持)回复人UID  "comments_count": 0, 评论数  "geo": null,  "id": 3694307271826493, 用户UID "pic_urls": []} 返回字段说明 返回值字段     字段类型     字段说明 id     int64     用户UID idstr     string     字符串型的用户UID screen_name     string     用户昵称 name     string     友好显示名称 province     int     用户所在省级ID city     int     用户所在城市ID location     string     用户所在地 description     string     用户个人描述 url     string     用户博客地址 profile_image_url     string     用户头像地址(中图),50×50像素 profile_url     string     用户的微博统一URL地址 domain     string     用户的个性化域名 weihao     string     用户的微号 gender     string     性别,m:男、f:女、n:未知 followers_count     int     粉丝数 friends_count     int     关注数 statuses_count     int     微博数 favourites_count     int     收藏数 created_at     string     用户创建(注册)时间 following     boolean     暂未支持 allow_all_act_msg     boolean     是否允许所有人给我发私信,true:是,false:否 geo_enabled     boolean     是否允许标识用户的地理位置,true:是,false:否 verified     boolean     是否是微博认证用户,即加V用户,true:是,false:否 verified_type     int     暂未支持 remark     string     用户备注信息,只有在查询用户关系时才返回此字段 status     object     用户的最近一条微博信息字段 详细 allow_all_comment     boolean     是否允许所有人对我的微博进行评论,true:是,false:否 avatar_large     string     用户头像地址(大图),180×180像素 avatar_hd     string     用户头像地址(高清),高清头像原图 verified_reason     string     认证原因 follow_me     boolean     该用户是否关注当前登录用户,true:是,false:否 online_status     int     用户的在线状态,0:不在线、1:在线 bi_followers_count     int     用户的互粉数 lang     string     用户当前的语言版本,zh-cn:简体中文,zh-tw:繁体中文,en:英语                                                     文档更新时间: 2014-11-04                               http://open.weibo.com/wiki/2/users/domain_show 
时间: 2024-11-05 06:08:50

微博数据调研的相关文章

PHP 基于laravel框架获取微博数据之二 用户数据的使用

开始抓取微博数据的时候,只是想获得一条热门微博下的所有评论,因为里面有不少图片广告,所以想试试能不能分析出热门微博评论里的异常用户. 使用PHP的Laravel框架后,通过队列.命令等各种功能,最后构架了一套完整的微博用户数据抓取平台,经过一段时间的运行积累了大量数据,那么使用这些数据能做什么呢? 微博数据分析很早就有人在做了,网上采集分析工具貌似有很多,搜索一下想找一些微博数据分析的具体方案.世事变幻,发现很多几年前的微博数据分析平台都不能用了,可能微博数据分析和微博一样在商业上还是没有什么更

基于微博数据用 Python 打造一颗“心”

一年一度的虐狗节刚过去不久,朋友圈各种晒,晒自拍,晒娃,晒美食,秀恩爱的.程序员在晒什么,程序员在加班.但是礼物还是少不了的,送什么好?作为程序员,我准备了一份特别的礼物,用以往发的微博数据打造一颗“爱心”,我想她一定会感动得哭了吧.哈哈 准备工作 有了想法之后就开始行动了,自然最先想到的就是用 Python 了,大体思路就是把微博数据爬下来,数据经过清洗加工后再进行分词处理,处理后的数据交给词云工具,配合科学计算工具和绘图工具制作成图像出来,涉及到的工具包有: requests 用于网络请求爬

基于微博数据应用的HBase实战开发_HBase视频教程

基于微博数据应用的HBase实战开发 课程观看地址:http://www.xuetuwuyou.com/course/150 课程出自学途无忧网:http://www.xuetuwuyou.com 一.课程用到的软件 1.centos6.7 2.apache-tomcat-7.0.47 3.solr-5.5 4.zookeeper 3.4.6 5.eclipse-jee-neon-R-win32-x86_64  6.jdk1.7_49 7.HBase1.2.2 8.Ganglia3.7.2 9.

PHP 基于laravel框架获取微博数据之一 模拟新浪微博登录

参考资料:http://www.csuldw.com/2016/11/10/2016-11-10-simulate-sina-login/http://blog.csdn.net/fly_leopard/article/details/51148904http://www.tuicool.com/articles/uIJzYff http://blog.csdn.net/u010029983/article/details/46364113等 模拟新浪微博登录是抓取新浪数据的基础,网上的参考资料

抓取新浪微博数据存入MongoDB,避免重复插入微博数据的方法

def getMyDatalist(): #id这个key key = str(u'id').decode('utf-8') #存储旧数据的id列表 old_ids = [] #存储新微博的列表 extr_wb = [] #从MongoDB上获取的数据 old_datalist = weibodata.find() for old in old_datalist: old_ids.append(old[key]) #从微博上抓取新数据 data = client.statuses.home_ti

新浪微博客户端(60)-离线缓存微博数据

很多应用在第一次加载时会读取前一次浏览的历史微博数据,只有当用户手动触发下拉刷新之后,才会去加载新的微博数据. 1.集成FMDB FMDB是在sqlite3的C语言查询函数基础上封装的一套OC的API,因此在使用之前需要首先导入libsqlite3.tbd. 2. 添加FMDB库 3. 参考代码: DJStatusDBHelper.h #import <Foundation/Foundation.h> @class DJStatus; @interface DJStatusDBHelper :

[Python爬虫] 之四:Selenium 抓取微博数据

抓取代码: # coding=utf-8import osimport refrom selenium import webdriverimport selenium.webdriver.support.ui as uifrom selenium.webdriver.common.keys import Keysimport timefrom selenium.webdriver.common.action_chains import ActionChainsimport IniFileclas

MapReduce分析明星微博数据

互联网时代的到来,使得名人的形象变得更加鲜活,也拉近了明星和粉丝之间的距离.歌星.影星.体育明星.作家等名人通过互联网能够轻易实现和粉丝的互动,赚钱也变得前所未有的简单.同时,互联网的飞速发展本身也造就了一批互联网明星,这些人借助新的手段,最大程度发挥了粉丝经济的能量和作用,在互联网时代赚得盆满钵满. 正是基于这样一个大背景,今天我们做一个分析明星微博数据的小项目 1.项目需求 自定义输入格式,将明星微博数据排序后按粉丝数关注数 微博数分别输出到不同文件中. 2.数据集 明星 明星微博名称 粉丝

ANDROID_MARS学习笔记_S04_008_用Listview、自定义adapter显示返回的微博数据

一.简介 运行结果 二.代码1.xml(1)activity_main.xml 1 <?xml version="1.0" encoding="utf-8"?> 2 <LinearLayout xmlns:android="http://schemas.android.com/apk/res/android" 3 android:orientation="vertical" 4 android:layout_