社交网站的数据挖掘与分析

前言 1 
第一部分 社交网络导引 
序幕 13 
第1章 挖掘Twitter:探索热门话题、发现人们的谈论内容等 15 
1.1 概述 15 
1.2 Twitter风靡一时的原因 16 
1.3 探索Twitter API 18 
1.4 分析140字的推文 33 
1.5 本章小结 47 
1.6 推荐练习 48 
1.7 在线资源 48 
第2章 挖掘Facebook:分析粉丝页面、查看好友关系等 50 
2.1 概述 51 
2.2 探索Facebook的社交图谱API 51 
2.3 分析社交图谱联系 62 
2.4 本章小结 85 
2.5 推荐练习 86 
2.6 在线资源 86 
第3章 挖掘LinkedIn:分组职位、聚类同行等 88 
3.1 概述 89 
3.2 探索LinkedIn API 89 
3.3 数据聚类速成 94 
3.4 本章小结 124 
3.5 推荐练习 125 
3.6 在线资源 126 
第4章 挖掘Google+:计算文档相似度、提取搭配等 127 
4.1 概述 128 
4.2 探索Google+ API 128 
4.3 TF—IDF简介 138 
4.4 用TF—IDF查询人类语言数据 145 
4.5 本章小结 164 
4.6 推荐练习 165 
4.7 在线资源 165 
第5章 挖掘网页:使用自然语言处理理解人类语言、总结博客内容等 167 
5.1 概述 168 
5.2 抓取、解析、爬取网页 168 
5.3 通过解码语法来探索语义 174 
5.4 以实体为中心的分析:范式转换 192 
5.5 人类语言数据处理分析的质量 200 
5.6 本章小结 203 
5.7 推荐练习 203 
5.8 在线资源 204 
第6章 挖掘邮箱:分析谁和谁说什么以及说的频率等 206 
6.1 概述 207 
6.2 获取和处理邮件语料库 207 
6.3 分析Enron语料库 225 
6.4 探索和可视化时序趋势 241 
6.5 分析你自己的邮件数据 244 
6.6 本章小结 250 
6.7 推荐练习 251 
6.8 在线资源 251 
第7章 挖掘GitHub:检查软件协同习惯、构建兴趣图谱等 253 
7.1 概述 254 
7.2 探索GitHub的API 254 
7.3 使用属性图为数据建模 260 
7.4 分析GitHub兴趣图谱 264 
7.5 本章小结 286 
7.6 推荐练习 287 
7.7 在线资源 287 
第8章 挖掘带标记语义网:提取微格式、推断资源描述框架等 289 
8.1 概述 290 
8.2 微格式:易于实现的元数据 290 
8.3 从语义标记过渡到语义网:一个小插曲 304 
8.4 语义网:发展中的变革 304 
8.5 本章小结 310 
8.6 推荐的练习 311 
8.7 在线资源 311 
第二部分 Twitter实用指南 
第9章 Twitter实用指南 317 
9.1 访问Twitter的API(开发目的) 318 
9.2 使用OAuth访问Twitter的API(产品目的) 319 
9.3 探索流行话题 323 
9.4 查找推文 324 
9.5 构造方便的函数调用 325 
9.6 使用文本文件存储JSON数据 326 
9.7 使用MongoDB存储和访问JSON数据 327 
9.8 使用信息流API对Twitter数据管道抽样 329 
9.9 采集时序数据 330 
9.10 提取推文实体 332 
9.11 特定的推文范围内查找最流行的推文 333 
9.12 特定的推文范围内查找最流行的推文实体 335 
9.13 对频率分析制表 336 
9.14 查找转推了状态的用户 337 
9.15 提取转推的属性 339 
9.16 创建健壮的Twitter请求 340 
9.17 获取用户个人资料信息 343 
9.18 从任意的文本中提取推文实体 344 
9.19 获得用户所有的好友和关注者 345 
9.20 分析用户的好友和关注者 347 
9.21 获取用户的推文 348 
9.22 爬取好友关系图 350 
9.23 分析推文内容 351 
9.24 提取链接目标摘要 353 
9.25 分析用户收藏的推文 356 
9.26 本章小结 357 
9.27 推荐练习 358 
9.28 在线资源 359 
第三部分 附录 
附录A 关于本书虚拟机体验的信息 363 
附录B OAuth入门 364 
附录C Python和IPython Notebook的使用技巧 368

时间: 2024-10-15 12:49:59

社交网站的数据挖掘与分析的相关文章

社交网站的数据挖掘与分析(高清版)PDF

社交网站的数据挖掘与分析(高清版)PDF百度网盘链接:https://pan.baidu.com/s/1ia57ZMxvdTtq7eragsITzg 提取码:5hth 复制这段内容后打开百度网盘手机App,操作更方便哦内容简介 · · · · · · Facebook.Twitter和LinkedIn产生了大量宝贵的社交数据,但是你怎样才能找出谁通过社交媒介正在进行联系?他们在讨论些什么?或者他们在哪儿?这本简洁而且具有可操作性的书将揭示如何回答这些问题甚至更多的问题.你将学到如何组合社交网络数

社交网站的数据挖掘与分析 中文版 pdf

下载地址:网盘下载 内容简介  · · · · · · Facebook.Twitter和LinkedIn产生了大量宝贵的社交数据,但是你怎样才能找出谁通过社交媒介正在进行联系?他们在讨论些什么?或者他们在哪儿?这本简洁而且具有可操作性的书将揭示如何回答这些问题甚至更多的问题.你将学到如何组合社交网络数据.分析技术,如何通过可视化帮助你找到你一直在社交世界中寻找的内容,以及你闻所未闻的有用信息. 每个独立的章节介绍了在社交网络的不同领域挖掘数据的技术,这些领域包括博客和电子邮件.你所需要具备的就

旅游研究院大数据挖掘与分析科研平台建设方案

一. 背景 一.1 数据挖掘和大数据分析行业背景和发展趋势 移动互联网.电子商务以及社交媒体的快速发展使得企业需要面临的数据量成指数增长.根据 IDC <数字宇宙>(Digital Universe)研究报告显示,2020 年全球新建和复制的信息量已经超过 40ZB,是2015年的12倍;而中国的数据量则会在2020年超过8ZB,比2015年增长22倍.数据量的飞速增长带来了大数据技术和服务市场的繁荣发展.IDC亚太区(不含日本)最新关于大数据和分析(BDA)领域的市场研究表明,大数据技术和服

位居全球第四的社交网站 twitter暴病将死,你敢信吗?

"你所看到的,有时候并不是真的",我坚信这一点.正如twitter,我们看到的是它从开始仅有的50个用户到如今2.5亿活跃用户的惊人膨胀速度,曾一度将其与facebook相提并论,认为twitter终有一日能够像facebkook一样拥有12亿的庞大用户群体. 2013年11月,一直穷追猛赶的twitter选择上市,成为继facebook之后备受瞩目的上市公司之一.上市后,twitter股价以不可理喻的速度一路狂飙,截止12月底,短短一个月,曾一度飙升到74.73美元这个不现实的高点.

告诉你我为什么不喜欢上互联网社交网站

我不上QQ空间有差不多快6年了吧?微博也不发了半年多了(但偶尔会看 不能与时代信息完全脱轨嘛(-?-;)而人人就在高一的时候注册过 发布过一条状态后就注销了 觉得没意思 我倒不是特地为了远离网络而远离 就突然的觉得没意思 说实话没有这些并没有感觉自己的生活失去了什么缺少什么 我还是觉得自己有点依赖社交网络 我最怵的一种人就是把自己的什么隐私都放上网的人 特别是一条状态朋友圈空间微博人人齐同步 我想大多数人喜欢把自己生活什么暴露出来都是觉得自己过于重要了 我觉得关闭掉这些挺好的 我也没有觉得跟身边

数据挖掘案例分析

数据挖掘应用目前在国内的基本结论是“大企业成功案例少,中小企业需求小”.但是对于市场来说,如果不是真的“没有人买”所以“没有人卖”,那一定是创新的机会所在.个人的判断是,一个数据库只要有几十万以上记录,就有数据挖掘的价值. 搜集以下案例,希望有一定的启发和学习价值. 1. 哪些商品放在一起比较好卖? 这 是沃尔玛的经典案例:一般看来,啤酒和尿布是顾客群完全不同的商品.但是沃尔玛一年内数据挖掘的结果显示,在居民区中尿布卖得好的店面啤酒也卖得很好.原 因其实很简单,一般太太让先生下楼买尿布的时候,先

社交网站如何面对 “用户大逃亡”

社区:http://demo.jinhusns.com/?type=xcj 出于对“创新”和“趋势”等因素的追捧,在很多行业专家看来,Twitter.Facebook等相对更新的网络产品在行业表现中总是显得更“酷”,与之相比,AOL.雅虎等前巨头早已经是昨日黄花,不堪一击. 不过时至今日,作为新闻资讯的内容提供商,以AOL.雅虎为首的门户网站仍然在全美占据着相当大的市场份额,尽管增长速度已经不能和硅谷的后辈们相 提并论了,但是其访问流量及用户保有量却是出奇的稳定,鲜见大起大落的势态,仿佛置身事外

社交网站的未来如何颠覆互联网世界?

如果有一天SEO消失了,那么五年后社会化网络也将不复存在.不必感动惊讶,即便在社交网站如日中天的今天,我任相信搜索引擎和社交网站之间的关系并不是相互取代,而是互相促进,共同发展. 在今天的搜索领域,越来越多的人认为社交网站将怎么样颠覆互联网世界,搜索引擎会慢慢沦为一种过时的技术,SEO也将慢慢走向死忙.特别是最近的谷歌企鹅和熊猫算法更新,更是让许多人相信这样的局面将会在未来的某一天到来.但是,事实真的是这样子吗? 如今的互联网领域,社会化正变地比以往任何时候都重要.但是从今天我们看到的社交网络的

PHP基于B/S模式下的宠物社交网站,源码分享

大家好,我是全微毕设团队的创始人,本团队擅长JAVA(SSM,SSH,SPRINGBOOT).PYTHON.PHP.C#.安卓等多项技术. 今天将为大家分析一个宠物社交网站,为了解决流浪动物泛滥问题,各省市先后出现了公有或私有的动物救助站,但是因为区域限定.资金短缺.宣传困难等问题,流浪动物的领养.助养发展缓慢.但是随着Internet技术的发展,尤其是电子商务的快速普及,为动物的领养.助养的普及与快速发展提供了良好的条件.虽然现实中有一些宠物收容所帮助宠物被领养,但由于不是网络化的,造成信息更