2017年Nature文章“Millions of online book co-purchases reveal partisan differences in the consumption of science”阅读笔记

论文:      Millions of online book co-purchases reveal partisan differences in the consumption of science

发表期刊:Nature 2017 (Human Behavior)

作者:       Feng Shi, Yongren Shi, Fedor a. Dokshin, James a. evans and Michael W. Macy

单位:     Computation Institute, University of Chicago

Yale Institute for Network Science, Yale University

Department of Sociology, Cornell University

Department of Sociology, University of Chicago

原文链接:https://www.nature.com/articles/s41562-017-0079

前言:这篇利用亚马逊购书数据对用户政治倾向做分析的文章,发表在Nature2017期刊上。仔细研读并思考了这篇论文值得学习和借鉴的地方,总结如下,希望与大家一起交流。

一、写作动机

人们在面对一些问题,如:气候变化,干细胞研究时持有的不同态度,其本质上是在科学的立场上,不同文化之间的战争。文章通过电子商务网站上人们对不同书籍的购买记录,分析科学书籍与不同政治倾向(保守,自由)书籍之间共同购买的联系。(从而可以从用户对科学书籍的喜好,推断其政治倾向)

二、数据处理:

1.书籍收集:选取两个种子书籍,根据 ”购买该商品的人同样也购买了XXX” 滚雪球式迭代收集所有书籍数据直至不再增加,得到26,467,385共同购买的关系,1,303,504本书籍。数据集来自:Amazon 和barnesandnoble。

2.书籍分类:分为政治类(3530),科学类(428,433),非科学类(494,278)。其中政治类的书籍来自亚马逊“liberalism & Conservatism”类目,与该类目书籍共同购买次数最多书籍,作者为政治家的书籍三个部分。 科学类和非科学类是按照library of congress and dewey decimal classification systems【美国国会图书馆和杜威十进制分类法系统】划分。科学类书籍进一步细分到27个子类目,归并为学校中的四大学科,如:humanities, physical sciences, life sciences and social sciences。非科学类书籍归并为:arts, sports, literature and religion四大类。

3. 政治类书籍倾向划分: 根据三个coder(两个independent coder 和一个tiebreaker)对政治类的书籍(3530本)进行划分为三类:保守派(红色:673本)和自由派(蓝色:583本), 不确定性书籍(不被采用:2274本)。

三、数据分析及发现

数据的分析基于书籍共同购买关系网络,即:"购买xxx商品的人同样也购买了xxx",网络中的结点为书籍,边为共同购买关系(红色:保守倾向的政治书籍, 蓝色: 自由倾向的政治书籍,灰色:科学书籍)。

1. Figure1:  a, 共同购买关系中90%以上书籍拥有相同的政治倾向(97.2% red-red, 93.7% blue-blue); b, 与自由倾向的书籍共同购买的科学书籍更为广泛,与保守倾向的书籍共同购买的科学书籍分布相对集中。如下图:

2. Figure 2:分析科学书籍与非科学书籍各个子类目下的政治的相关性和极化程度(偏向于某一政治倾向的程度)以及其极性(保守或自由,用颜色表示)。(计算方法见定量计算)

发现:科学书籍要比非科学书籍的政治相关性高,且极化程度高,尤其在科学的子类目social science 和 humanities. 非科学书籍中的艺术类政治相关性最低,且其政治倾向极性最偏向自由。

3. Figure 3: a, 在科学类书籍的不同子科目下,每类书籍的极性。发现:气候类、医药类、法律类、历史类的书籍政治倾向更为保守;而工程学的书籍政治倾向更为自由; b, 不同书籍子类目实用程度越高,政治倾向越偏向于保守。

4. Figure4: 可视化分析不同科学子学科下,与不同倾向的政治书籍共同购买的科学书籍的分布。发现: 在哲学学科,不同倾向的政治书籍共同购买的科学书籍最为不同。经济学科,保守和自由倾向的政治书籍共同购买的科学书籍最为相似。

四、定量分析指标

1. 政治相关性(relevance)和极性(alignment)的计算:用来估计书籍与政治类书籍共同购买的概率,二项式分布在节点度数较少时存在误差,选用beta分布,即按照其与不同政治倾向书籍购买概率的分布计算, beta分布的先验用随机模型估计。同样,在计算所属保守或是自由的极性时,也同样按照政治书籍中保守和自由书籍概率的分布,即beta分布计算。Figure 2.

(beta分布解释参见:https://www.zhihu.com/question/30269898)

2. 政治极化程度(polarization)的计算: 用来估计该书籍共同购买书籍的政治倾向单一的程度。数值越大,单一倾向程度越高。Figure2.

3. 实用程度(applied index): 由美国专利数据库中所引用各类书籍的量用来度量该书籍实用程度。Figure 3.

4. 科学幅度(scientific breadth):衡量与政治书籍共同购买的科学书籍的范围。Figure 4.

五、总结和思考

我们之前基于亚马逊的购物,评论数做过也看过不少研究分析,而这篇简单而严谨的文章能够发在nature如此高质量的期刊上,着实需要好好学习。

总结几点:1,一个新颖的问题,将购物数据用在判别政治倾向的问题上,研究问题有趣。

2, 政治倾向判断,人工标注数据本身具有一定的难度和工作量。可以继续研究, 关于政治倾向的自动判别标注方法。

3, 文章可视化分析方式, 也是值得借鉴的。

4, 文章以政治倾向为研究点,来分析科学类书籍的偏好不同,没有深入到购买者的角度,此方向也可以进一步研究。

时间: 2024-08-18 11:07:36

2017年Nature文章“Millions of online book co-purchases reveal partisan differences in the consumption of science”阅读笔记的相关文章

2017上半年技术文章集合【Android】—184篇文章分类汇总

地址: http://blog.csdn.net/androidstarjack/article/details/77923753 声明 | 本文是于亚豪 原创 终端研发部 前言: 2017年已经过大半,公众号里技术文章整理和归类了一下,方便给大家查找和阅读.这也是目前 发文的一个统计. View篇: 高级UI特效之酷炫抢红包金币下落动画 一个超级方面的用户指引view-App实现用户指引就是如此简单 让View像粒子一样自由运动 手把手教你实现RecyclerView实现上拉刷新功能 高级UI

2017.3.9文章保存

git http://blog.jobbole.com/78960/ js编辑器 http://www.cnblogs.com/lhb25/p/html5-wysisyg-inline-editor.html JavaEE 注解和XML http://blog.csdn.net/qmw19910301/article/details/52712893

综述类文章(Peng 等)阅读笔记Cross-media analysis and reasoning: advances and directions

综述类文章 Cross-media analysis and reasoning: advances and directions Yu-xin PENG et al. Front Inform Technol Electron Eng 浙江大学学报(英文版)2017 18(1):44-57 这篇文章主要讲了七个问题: (1) theory and model for cross-media uniform representation; (2) cross-media correlation

high scalability网站上all-time-favorites聚合下的文章的阅读笔记

大部分文章似乎有点老了,不知道现在FB.Tumblr.Pinterest.Twitter这些网站的架构是什么样子的了. 1.clustering vs sharding?自动/手动(需要去除join,添加cache,NoSQL似乎不如MySQL成熟?但HBase/Cassandra似乎又还可以) 2.技术为业务服务,架构为应用服务,so创新在于发现真正的有价值的问题(需求) 3.应用特定的数据库?物化"数据项",无锁事务,append-only存储:为大规模scale设计:普通FS -

阅读笔记二2017.1.27

之前看了前三章对软件工程有了大致认识,对个人开发的流程及软件工程师的成长过程有了比以前更清晰的了解. 这一周重点阅读了第四章,本章讲了两人合作的前提是代码要规范(包括代码风格规范及代码设计规范)及代码复审,然后才能结对开发. 大学一年交了很多代码作业,但质量仅仅是完成了而已,对于缩进.行宽.括号.与大括号.分行等都没太注意过,觉着有了结果就好了.而对于命名更是越短越好,过后也就知道写过的代码是什么意思了.以前,写代码时,很多时候是上手就写,一个大括号包含所有内容,虽然大一时学过函数.类等知识,

阅读笔记三2017.2.1

总而言之五章讲了几种软件团队的模式.软件开发流程:第六章讲了敏捷流程的相关知识:第七章的内容是关于微软解决方案框架的. 邹欣老师的这本书,写得形象生动,第五章用体育运动等团队例子引出软件开发团队的形式.软件团队形式多样,适用于不同的人员与需求.团队可能会演变的模式有:主治医师模式.明星模式.社区模式.业余剧团模式.秘密团队.特工团队.交响乐团模式.爵士乐模式.功能团队模式.官僚模式等.开发流程模式有:瀑布模式.瀑布模型的各种变形.统一流程.老板驱动的流程.渐进交付的流程等.在过去的学习生活很少有

《2017 0907-构建之法:现代软件工程-阅读笔记》

阅读笔记 本周阅读了<构建之法>8.9.10章.这三章从需求分析.项目经理及典型用户和场景的知识进行了,这三章从需求分析.项目经理及典型用户和场景的知识进行了讲解,我作为初学者,我还是遇到比较多的问题,下面就是我的阅读笔记: 1:软件工程同其他工程项目一样存在风险. 2:客户的需求是难以捕捉的. 3:项目经理是软件团队的一个重要角色.他可以领导大家把问题"分而治之",当然公司不同PM职能略不同.邹欣老师在第九章主要讲了微软PM的来历.职能.能力要求及任务 4:软件开发要考虑

2017.9.29-构建之法:现代软件工程-阅读笔记

1.代码复审的形式:自我复审,自己vs自己2.同伴复审,复审者vs开发者3.团队复审,团队vs开发者4.软件工程中最基本的复审手段:同伴复审5.代码复审的目的:(1)找出代码的错误(1)编码错误(2)不符合团队代码规范的地方(2)发现逻辑错误,程序可以编译通过,但是代码的逻辑是错的(3)发现算法错误,比如使用的算法不够优化,边界条件没有处理好(4)发现潜在的错误和回归性错误(5)发现可能需要改进的地方(6)互相教育开发人员,传授经验 这次代码复审的学习让我也尝试着进行了一下代码复审,果然会出现各

2017/9/29-构建之法:现代软件工程-阅读笔记2

第5章  团队和流程 软件团队的模式:主治医师模式.明星模式.社区模式.业余剧团模式.秘密团队.特工团队.交响乐团模式.爵士乐模式.功能团队模式和官僚模式. 我个人的理想团队模式建设则是和功能团队模式一样.简而言之,这个模式就是具备不同能力的同事们平等协作,共同完成一个功能.因为我觉得每个人的能力都是有差别的,用这个模式可以充分发挥出个人最大的能力,用每个人最擅长的部分去司其职.并且相互之间没有管理和被管理的关系,人人都是平等的,所以这样还可以消除成员之间的距离感,以至于团队之间的交流会比较频繁