《集体智慧编程》学习记录:欧几里得距离&皮尔逊相关系数

 1 critics={‘Lisa Rose‘: {‘Lady in the Water‘: 2.5, ‘Snakes on a Plane‘: 3.5,‘Just My Luck‘: 3.0, ‘Superman Returns‘: 3.5, ‘You, Me and Dupree‘: 2.5, ‘The Night Listener‘: 3.0},
 2          ‘Gene Seymour‘: {‘Lady in the Water‘: 3.0, ‘Snakes on a Plane‘: 3.5, ‘Just My Luck‘: 1.5, ‘Superman Returns‘: 5.0, ‘The Night Listener‘: 3.0, ‘You, Me and Dupree‘: 3.5},
 3          ‘Michael Phillips‘: {‘Lady in the Water‘: 2.5, ‘Snakes on a Plane‘: 3.0,‘Superman Returns‘: 3.5, ‘The Night Listener‘: 4.0},
 4          ‘Claudia Puig‘: {‘Snakes on a Plane‘: 3.5, ‘Just My Luck‘: 3.0, ‘The Night Listener‘: 4.5, ‘Superman Returns‘: 4.0, ‘You, Me and Dupree‘: 2.5},
 5          ‘Mick LaSalle‘: {‘Lady in the Water‘: 3.0, ‘Snakes on a Plane‘: 4.0, ‘Just My Luck‘: 2.0, ‘Superman Returns‘: 3.0, ‘The Night Listener‘: 3.0,‘You, Me and Dupree‘: 2.0},
 6          ‘Jack Matthews‘: {‘Lady in the Water‘: 3.0, ‘Snakes on a Plane‘: 4.0,‘The Night Listener‘: 3.0, ‘Superman Returns‘: 5.0, ‘You, Me and Dupree‘: 3.5},
 7          ‘Toby‘: {‘Snakes on a Plane‘:4.5,‘You, Me and Dupree‘:1.0,‘Superman Returns‘:4.0}}
 8
 9 critics[‘Lisa Rose‘][‘Lady in the Water‘]
10 critics[‘Toby‘][‘Snakes on a Plane‘] = 4.5
11 critics[‘Toby‘]

1.欧几里得距离

 1 from math import sqrt
 2 def sim_distance(prefs,person1,person2):
 3     si = {}
 4     for item in prefs[person1]:
 5         if item in prefs[person2]:
 6             si[item] = 1
 7     if len(si) == 0:return 0
 8
 9     sum_of_squares = sum([pow(prefs[person1][item] - prefs[person2][item],2)
10     for item in prefs[person1] if item in prefs[person2]])
11
12     return 1/(1+sqrt(sum_of_squares))
13
14 sim_distance(critics,‘Lisa Rose‘,‘Gene Seymour‘)

2.皮尔逊相关系数(能够修正“夸大分值”的情况)

 1 def sim_pearson(prefs,p1,p2):
 2     si = {}
 3     for item in prefs[p1]:
 4         if item in prefs[p2]:
 5             si[item] = 1
 6
 7     n = len(si)
 8
 9     if n==0:
10         return 0
11
12     sum1=sum([prefs[p1][it] for it in si])
13     sum2=sum([prefs[p2][it] for it in si])
14
15     sum1Sq=sum([pow(prefs[p1][it],2) for it in si])
16     sum2Sq=sum([pow(prefs[p2][it],2) for it in si])
17
18     pSum=sum([prefs[p1][it]*prefs[p2][it] for it in si])
19
20     num=pSum-(sum1*sum2/n)
21     den=sqrt((sum1Sq-pow(sum1,2)/n)*(sum2Sq-pow(sum2,2)/n))
22
23     if den==0:
24         return 0
25
26     r = num/den
27     return r
28
29 sim_pearson(critics,‘Lisa Rose‘,‘Gene Seymour‘)
30
31
32 def topMatchs(prefs,person,n=5,similarity=sim_pearson):
33     scores=[(similarity(prefs,person,other),other)
34     for other in prefs if other !=person]
35
36     scores.sort()
37     scores.reverse()
38
39     return scores[0:n]
40
41 topMatchs(critics,‘Toby‘,n=3)
时间: 2024-10-08 10:03:47

《集体智慧编程》学习记录:欧几里得距离&皮尔逊相关系数的相关文章

读书笔记:集体智慧编程(1)

概述: 协作性过滤,是一种目前广泛运用于电子商务.交友网站.在线广告等互联网领域的一项技术.其主要作用是为指定用户在广大的用户群中找到品味相同或者相似的人,从而帮助网站针对性的推荐产品给特定的用户,与此同时,用户本人也可以从一堆纷繁复杂的信息中,迅速找到自己喜欢的.感兴趣的那部分信息. 其主要有两种实现方法,一种是基于用户的(user-based),即通过分析用户间的相似性,生成最近的邻居,将邻居中“得分”最高的项目推荐给用户:另一种是基于物品的(item-based),即通过分析用户群体对物品

集体智慧编程_第二章(提供推荐)_1

前言:最近正在拜读Toby Segaran先生写的集体智慧编程,首先感谢Toby Segaran先生将知识以书本的方式传播给大家,同时也感谢莫映和王开福先生对此书的翻译,谢谢各位的不辞辛苦.首先在写随笔之前,跟各位分享一下我的编程环境:win7系统,python版本是2.7.10,开发环境我选择的是pycharm程序.本书的第一章为集体智慧导言,主要介绍的何为集体智慧和机器学习的相关概念和其局限性,以及与机器学习相关的例子和应用场景.下面开始机器学习第二章--提供推荐的相关内容. 本章主要内容:

集体智慧编程--勘误表(1-4章)

最近在工作之余的时间在阅读集体智慧编程这本书,在随书码字的过程中遇到的一些问题,就在这里记录一下: (注:下面的页码针对于英文的非影印版) chapter1 标题: 没什么说的,浏览下就好. chapter2 提供推荐: 1.书上的源码是基于python 2.x,而在3.x中print是被当作一个函数处理,所以要自己加上括号; 2.在P42利用del.icio.us提供的rss订阅源构建数据集时,这本书发布时间较长的原因,python api pydelicious的 很多接口已经发生了改变,这

集体智慧编程(一)推荐系统之欧里几德距离

在网上购物,听歌,看电影的网站上,网站都会根据我们的购物记录,听歌记录或着是观看记录给我们推荐一些商品,音乐或者是电影.那这些推荐系统是怎么实现的呢?首先,推荐一个东西,得是购物者所感兴趣的,那么怎么判断购物者对该物品感兴趣呢?那么,就得根据购物者的记录来判断了,假定购物者所购买的物品都是他所感兴趣的.那么跟该购物者的物品相似的物品就是可以推荐的,这种推荐是基于相似条目的.另外,可以相似的人会大都会有相同的爱好,因此可以根据购物者的该买记录找出相似的购物者,并把相似购物者购买的物品推荐出来,这就

Windows API 编程学习记录<二>

恩,开始写Windows API编程第二节吧. 上次介绍了几个关于Windows API编程最基本的概念,但是如果只是看这些概念,估计还是对Windows API不是很了解.这节我们就使用Windows API 让大家来了解下Windows API的用法. 第一个介绍的Windows API 当然是最经典的MessageBox,这个API 的作用就是在电脑上显示一个对话框,我们先来看看这个API的定义吧: int WINAPI MessageBox(HWND hWnd, LPCTSTR lpTe

Windows API 编程学习记录<三>

恩,开始写API编程的第三节,其实马上要考试了,但是不把这节写完,心里总感觉不舒服啊.写完赶紧去复习啊       在前两节中,我们介绍了Windows API 编程的一些基本概念和一个最基本API函数 MessageBox的使用,在这节中,我们就来正式编写一个Windows的窗口程序. 在具体编写代码之前,我们必须先要了解一下API 编写窗口程序具体的三个基本步骤:             1. 注册窗口类:             2.创建窗口:             3.显示窗口: 恩,

集体智慧编程——决策树建模(上)

本文主要介绍一种非常流行的分类算法:决策树分类算法. 例子:一个网站上有多少用户会愿意为某些高级会员功能而支付费用. 步骤一:导入数据: 新建一个treepredict.py的问价,将下面数据写入.数据的具体信息分别是:来源网站,位置,是否读过FAQ,浏览网页数,选择服务类型. my_data=[['slashdot','USA','yes',18,'None'], ['google','France','yes',23,'Premium'], ['digg','USA','yes',24,'B

集体智慧编程——决策树建模(下)

一.决策树的显示: 前面我们已经得到了一棵决策树,下一步也许我们该进行数的浏览了.下面这段函数就是一个以纯文本的方式显示决策树的方法,虽然输出不是很美观,但是对于显示节点不是太多的树而言,这也是一种简单的方式. def printtree(tree,indent=''): if tree.results!=None: print str(tree.results) else: print str(tree.col)+':'+str(tree.value)+'?' print indent+'T-

集体智慧编程中相关章节对应论文数

准备开题报告了,先要熟悉一下领域范围,<集体智慧编程>参考一下论点.简单的思路是看一下哪个话题最热门,用google学术来衡量一下论文数,虽然不够精确但是足以反应一点什么. 当然是选择最近比较热门的,同时参考一下国内的论文数目情况. 关键字 总的 2014 国内总数 2014 推荐 2,480,000 42,600 223,124 2728 协同过滤 194,000 4,350 11,239 112 聚类 2,550,000 54,600 141,003 1598 搜索与排名 2,120,00