MovieLens电影数据分析

下载数据包

  链接:https://grouplens.org/datasets/movielens/1m/

  解压:

  四个文件分别是数据介绍,电影数据表,电影评分表,用户表

进行电影数据分析

进入ipython,新建一个项目

从用户表读取用户信息

  警告原因,C语言实现的引擎不支持某些特性,最终用Python引擎实现

 打印列表长度,共有6040条记录

  查看前五条记录

  其中age对应的年龄段在readme表中有对应说明

  同样方法,导入电影数据表,电影评分表

  查看导入数据数量,评分表为1000209条,电影数据表有3883条

  查看评分表前五条数据

  查看电影数据前五条

  导入完成之后,我们可以发现这三张表类似于数据库中的表

  要进行数据分析,我们就要将多张表进行合并才有助于分析

  使用merge函数合并  

  先将users与ratings两张表合并再跟movied合并

  查看合并后的表长度和前十条数据

  合并后的每一条记录反映了每个人的年龄,职业,性别,邮编,电影ID,评分,时间戳,电影信息,电影分类等一系列信息

  比如我们查看用户id为1的所有信息

 查看每一部电影不同性别的平均评分

  运用数据透视

  

  表中结构为每一部电影男性跟女性的评分平均值

  查看电影分歧最大的那部电影

  加一列评分差值

  按照diff排序

  查看评分最多的电影

  查看最热门电影

  查看最高分电影

  先算出每部电影平均得分

  对电影平均得分排序

  当然,从严格意义上仅仅通过单一条件电影评分高低我们还不能判断这部电影是否是一部真正的好电影,因为评分均分跟观影人数也有关系

  先按照热度找出热度高的电影,有207部电影符合条件,然后我们可以在评分数据透视中筛选出符合条件的数据

时间: 2024-10-19 00:30:50

MovieLens电影数据分析的相关文章

基于Spark和Hive进行的豆瓣电影数据分析

写在前边的话: 算是自己做的一个小课题吧,自己搭建平台,自己爬取数据,自己进行数据清洗和分析,自己进行可视化展示,写这篇博客不为别的,只是记录下自己做这个课题的整个过程,大神们勿喷 环境说明:hadoop2.7集群,包含Hbase,Hive,Spark,Sqoop,Mahout组件 过       程:平台部署->数据采集-> 数据存储->数据ETL->数据分析->可视化 课题github地址:https://github.com/Thinkgamer/Douban_Movi

Python电影数据分析

数据说明:MovieLens数据集,它包含来自于943个用户以及精选的1682部电影的100K个电影打分.每个用户至少为20部电影打分,数据类型user id | item id | rating | timestamp. 地址:https://grouplens.org/datasets/movielens/ 1.引入pandas,numpy包 2.读取数据:首先,文件如果不在默认路径下,需要更改路径,使用下面两行命令,另外要注意正反斜杠的应用. os.getcwd() os.chdir("新

基于协同过滤的推荐引擎(实战部分)

基于协同过滤的推荐引擎(理论部分) 时隔十日,终于决心把它写出来.大多数实验都是3.29日做的,结合3.29日写的日记完成了这篇实战. 数据集准备 数据集使用上篇提到的Movielens电影评分数据里的ml-latest-small数据集,下载完成后有下面四个csv文件. 我们这里只需要ratings.csv就够了,打开以后会发现长这样: 是的,它果然和数据库里的没两样,上篇我们介绍的一般评分估计也好,神奇的SVD评分估计也好,前提都是有一个长成下面这样的物品-用户矩阵 然后提出其中的两列,传给

SVD建模

以MovieLens电影推荐为例,SVD(Singular Value Decomposition)的想法是根据已有的评分情况,分析出评分者对各个因子的喜好程度以及电影包含各个因子的程度,最后再反过来根据分析结果. 使用SVD对问题进行建模 SVD的想法抽象点来看就是将一个N行M列的评分矩阵R(R[u][i]代表第u个用户对第i个物品的评分),分解成一个N行F列的用户因子矩阵P(P[u][k]表示用户u对因子k的喜好程度)和一个M行F列的物品因子矩阵Q(Q[i][k]表示第i个物品的因子k的程度

因式分解实现协同过滤-及源码实现

本文引自http://blog.csdn.net/dustinsea/article/details/17394615 在设计实现推荐系统,选择推荐算法时, 肯定会考虑协同过滤(CF)的使用,而CF中经常使用的两种方法包括: neighbour-based方法和因式分解. 作为一个搜索推荐系统,百度关键词系统中也使用了CF(包括neighbour-based和因式分解方法)为用户推荐流量,考虑到可解释性和工程上在hadoop上实现的便利性,最终主要使用了neighbour-based中的item

如何站在大数据的角度看100000个故事

欢迎大家前往腾讯云+社区,获取更多腾讯海量技术实践干货哦~ 本文来自云+社区翻译社,作者HesionBlack 最近我从马克·里德尔那拿到了很棒的自然语言方面的数据集:从WIKI下载了112000个故事作品的情节.其中包括了书籍.电影.电视剧集.视频游戏等有"情节"的任何内容. 这为我定量分析故事结构提供了一个很好的契机.在这篇文章中,我将会进行一个简单的分析来检验在故事中的特定情节上,哪些词会频繁出现,比如一些提示了故事开端开始,中间情节或结局的词. 根据我对文本挖掘的习惯,我将使用

Spark2.x 机器学习视频教程

Spark2.x 机器学习视频教程讲师:轩宇老师链接:https://pan.baidu.com/s/1TcFl6KDjxJS597TxYFSCOA 密码:3t2z 本课程讲解Spark 在机器学习中的应用,并介绍如何从各种公开渠道获取用于机器学习系统的数据.内容涵盖推荐系统.回归.聚类.分类等经典机器学习算法及其实际应用,涵盖使用Spark ML Pipeline API创建和调试机器学习流程,内容更加系统.全面.与时俱进,适合所有欲借助Spark来实现常见机器学习应用的开发者. 本课程主要讲

【转】爬取豆瓣电影top250提取电影分类进行数据分析

一.爬取网页,获取需要内容 我们今天要爬取的是豆瓣电影top250页面如下所示: 我们需要的是里面的电影分类,通过查看源代码观察可以分析出我们需要的东西.直接进入主题吧! 知道我们需要的内容在哪里了,接下来就使用我们python强大的request库先获取网页内容下来吧!获取内容后,再使用一个好用的lxml库来分析网页内容,然后获取我们的内容就可以做下一步操作了.先贴出使用request库和lxml分析的代码 1 def get_page(i): 2 url = 'https://movie.d

数据挖掘-MovieLens数据集_电影推荐_亲和性分析_Aprioro算法

[python] view plain copy print? #!/usr/bin/env python2 # -*- coding: utf-8 -*- """ Created on Tue Feb  7 14:38:33 2017 电影推荐分析: 使用 亲和性分析方法 基于 Apriori算法 推荐电影 @author: yingzhang """ #读取数据集: http://grouplens.org/datasets/movielen