数据集:用于数据挖掘、推荐系统等

下面是美国UCI机器学习中心提供的数据集:

http://archive.ics.uci.edu/ml/

感觉对自己比较有用的:

E-learning数据挖掘、学习分析可用的数据集:http://archive.ics.uci.edu/ml/datasets/Educational+Process+Mining+%28EPM%29%3A+A+Learning+Analytics+Data+Set

学生的基本信息,用于学生学业表现预测:http://archive.ics.uci.edu/ml/datasets/Student+Performance

有情感标注的语句数据集,可用于情感分析:http://archive.ics.uci.edu/ml/datasets/Sentiment+Labelled+Sentences

汽车评价和酒店评价的数据集,这个是文本评价,比较遗憾的是没有评价用户的信息:http://archive.ics.uci.edu/ml/datasets/OpinRank+Review+Dataset

饭店评价的数据集,有饭店信息、用户信息,评分信息。数据量比较小,可用于(上下文)推荐系统的研究:

http://archive.ics.uci.edu/ml/datasets/Restaurant+%26+consumer+data

38000位用户在一周之内访问网站 www.microsoft.com的信息。对每个用户,列出了其访问该网站的所有领域。用户用id标识,没有其他用户信息,数据较老(1998年)。可用于推荐系统研究:http://archive.ics.uci.edu/ml/datasets/Anonymous+Microsoft+Web+Data

sina微博的数据集,包括用户信息,微博信息,微博转发等信息:http://archive.ics.uci.edu/ml/datasets/microblogPCU


stanford dataset全集

http://snap.stanford.edu/data/

有很多数据集,覆盖种类也较多

时间: 2024-10-05 13:07:53

数据集:用于数据挖掘、推荐系统等的相关文章

(第9篇)大数据的的超级应用——数据挖掘-推荐系统

数据挖掘--推荐系统 大数据可以认为是许多数据的聚合,数据挖掘是把这些数据的价值发掘出来,比如有过去10年的气象数据,通过数据挖掘,几乎可以预测明天的天气是怎么样的,有较大概率是正确的. 机器学习是人工智能的核心,对大数据进行发掘,靠人工肯定是做不来的,那就得靠机器代替人工得到一个有效模型,通过该模型将大数据中的价值体现出来. 本章内容: 1) 数据挖掘和机器学习概念 2) 一个机器学习应用方向--推荐系统 3) 推荐算法--基于内容的推荐方法 4) 推荐算法--基于协同过滤的推荐方法 5) 基

几个可用于数据挖掘和统计分析的java库

http://itindex.net/blog/2015/01/09/1420751820000.html WEKA:WEKA是一个可用于数据挖掘任务的机器学习算法集合.该算法可以直接应用到数据集或从自己的Java代码调用. WEKA包含数据预处理,分类,回归,聚类,关联规则,和可视化工具.它也非常适用于开发新的机器学习方案. jmotif:时间序列.分类.数据挖掘开发库 java-ml:Java机器学习库,聚类.分类.特征选择. flanagan: 数学和统计java开发库,包含回归算法,一次

机器学习大数据数据挖掘推荐系统相关资源

原文:http://www.kuqin.com/shuoit/20151130/349205.html 书籍 各种书~各种ppt~更新中~ http://pan.baidu.com/s/1EaLnZ 机器学习经典书籍小结 http://www.cnblogs.com/snake-hand/archive/2013/06/10/3131145.html 机器学习&深度学习经典资料汇总 http://www.thebigdata.cn/JiShuBoKe/13299.html 视频 浙大数据挖掘系列

page59-一种能够累加数据的ADT(可视化版本) [可用于数据挖掘可视化工具]

public class VisualAccumulator VisualAccumulator() 创建一个累加器 void addDataValue(double val) 添加一个新的数据值 double mean() 所有数据值的平均值 String toString() 对象的字符串表示 所用到的java类有: [ VisualAccumulator.java ]如下 1 public class VisualAccumulator { 2 3 private double total

Kemaswill 机器学习 数据挖掘 推荐系统 Python optparser模块简介

Python optparser模块简介 原文地址:https://www.cnblogs.com/ppybear/p/12350129.html

【Python数据挖掘课程】六.Numpy、Pandas和Matplotlib包基础知识

前面几篇文章采用的案例的方法进行介绍的,这篇文章主要介绍Python常用的扩展包,同时结合数据挖掘相关知识介绍该包具体的用法,主要介绍Numpy.Pandas和Matplotlib三个包.目录:        一.Python常用扩展包        二.Numpy科学计算包        三.Pandas数据分析包        四.Matplotlib绘图包 前文推荐:       [Python数据挖掘课程]一.安装Python及爬虫入门介绍       [Python数据挖掘课程]二.K

数据挖掘-概念、取样方法研究

随着数据库技术的 飞速发展和广泛使用电 在数据库里电 存储的 数据越来越庞大 门 在数据挖掘的领域里电 要使用科学的方式 .方法 降低挖掘算法的时间电 使数据挖掘的效率更高门 1     数据的挖掘概念 数据库中的知识发现又称数据挖掘啕 数据库领域研究和人工智 能是目前的热点问题门 数据挖掘就是从拥有大量数据的数据库中 找出先前未知的 .有着潜在价值的信息过程门 数据挖掘是决策支持 过程啕 它墓于模式识别.人工智能.机器学习.数据库.可视化.统计 学等技术啕 自动分析企业数据进行推理电 挖掘出潜

【推荐系统论文笔记】个性化推荐系统评价方法综述(了解概念——入门篇)

Overview of  the Evaluated Algorithms for the Personal Recommendation Systems   顾名思义,这篇中文论文讲述的是推荐系统的评价方法,也就是,如何去评价一个推荐系统的好与不好. 引言 1.个性化推荐系统通过建立用户与产品之间的二元关系 ,利用用户已有的选择过程或相似性关系挖掘每个用户潜在感兴趣的对象 ,进而进行个性化推荐 ,其本质就是信息过滤. 2.一个完整的推荐系统由3部分组成: 收集用户信息的行为记录模块: 分析用户

数据挖掘10大算法详细介绍

想初步了解下怎样数据挖掘,看到一篇不错的文章转载过来啦~ 转自:http://blog.jobbole.com/89037/ 在一份调查问卷中,三个独立专家小组投票选出的十大最有影响力的数据挖掘算法,今天我打算用简单的语言来解释一下. 一旦你知道了这些算法是什么.怎么工作.能做什么.在哪里能找到,我希望你能把这篇博文当做一个跳板,学习更多的数据挖掘知识. 还等什么?这就开始吧! 1.C4.5算法 C4.5是做什么的?C4.5 以决策树的形式构建了一个分类器.为了做到这一点,需要给定 C4.5 表