下面是美国UCI机器学习中心提供的数据集:
http://archive.ics.uci.edu/ml/
感觉对自己比较有用的:
E-learning数据挖掘、学习分析可用的数据集:http://archive.ics.uci.edu/ml/datasets/Educational+Process+Mining+%28EPM%29%3A+A+Learning+Analytics+Data+Set
学生的基本信息,用于学生学业表现预测:http://archive.ics.uci.edu/ml/datasets/Student+Performance
有情感标注的语句数据集,可用于情感分析:http://archive.ics.uci.edu/ml/datasets/Sentiment+Labelled+Sentences
汽车评价和酒店评价的数据集,这个是文本评价,比较遗憾的是没有评价用户的信息:http://archive.ics.uci.edu/ml/datasets/OpinRank+Review+Dataset
饭店评价的数据集,有饭店信息、用户信息,评分信息。数据量比较小,可用于(上下文)推荐系统的研究:
http://archive.ics.uci.edu/ml/datasets/Restaurant+%26+consumer+data
38000位用户在一周之内访问网站 www.microsoft.com的信息。对每个用户,列出了其访问该网站的所有领域。用户用id标识,没有其他用户信息,数据较老(1998年)。可用于推荐系统研究:http://archive.ics.uci.edu/ml/datasets/Anonymous+Microsoft+Web+Data
sina微博的数据集,包括用户信息,微博信息,微博转发等信息:http://archive.ics.uci.edu/ml/datasets/microblogPCU
stanford dataset全集
http://snap.stanford.edu/data/
有很多数据集,覆盖种类也较多