【数据挖掘】数据集获取

UCI:加州大学欧文分校开放的经典数据集,被很多数据挖掘实验室采用。

http://archive.ics.uci.edu/ml/datasets.html

CEIC:超过128个国家的经济数据,能精确查找GDP、进出口零售,销售等深度数据。

http://www.ceicdata.com/zh-hans

国家数据:数据来源于中国国家统计局,包含了我国经济民生等多个方面的数据。

http://data.stats.gov.cn/

中国统计信息网:国家统计局官方网站,汇集了国民经济和社会发展统计信息。

http://www.tjcn.org/

优易数据:由国家信息中心发起,国内领先的数据交易平台,很多免费数据。

http://www.youedata.com/

原文地址:https://www.cnblogs.com/blastbao/p/8306416.html

时间: 2024-10-22 14:00:19

【数据挖掘】数据集获取的相关文章

数据挖掘一般过程

目录 1.数据集选取 2.数据预处理 (1)数据清理 (2)数据集成 (3)数据归约 (4)数据变换和数据离散化 3.数据分析算法 4.分析总结改进 这学期提前选课学习了Data Mining,最近提交了论文已经彻底结了.想来想去还是写点东西记一下,假如以后能用上呢?仅供参考哈 参考书:<数据挖掘概念与技术>  Jiawei Han 等著 首先一些基本概念还是要了解一下的,数据挖掘是从大量数据中挖掘出有趣模式和知识的过程.数据源一般是数据库.数据仓库.Web等,得到的数据称为数据集(datas

tensorflow中导入下载到本地的mnist数据集

mnist数据集获取:可从Yann LeCun教授管网获取; tensorflow中可使用input_data.read_data_sets("/worker/mnistdata/", one_hot = True) 导入下载到本地的mnist数据集; "/worker/mnistdata/"为数据集存放的位置. import tensorflow as tf from tensorflow.examples.tutorials.mnist import input

Python读取MNIST数据集

MNIST数据集获取 MNIST数据集是入门机器学习/模式识别的最经典数据集之一.最早于1998年Yan Lecun在论文: Gradient-based learning applied to document recognition. 中提出.经典的LeNet-5 CNN网络也是在该论文中提出的. 数据集包含了0-9共10类手写数字图片,每张图片都做了尺寸归一化,都是28x28大小的灰度图.每张图片中像素值大小在0-255之间,其中0是黑色背景,255是白色前景.如下图所示: MNIST共包

FineBI学习系列之FineBI与Spark数据连接(图文详解)

不多说,直接上干货! 这是来自FineBI官网提供的帮助文档 http://help.finebi.com/http://help.finebi.com/doc-view-581.html 目录: 1.描述 2.操作 3.注意事项 1.描述 Spark是一种通用的大数据快速处理引擎.Spark使用Spark RDD. Spark SQL. Spark Streaming. MLlib. GraphX成功解决了大数据领域中离线批处理.交互式查询.实时流计算.机器学习与图计算等最重要的任务和问题.S

1.文献研读---基于行为分析的在线课程成绩预测模型-任占广.尚福华

研究对象 “玩课网”平台的重庆文理学院“大学生计算机基础”课程的学习数据 研究动机 为了更加科学的分析在线学习行为和准确的预测在线课程成绩,本文提出了一种基于行为分析的在线课程成绩预测模型. 文献综述 该研究是利用数据挖掘技术,收集学生在线学习行为数据并利用神经网络实现在线课程成绩预测的一种模型. 研究方案设计 1.模型构建:包括数据采集.数据分析.数据处理到成绩预测的整个过程. 2.在线学习行为分析:包括行为构成要素分析.行为交互方式分析以及行为操作方式分析三个方面. 3.实验:1)数据分析与

机器学习实战精读--------FP-growth算法

从数据集获取有趣信息的方法:常用的两种分别是频繁项集和关联规则. FP-growth:虽然可以高效的发现频繁项集,但是不能用于发现关联规则. FP-growth算法只需要对数据库进行两次扫描,速度要比Apriori算法块. FP-growth发现频繁项集的基本过程: ① 构建FP树 第一遍 对所有元素项的出现次数进行技术,用来统计出现的频率. 第二遍 只考虑哪些频繁元素 ② 从FP树种挖掘频繁项集. 从FP树种抽取频繁项集的三个基本步骤: ① 从FP树种获得条件模式基 ② 利用条件模式基,构建一

【转】机器学习教程 十四-利用tensorflow做手写数字识别

模式识别领域应用机器学习的场景非常多,手写识别就是其中一种,最简单的数字识别是一个多类分类问题,我们借这个多类分类问题来介绍一下google最新开源的tensorflow框架,后面深度学习的内容都会基于tensorflow来介绍和演示 请尊重原创,转载请注明来源网站www.shareditor.com以及原始链接地址 什么是tensorflow tensor意思是张量,flow是流. 张量原本是力学里的术语,表示弹性介质中各点应力状态.在数学中,张量表示的是一种广义的"数量",0阶张量

【转】如何快速入门网站数据分析与运营?

原文链接:http://www.36dsj.com/archives/66362 一.如何入门互联网数据分析 1.网站分析是一种能力36大数据(http://www.36dsj.com/) 对于大部分人互联网从业者而言,网站分析是一种能力,因为基于网站分析之上的结论可以指导运营.产品.设计.技术的同事的工作. 2.网站分析解决的问题36大数据(http://www.36dsj.com/) 即分析出:36大数据(http://www.36dsj.com/) 用户是谁(目标用户), 从哪里来(流量从

Android常用Adapter用例(二)

Android适配器之-----SimpleAdapter 结构 继承关系 public interface SpinnerAdapter extends Adapter java.lang.Object android.widget.BaseAdapter android.widget. SpinnerAdapter 类概述 这是一个简单的适配器,可以将静态数据映射到XML文件中定义好的视图.你可以指定数据支持的列表如ArrayList组成的Map.在ArrayList中的每个条目对应List