数据集网站收集(可用于机器学习,数据挖掘等,持续更新)

数据集网站收集(持续更新)

1.Kaggle: https://www.kaggle.com/

  • 可以按关键字搜索数据集
  • 自带讨论区
  • 有热心群众分享自己的Kernel,可供参考(热心群众们自己对数据的分析代码)

2.天池: https://tianchi.aliyun.com/competition/gameList/algorithmList

  • 包括阿里系公司(淘宝,饿了么)的部分业务数据(不是很全,只作为赛题数据)
  • 需要登录才可以下载

2.UCI Machine Learning Repositoryhttp://archive.ics.uci.edu/ml/datasets.php

  • 可以按关键字搜索数据集
  • 可以按任务类型(用于分类,回归,聚类),数据类型(文本,时序),领域(工程,CS,商业),特征数量等进行筛选

3.美国政府开放数据Data.gov https://www.data.gov/

  • 可以按关键字搜索数据集
  • 分为农业,气候,教育等多个主题

4.中国国家统计局 http://data.stats.gov.cn/easyquery.htm?cn=A01

  • 需要登录
  • 网站自带一定的可视化功能
  • 数据可导出为csv,pdf等格式
  • 包括国家的工业,农业,运输业,经济等方方面面的数据
  • 可以自行选择数据的时间跨度,例如按年导出(2015-2019工业年产值),按月导出(2015.2-2020.2铁路旅客运输量)

原文地址:https://www.cnblogs.com/Wade-/p/12695081.html

时间: 2024-10-16 13:51:58

数据集网站收集(可用于机器学习,数据挖掘等,持续更新)的相关文章

Android 自己收集的开源项目集合(持续更新 2018.2.5)

2017.12.21 1.仿QQ说说发图片选择框架 https://github.com/yaozs/ImageShowPicker 2.炫酷开屏动画框架 https://github.com/JoshuaRogue/FancyView 3.防京东,支付宝密码键盘和密码输入框 https://github.com/GitPhoenix/Keyboard 4.根据银行卡号 获取 银行卡类型.银行名称和银行编码 自动格式化银行卡号.手机号.身份证号输入的工具类 https://github.com/

IOS开发--常用工具类收集整理(Objective-C)(持续更新)

前言:整理和收集了IOS项目开发常用的工具类,最后也给出了源码下载链接. 1.让图片不要渲染的工具类 简介:   直接看这个工具类的源码就知道,怎么设置了: 1 // 2 // UIImage+Render.h 3 // Created by HeYang on 16/1/18. 4 // Copyright © 2016年 HeYang. All rights reserved. 5 // 6 7 #import <UIKit/UIKit.h> 8 9 @interface UIImage

机器学习&amp;数据挖掘笔记_16(常见面试之机器学习算法思想简单梳理)

http://www.cnblogs.com/tornadomeet/p/3395593.html 机器学习&数据挖掘笔记_16(常见面试之机器学习算法思想简单梳理) 前言: 找工作时(IT行业),除了常见的软件开发以外,机器学习岗位也可以当作是一个选择,不少计算机方向的研究生都会接触这个,如果你的研究方向是机器学习/数据挖掘之类,且又对其非常感兴趣的话,可以考虑考虑该岗位,毕竟在机器智能没达到人类水平之前,机器学习可以作为一种重要手段,而随着科技的不断发展,相信这方面的人才需求也会越来越大.

Python 网页爬虫 &amp; 文本处理 &amp; 科学计算 &amp; 机器学习 &amp; 数据挖掘兵器谱(转)

原文:http://www.52nlp.cn/python-网页爬虫-文本处理-科学计算-机器学习-数据挖掘 曾经因为NLTK的缘故开始学习Python,之后渐渐成为我工作中的第一辅助脚本语言,虽然开发语言是C/C++,但平时的很多文本数据处理任务都交给了Python.离开腾讯创业后,第一个作品课程图谱也是选择了Python系的Flask框架,渐渐的将自己的绝大部分工作交给了Python.这些年来,接触和使用了很多Python工具包,特别是在文本处理,科学计算,机器学习和数据挖掘领域,有很多很多

【Python】Python 网页爬虫 &amp; 文本处理 &amp; 科学计算 &amp; 机器学习 &amp; 数据挖掘兵器谱

好文 mark http://www.52nlp.cn/python-%E7%BD%91%E9%A1%B5%E7%88%AC%E8%99%AB-%E6%96%87%E6%9C%AC%E5%A4%84%E7%90%86-%E7%A7%91%E5%AD%A6%E8%AE%A1%E7%AE%97-%E6%9C%BA%E5%99%A8%E5%AD%A6%E4%B9%A0-%E6%95%B0%E6%8D%AE%E6%8C%96%E6%8E%98 曾经因为NLTK的缘故开始学习Python,之后渐渐成为我工

[resource-]Python 网页爬虫 &amp; 文本处理 &amp; 科学计算 &amp; 机器学习 &amp; 数据挖掘兵器谱

reference: http://www.52nlp.cn/python-%e7%bd%91%e9%a1%b5%e7%88%ac%e8%99%ab-%e6%96%87%e6%9c%ac%e5%a4%84%e7%90%86-%e7%a7%91%e5%ad%a6%e8%ae%a1%e7%ae%97-%e6%9c%ba%e5%99%a8%e5%ad%a6%e4%b9%a0-%e6%95%b0%e6%8d%ae%e6%8c%96%e6%8e%98 一.Python网页爬虫工具集 一个真实的项目,一定是

程序员用于机器学习编程的Python 数据处理库 pandas 入门教程

入门介绍 pandas适合于许多不同类型的数据,包括: · 具有异构类型列的表格数据,例如SQL表格或Excel数据 · 有序和无序(不一定是固定频率)时间序列数据. · 具有行列标签的任意矩阵数据(均匀类型或不同类型) · 任何其他形式的观测/统计数据集. 由于这是一个Python语言的软件包,因此需要你的机器上首先需要具备Python语言的环境.关于这一点,请自行在网络上搜索获取方法. 关于如何获取pandas请参阅官网上的说明:pandas Installation. 通常情况下,我们可以

程序员用于机器学习编程的Python 数据处理库 pandas 进阶教程

数据访问 在入门教程中,我们已经使用过访问数据的方法.这里我们再集中看一下. 注:这里的数据访问方法既适用于Series,也适用于DataFrame. **基础方法:[]和. 这是两种最直观的方法,任何有面向对象编程经验的人应该都很容易理解.下面是一个代码示例: # select_data.py import pandas **as** pd import numpy **as** np series1= pd.Series([1, 2, 3, 4, 5, 6, 7], index=["C&qu

WEB前端常用网站收集

WEB前端常用网站收集整理 王牌网站 w3school 菜鸟教程 RUNOOB NEC更好的CSS方案 前端里 脚本之家 17素材 frontopen JS实例 CSS整理与优化工具 图标类http://www.easyicon.net/http://findicons.com/http://preloaders.net/ 分享按钮,同时支持PC端和移动端前端导航站(公共库) 网页模板模板之家模板王 展示类WHYCSS 其他博客空间A Good User Interface张鑫旭 梦想天空 bo