数据分析入门--https://cn.udacity.com/

试验用CSV数据字段说明
enrollments.csv:

 Data about a random subset of Data Analyst Nanodegree students who complete
their first project and a random subset of students who do not.

Columns:
   
- account_key:    A unique identifier for the account of the student who
 enrolled.
    
- status:         The enrollment status of the student at the time the data
 was collected. Possible values are ‘canceled‘ and
 ‘current‘.
    
- join_date:      The date the student enrolled.
    
- cancel_date:    The date the student canceled, or blank if the student has
 not yet canceled.
    
- days_to_cancel: The number of days between join_date and cancel_date, or
 blank if the student has not yet canceled.
    
- is_udacity:     True if the account is a Udacity test account, False
 otherwise.
    
- is_canceled:    True if the student had canceled this enrollment at the time the data was collected, False otherwise.
-------------------------------------------------------------------------------

daily_engagement.csv:

 Data about engagement within Data Analyst Nanodegree courses for each student in
the enrollment table on each day they were enrolled. Includes a record even if
there was no engagement
that day. Includes engagement data from both the
supporting courses for the Nanodegree program, and the corresponding freely
available courses with the same content.

Columns:
    
- acct:                  A unique identifier for the account of the student
 whose engagement data this is.
    
- utc_date:              The date for which the data was collected.
 
- num_courses_visited:   The total number of Data Analyst Nanodegree courses
 the student visited for at 2 minutes on this day.Nanodegree courses and freely available courses
 with the same
content are counted separately.
    
- total_minutes_visited: The total number of minutes the student spent
 taking Data Analyst Nanodegree courses on this day.
    
- lessons_completed:     The total number of lessons within Data Analyst
 Nanodegree courses on this day.
    
- projects_completed:    The total number of Data Analyst Nanodegree
 projects the student completed on this day.

-------------------------------------------------------------------------------

project_submissions.csv:
Data about submissions for Data Analyst Nanodegree projects for each student in
the enrollment table.

Columns:
    
- creation_date:    The date the project was submitted.
 - completion_date:  The date the project was evaluated.
    
- assigned_rating:  This column has 4 possible values:
                        
 blank       - Project has not yet been evaluated.
                 INCOMPLETE  - Project did not meet specifications.
                        
        PASSED   - Project met specifications.
                        
 DISTINCTION  - Project exceeded specifications.
                        
 UNGRADED  - The submission could not be evaluated
 (e.g. contained a corrupted file)
    
- account_key:      A unique identifier for the account of the student who submitted the project.
    
- lesson_key:       A unique identifier for the project that was submitted.
    
- processing_state: This column has 2 possible values:
                        
 CREATED  - Project has been submitted but not evaluated.
                        
 EVALUATED  - Project has been evaluated.

-------------------------------------------------------------------------------

daily_engagement_full.csv:

 Similar to daily_engagement.csv, but with engagement further broken down by
course and with more columns available. This file is about 500 megabytes, which
is why the smaller
daily_engagement.csv file was created. This dataset is
optional; it is not needed to complete the course.
In addition to the following columns, this table also contains all the same
columns as
daily_engagement.csv, except with has_visited instead of
num_courses_visited.

Columns:
    
- registration_date:  Date the account was registered.
    
- subscription_start: Date paid subscription for the account started.
    
- course_key:         Course in which activity is recorded.
- sibling_key:        Free course with the same free content as course_key.If course_key is a free course, course_key and
sibling_key are the same.
    
- course_title:       Title of the course.
    
- has_visited:        1 if the student visited this course for at least 2
 minutes on this day.
时间: 2024-08-04 03:52:44

数据分析入门--https://cn.udacity.com/的相关文章

Python数据分析入门

Python数据分析入门 最近,Analysis with Programming加入了Planet Python.作为该网站的首批特约博客,我这里来分享一下如何通过Python来开始数据分析.具体内容如下: 数据导入 导入本地的或者web端的CSV文件: 数据变换: 数据统计描述: 假设检验 单样本t检验: 可视化: 创建自定义函数. 数据导入 这是很关键的一步,为了后续的分析我们首先需要导入数据.通常来说,数据是CSV格式,就算不是,至少也可以转换成CSV格式.在Python中,我们的操作如

精品大数据分析资料大数据分析必备教程,大数据分析入门到精通全集教程分享

精品大数据分析资料,大数据分析入门到精通全集教程分享,看完工资至少涨到30K 资料获取方式,关注公总号RaoRao1994,查看往期精彩-所有文章,即可获取资源下载链接 更多资源获取,请关注公总号RaoRao1994 原文地址:https://www.cnblogs.com/raorao1994/p/10851911.html

冬至听雪分享——数据分析入门

本文关键词:数据分析基础,数据分析入门 数据分析是数据挖掘的基础,数据挖掘是数据分析的高级阶段! 数据分析,数据来源要客观,数据分析的过程要符合业务的规则,符合科学的方法. 数据分析是一个结构导向,业务解释性要好! # 数据分析的注意事项 1.所有数据分析要从结果出发,没有结论的数字罗列并不是分析 2.数据分析要建立在业务模型的基础上 3.数据分析是基于数据严谨的分析过程 1.什么是数据分析? 定义:使用统计方法对收集的大量数据进行分析.理解.达到业务分析的目的,获取有用的信息和结论而对数据进行

我的数据分析入门

从昨天开始抽空看了<一本书玩转数据分析>,以前虽然我也做过一些数据分析方面的工作,但是没有系统的了解过这方便的知识理论方法.看完这本书,做了简单笔记如下,可以作为了解数据分析的入门吧. 数据对应企业而言:深入了解业务情况:明确当前现状:把控当下,针对调整:预测未来发展趋势 数据对决策而言:有助于客户关系管理:挖掘潜在客户:提高用户黏度:控制企业成本:把控当下成本:减少存货,降低损耗,提高资源利用:管理员工绩效:知晓员工工作状态:了解员工绩效差异 数据的重要性:有助于监督管理,能够客观反映问题,

python数据分析入门学习笔记儿

学习利用python进行数据分析的笔记儿&下星期二内部交流会要讲的内容,一并分享给大家.博主粗心大意,有什么不对的地方欢迎指正~还有许多尚待完善的地方,待我一边学习一边完善~ 前言:各种和数据分析相关python库的介绍(前言1~4摘抄自<利用python进行数据分析>) 1.Numpy: Numpy是python科学计算的基础包,它提供以下功能(不限于此): (1)快速高效的多维数组对象naarray (2)用于对数组执行元素级计算以及直接对数组执行数学运算的函数 (3)用于读写硬盘

python数据分析入门笔记[1]

1.Numpy: Numpy是python科学计算的基础包,它提供以下功能(不限于此): (1)快速高效的多维数组对象naarray (2)用于对数组执行元素级计算以及直接对数组执行数学运算的函数 (3)用于读写硬盘上基于数组的数据集的工具 (4)线性代数运算.傅里叶变换,以及随机数生成 (5)用于将C.C++.Fortran代码集成到python的工具 2.pandas pandas提供了使我们能够快速便捷地处理结构化数据的大量数据结构和函数.pandas兼具Numpy高性能的数组计算功能以及

Python数据分析入门与实践

<section>课程地址 http://icourse8.com/Python3rumenyushizhan.html </section> 章节详情第1章 实验环境的搭建 第2章 Numpy入门 第3章 Pandas入门 第4章 Pandas玩转数据 第5章 绘图和可视化之Matplotlib 第6章 绘图和可视化之Seaborn 第7章 数据分析项目实战 第8章 课程总结 class Solution { public String longestCommonPrefix(S

Python数据分析入门与实践 学习 资源??

pandas是一个Python语言的软件包,在我们使用Python语言进行机器学习编程的时候,这是一个非常常用的基础编程库.本文是对它的一个入门教程. pandas提供了快速,灵活和富有表现力的数据结构,目的是使“关系”或“标记”数据的工作既简单又直观.它旨在成为在Python中进行实际数据分析的高级构建块. 入门介绍 pandas适合于许多不同类型的数据,包括: 具有异构类型列的表格数据,例如SQL表格或Excel数据 有序和无序(不一定是固定频率)时间序列数据. 具有行列标签的任意矩阵数据(

分析思维 第四篇:数据分析入门阶段——描述性统计分析和相关分析

数据分析的入门思维,首先要认识数据,然后对数据进行简单的分析,比如描述性统计分析和相关性分析等. 一,认识变量和数据 变量和数据是数据分析中常用的概念,用变量来描述事物的特征,而数据是变量的具体值,把变量的值也叫做观测值. 1,变量 变量是用来描述总体中成员的某一个特性,例如,性别.年龄.身高.收入等. 变量可以分为: 定性变量:用于分类,一般是文本,例如,性别.颜色 定序变量:用于表示等级或次序的变量,例如,学历,职位,排名等,变量的值可以把事务排列为高低或大小,但是各个变量值之间没有确切的间