Mooc数据分析-01基本内容和表示

1 基本

1.1 基本介绍

  掌握表示, 清洗, 统计和展示数据的能力

  Numpy, Matplotlib, Pandas, Projects

  摘要: 有损的提取数据特征的过程

  可以将一组数据, 摘要出

    1) 基本统计(排序)

    2) 分布/累计统计

    3) 数据特征 相关性, 周期性等

    4) 数据挖掘(形成知识)

1.2 Anaconda

  Anaconda是数据分析的基本工具

  具体有

    1) 开源免费

    2) 支持800多个第三方库

    3) 包含多个主流工具

    4) 适合数据计算领域开发

    5) 全平台支持

  Anaconda是一个集成各类Python工具的集成平台

  Anaconda本身不是一个开发工具, 而是一个平台

  Anaconda是基于conda这个包管理和环境管理工具的

  conda是一个工具, 用于包管理和环境管理, 与pip类似, 管理Python第三方库, 允许多用户使用不同版本Python, 并且能灵活切换

  anaconda = conda + Python + 第三方库

  1) conda

  conda的命令行使用方式(conda推出的时候推荐使用方式):

    检测conda版本

conda --version

    更新conda

conda update conda

  在Anaconda中的conda的图形化方式:

    打开Anaconda, 可以找到Environments, 默认生成了一个叫做root的环境空间, 这就是conda的图形界面形式, 里面列好了安装和未安装的包

    还可以通过新建一个环境空间, 配置新的环境

  2) Spyder

  这个Anaconda集成的一个编程工具

  可以找home中找到spyder, 点击launch打开

  默认打开方式界面有三个区域, 分别是坐车的编辑区, 右上的文件导航和帮组区, 右下是IPython区

    

  可以修改界面区域设置

  也可以设置编辑区的主题

    Tools -> preference -> Syntax coloring -> Scheme -> Monokai

  IPython是一个功能强大的交互式shell

  适合交互式数据可视化

  适合GUI相关应用

  IPython的使用技巧

    可以在变量后面加上? 来查看具体信息

    IPython的输入提示前面有 In 表示提示输入, Out 表示输出, 后面中括号里面的是输入命令的序号

    直接在命令行中执行py文件

%run py文件 

    %魔术命令

    

  IPython事实上提供了交互接口, 具体执行还是Python内核

2  Numpy入门

2.1 数据的维度

  维度: 一组数据的组织形式

    一维数据: 沿着一个方向(X轴)展开

      一维数据由对等的, 有序或者无序的 数据构成, 采用线性方式组织

      可以列表, 数组, 集合等表示

      列表与数组基本相似, 只有一点不同, 数组内的数据类型是一致的, 但是列表不要求数据类型一致

    二维数据: 沿着两个方向(X轴, Y轴)展开(类似表格)

      由多个一维数据构成, 是一维数据的组合形成

      可用列表形式表示

    多维数据

      由一维或者二维数据在新维度上扩展形成

      可用字典, 列表形式表示

2.2 ndarray

  NumPy是一个开元的Python科学计算基础库, 内含:

    1) N维数组对象 ndarray

    2) 广播功能函数, 用于在数组之间进行计算

    3) 整合c/c++/Fortran代码工具

    4) 线性代数, 傅里叶变换, 随机数生成

  NumPy是SciPy, Panda是等数据处理或者科学计算库的基础

  引用NUmPy

import numpy as np

  np是一个约定俗成的别名

  ndarray

    是NumPy中用作N维数组对象

    与列表相比, 有更适合科学计算的特点

      1) ndarray内的数据是同一类型, 因此可以整体对该类型进行操作, 更加贴近使用

      

      2) 经过优化, 可以提升基于这个特点的运算速度

      3) 基于这个特点, 可以节省运算和存储空间(因为类型相同)

    由两部分构成

      1) 实际的数据

      2) 描述这些数据的元数据(数据维度, 数据类型等)

    一般要求所有元素的类型是相同的

    数组的下表是从0开始的

    两个基本概念

      1) 轴(axis) 保存数据的维度 在轴上, 每个数据存储在其中

      2) 秩(rank) 轴的数量(数据类型有多少个维度)

    对象的属性

      

    ndarray支持的元素类型

      

      

      

    这样的精确定义可以使得对存储空间有一个更好的优化, 也可以帮组估计程序的规模

    另外, 尽量在定义ndarray的时候使用同质的对象, 也就是元素的个数相同

    如果不同质, 那么ndarray会把整个元素当成一个对象

2.3 ndarray数组的创建和变换

  创建ndarray的四种方式

    1) 使用列表, 元组

    2) 使用NumPy穿件ndarray数组, 如arange, ones, zeros

    3) 从字节流(raw bytes)中创建

    4) 从文件中读取特定格式

  1) 使用列表, 元组创建

变量名 = np.array(列表或者元组类型数据, dtype=np.类型)

    其中可以不指定dtype, 这样NumPy会根据输入的内容来自动判断使用什么样的数据类型

    

  2) 最常用的方法, 使用NumPy穿件ndarray数组

    

    

    

    

    

    由于浮点数在科学计算中的普遍性, 基本上创建出的都默认使用浮点数作为类型

  

  

      

      

    

  

          

    

      

  

  

    

时间: 2024-11-09 18:29:25

Mooc数据分析-01基本内容和表示的相关文章

专业人士告诉你数据分析的工作内容是什么?

很多人听说过数据分析这个工作,也听说过了数据分析师的高薪资和高待遇,,但是对于数据分析师的工作内容不是很清楚,一般来说,数据分析工作说简单也简单,说难也难,具体总结起来就是5个问题.这五个问题就是数据分析工作的具体内容,那么这五个问题是什么呢?它包含以下方面:分析什么数据.什么时候分析数据.从哪里获得数据.采用什么分析工具进行分析数据.怎么分析数据,只要时刻记得这五个问题,才能够有规划有条理地分析数据. 1.分析什么数据 我们在分析数据的时候一定要先明确好我们分析的是什么数据,一般来说,确定好分

[学习笔记] [数据分析] 01.Python入门

1.安装Python与环境配置 ① ② 安装pip以及利用pip安装Python库 2.Anaconda安装 conda list 要在root环境下 3.常用数据分析库 ① Numpy 安装:conda install numpy (conda在Anaconda上安装,pip则是在本地上安装) 提供常用的数值.数组.矩阵函数. 基于"向量化"的运算,进行数值运算时比list高. ② Scipy 安装:conda install scipy 是一种使用NumPy来做高等数学.信号处理.

Mooc机器学习-01机器学习

1 关于机器学习 机器学习是实现人工智能的手段, 其主要研究内容是如何利用数据或经验进行学习, 改善具体算法的性能 多领域交叉, 涉及概率论.统计学, 算法复杂度理论等多门学科 广泛应用于网络搜索.垃圾邮件过滤.推荐系统.广告投放.信用评价.欺诈检测.股票交易和医疗诊断等应用 机器学习的分类 监督学习 (Supervised Learning) 从给定的数据集中学习出一个函数, 当新的数据到来时, 可以根据这个函数预测结果, 训练集通常由人工标注 无监督学习 (Unsupervised Lear

Mooc数据分析-02数据展示

主要内容是Matplotlib库的基本使用和方法 1 Matplotlib库 1.1 Matplotlib的介绍 Python优秀的数据可视化第三方库 数据可视化就是将数据以特定的图形图像的方式展示出来, 使数据更加的直观明了 范例网站 Matplotlib库是由各种可视化类构成, 内部结构复杂 为了简洁使用, 可以使用matplotlib.pyplot这个绘制各类可视化图形的命令子库, 类似于快捷方式的库来简化操作 导入 import matplotlib.pyplot as plt 同样pl

Mooc软件工程-01软件基础和软件过程

1 软件的概念 含义 软件 = code + data + documents 也就是软件的代码, 软件相关的输入输出等数据, 和一切相关的文档 特点 抽象的, 无形的, 逻辑实体 不会被磨损 可以移植 软件是复杂的, 难设计难实现难维护 软件是昂贵的 2 软件危机和软件工程 软件危机 进度成本估算不准确 用户通常对完成的产品不满意 软件的质量通常是不可靠的 软件的可维护性差 没有可用文档 在计算机的比例越来雨大, 但是跟不上计算机的发展 软件工程 软件的实现是一个团队完成的, 这是一个工程项目

韩顺平循序渐进学java 第01讲 内容介绍.项目演示.原理剖析

1.1 课程介绍 1)      Java面向对象编程 2)      Java图形界面 3)      Java数据库编程 4)      Java文件io流 5)      Java网络编程 6)      Java多线程 1.2 Java语言特点 1)      Java语言是简单的: 2)      Java语言是面向对象的: 3)      Java语言是跨平台(操作系统:Mac OS X.windows.linux)的(即一次编译,到处运行): 4)      Java语言是高性能的

Spark快速大数据分析 01

==Spark的发展介绍== ==一个大一统的软件栈== Spark核心 计算引擎 对由很多计算任务组成的.运行在多个工作机器或者是一个计算集群上的应用调度.分发以及监控的计算引擎 速度快.通用 Spark项目包含多个密切组成的组件 优点1:软件栈中所有的程序库和高级组件都可以从下层的改进中获益 优点2:运行整个软件栈的代价变小了 优点3:能够构建出无缝整合不同处理模型的应用 Spark的各个组件 ![](http://images2017.cnblogs.com/blog/1297416/20

大数据分析01——数据爬取

2020.3.22 pycharm:使用python进行爬取,并存储到文件 1.爬取网页的通用代码框架 1 try: 2 r = requests.get(url, timeout = 30) 3 r.raise_for_status() 4 r.encoding = r.apparent_encoding 5 return r.text 6 except: 7 return "产生异常" 养成编写爬虫用try-except的方式来保证网络连接异常能被有效处理的习惯. 2. 原文地址:

Python数据分析入门

Python数据分析入门 最近,Analysis with Programming加入了Planet Python.作为该网站的首批特约博客,我这里来分享一下如何通过Python来开始数据分析.具体内容如下: 数据导入 导入本地的或者web端的CSV文件: 数据变换: 数据统计描述: 假设检验 单样本t检验: 可视化: 创建自定义函数. 数据导入 这是很关键的一步,为了后续的分析我们首先需要导入数据.通常来说,数据是CSV格式,就算不是,至少也可以转换成CSV格式.在Python中,我们的操作如