数据分析概览01:读《深入浅出数据分析》

题记:完全不懂数据分析,统计也忘了差不多的小白开始学习数据分析。

读了《深入浅出数据分析》,对数据分析有了一个大致的了解。书中讲的每个章节都需要翻大量的资料继续学习。这本书是一个指引(索引)。

1.数据分析的流程

确定目标或者问题-->分解问题,从而分解数据-->评估问题,总结结论-->指导决策

数据分析的思路是这样,数据分析报告也需要这么写。

2.实验

实验能够帮助分析。实验过程中要加入控制组,便于发现实验的结论。用随机选择控制组是一个比较好的方法。

3.最优化

最优化问题主要有三部分组成:决策变量,约束条件和目标函数

4.数据图形化

数据图形化在数据分析过程中能够更好地发现问题,在数据报告中能够更好地展示问题或结论。

散点图:用于展示两种变量的因果关系;其实散点图只能展示两种变量的相关性,其中的因果还需要运用其他的东西来分析。(空心圆能够更好地表示重叠关系。)

多元散点图:多种变量的关系。

直方图:展示数据的分布情况。

5.假设检验(不懂)

6.贝叶斯统计(不懂)

相关topic:基础概率和波动数学。

7.主观概率(不懂)

标准偏差评估数据。

用贝叶斯修正主观概率。

8.启发式(不懂)

9.回归·预测

回归加上控制实验能够预测未来。

回归线:贯穿平均值的直线,能用相关性系数来评估回归线。

回归线有线性和非线性。

10.合理误差

误差范围,使得用户不仅知道预测值还能知道误差的范.围,使得预测更加可信。

预测过程中要注意数据的阈值范围,超过阈值范围的预测很不准确。

均方根误差评估预测的准确性。

通过分段预测和评估可以控制误差。

11.数据整理

Excel和正则表达式非常有用。

整理完数据还要查看数据的重复性等问题。

12.附录(告诉我还需要看啥)

1)统计学

2)Excel

3)耶鲁大学教授Edward Tufte图形原则

4)非线性及多元回归

5)原假设——备择假设

参考《深入浅出统计学》

6)随机性

7)google Docs可以绘图和访问实时数据库

8)专业技能

时间: 2024-07-28 15:29:20

数据分析概览01:读《深入浅出数据分析》的相关文章

《深入浅出数据分析》读后具体解释

<深入浅出数据分析>为数据挖掘入门级教材.通篇以一个化妆品公司Acme为典型案例,分析了从数据分析到决策的全过程.本篇为读后总结,增加自己的练习回答.同一时候贴出书中答案.供对照. 第一部分 高效读书 1.人的大脑会拼命阻止普通.常规.一般的事情,以免干扰自己记录重要的事情. 不是每件事情都如同洪水猛兽般突然.紧急.重要,因此虽然理性上你觉得这件事很重要,可是大脑会习惯性地阻止.有两种方法让大脑像吃人的老虎一样记住知识: 一.缓慢而乏味--反复灌输. 二.迅速而有效--做一切促进不同类型大脑活

《深入浅出数据分析》笔记

刚准备转行数据分析的时候看过一本书叫<深入浅出数据分析>,非常通俗易懂,是我数据分析的启蒙书籍~分享下当时的笔记,书里的案例经常会在我之后的工作中给我灵感.同系列有一本<深入浅出统计学>,也写的很棒,公式较多所以是做的纸质版的笔记,以后也会分享. Chapter 1 数据分析引言 分解数据 需求:如何提升销量 主要内容:数据分析的流程,统计模型与心智模型. 1.数据分析的流程: 确定:了解问题.客户将帮助你确定问题. 分解:分解问题和数据,让他成为更小的组成部分.找出高效的比较因子

深入浅出数据分析pdf

下载地址:网盘下载 内容简介  · · · · · · <深入浅出数据分析>以类似"章回小说"的活泼形式,生动地向读者展现优秀的数据分析人员应知应会的技术:数据分析基本步骤.实验方法.最优化方法.假设检验方法.贝叶斯统计方法.主观概率法.启发法.直方图法.回归法.误差处理.相关数据库.数据整理技巧:正文以后,意犹未尽地以三篇附录介绍数据分析十大要务.R工具及ToolPak工具,在充分展现目标知识以外,为读者搭建了走向深入研究的桥梁. 本书构思跌宕起伏,行文妙趣横生,无论是职

Python数据分析基础与实践 Python数据分析实践课程 Python视频教程

课程简介: Python数据分析基础与实践 Python数据分析实践课程 Python视频教程----------------------课程目录------------------------------├<章节1Python概况>├<章节2Python安装>├<章节3数据准备>├<章节4数据处理>├<章节5数据可视化>├<章节6网页数据抓取>├<章节7连接MySQL>├<章节8数据分析> 下载地址:百度网盘

【python数据分析实战】电影票房数据分析(一)数据采集

目录 1.获取url 2.开始采集 3.存入mysql 本文是爬虫及可视化的练习项目,目标是爬取猫眼票房的全部数据并做可视化分析. 1.获取url 我们先打开猫眼票房http://piaofang.maoyan.com/dashboard?date=2019-10-22 ,查看当日票房信息, 但是在通过xpath对该url进行解析时发现获取不到数据. 于是按F12打开Chrome DevTool,按照如下步骤抓包 再打开获取到的url:http://pf.maoyan.com/second-bo

【python数据分析实战】电影票房数据分析(二)数据可视化

目录 图1 每年的月票房走势图 图2 年票房总值.上映影片总数及观影人次 图3 单片总票房及日均票房 图4 单片票房及上映月份关系图 在上一部分<[python数据分析实战]电影票房数据分析(一)数据采集> 已经获取到了2011年至今的票房数据,并保存在了mysql中. 本文将在实操中讲解如何将mysql中的数据抽取出来并做成动态可视化. 图1 每年的月票房走势图 第一张图,我们要看一下每月的票房走势,毫无疑问要做成折线图,将近10年的票房数据放在一张图上展示. 数据抽取: 采集到的票房数据是

《深入浅出数据分析》-利用Excel的Solver求橡皮玩具的最大利润

背景:一玩具厂可以生产两种浴盆玩具,分别是橡皮鸭和橡皮鱼,并且原材料和生产时间都有所限制,求如何才分配生产两种玩具的数量才可以让厂商达到最大利润. 假设条件如下: 产品名称 数量   duck a   fish b   产品名称 单位所需材料数量   duck 100   fish 125   总需材料数量 100a+125*b   库存材料数量 50000   产品名称 单位利润   duck 5$   fish 4$   总利润 a*5+b*4   图1 表格数据解析:假设生产一只橡皮鸭需要

SQL数据分析概览——Hive、Impala、Spark SQL、Drill、HAWQ 以及Presto+druid

转自infoQ! 根据 O'Reilly 2016年数据科学薪资调查显示,SQL 是数据科学领域使用最广泛的语言.大部分项目都需要一些SQL 操作,甚至有一些只需要SQL. 本文涵盖了6个开源领导者:Hive.Impala.Spark SQL.Drill.HAWQ 以及Presto,还加上Calcite.Kylin.Phoenix.Tajo 和Trafodion.以及2个商业化选择Oracle Big Data SQL 和IBM Big SQL,IBM 尚未将后者更名为"Watson SQL&q

数据分析文章待读

<实时分析系统(HIVE/HBASE/IMPALA)浅析><MPP DB 是 大数据实时分析系统 未来的选择吗?><一套数据,多种引擎(impala/Hive/kylin)><一套数据,多种引擎续---两种数据格式(Parquet/ORCfile)浅析>有兴趣可以看看.