【数据分析&数据挖掘】三种数据标准化方式——离差标准化、标准差标准化&小数定标标准化

 1 import pandas as pd
 2 import numpy as np
 3
 4
 5 # 标准化----去除量级的影响
 6
 7 # 3种方式
 8 # (1)离差标准化
 9 # 将数据做线性变化,将数据映射到【0,1】范围内,
10 # x = (x - min) / (max - min)
11 # 过大或者过小的异常值都会对结果产生影响
12 # 容易受到异常值影响
13 def max_min_sca(data):
14     """
15     借助离差标准化 来标准化数据
16     :param data: 原数据
17     :return: 标准化之后的数据
18     """
19     data = (data - data.min()) / (data.max() - data.min())
20
21     return data
22
23
24 # (2)标准差标准化
25 # 借助 均值与标准差 对数据进行转换
26 # x = (x- mean) / std
27 def stand_sca(data):
28     """
29     标准差标准化
30     :param data:原数据
31     :return: 标准差之后的数据
32     """
33     data = (data - data.mean()) / data.std()
34
35     return data
36
37
38 # 10000个【10,20】  10000----均值影响不大,标准差影响不大
39 # 不容易受到异常值影响
40
41
42 # (3)小数定标标准化
43 # 通过移动小数位数来把数据转化到【-1,1】之间---数据分布规律不变
44 # x = x /10^k
45 # k ----->   向上取整(log10(|x|.max()))
46 def desc_sca(data):
47     """
48     小数定标标准化数据
49     :param data: 原数据
50     :return: 标准化之后的数据
51     """
52     data = data / (10 ** int(np.ceil(np.log10(data.abs().max()))))
53     return  data
54
55
56
57 # 验证:
58 detail = pd.read_excel("./meal_order_detail.xlsx")
59
60 print("detail 的列索引:\n", detail.columns)
61 # print("detail 的形状:\n", detail.shape)
62 print("未标准化之前:\n", detail.loc[:, "amounts"])
63 print("最大值与最小值:\n", detail.loc[:, "amounts"].max(), detail.loc[:, "amounts"].min())
64 print("标准化之后\n", max_min_sca(detail.loc[:, "amounts"]))
65 print("标准化之后\n", stand_sca(detail.loc[:, "amounts"]))
66 print("标准化之后\n", desc_sca(detail.loc[:, "amounts"]))

原文地址:https://www.cnblogs.com/Tree0108/p/12116093.html

时间: 2024-10-10 17:23:20

【数据分析&数据挖掘】三种数据标准化方式——离差标准化、标准差标准化&小数定标标准化的相关文章

大数据形势下的三种数据融合方式:组合、整合和聚合

一. 跨行业数据合作背景 国务院副总理马凯,曾经在2015贵阳国际大数据产业博览会中提到: 融合是大数据的价值所在,应大力推动大数据与产业融合,面向工业.交通.物流.商贸.金融.电信.能源等数据量大的行业领域,开展数据开发和交易,充分挖掘大数据的商业价值,促进产业提质增效升级. 另外,<大数据时代>的作者舍恩伯格,在该书中也提到一个观点:"大数据不是随机样本而是全体数据". 无论是从国家政府部门还是领域专家都不约而同的提到数据需要融合,数据融合才有价值. 二. 为什么需要数

25-2 三种数据解析方式

引言:回顾requests实现数据爬取的流程 指定url 基于requests模块发起请求 获取响应对象中的数据 进行持久化存储 其实,在上述流程中还需要较为重要的一步,就是在持久化存储之前需要进行指定数据解析.因为大多数情况下的需求,我们都会指定去使用聚焦爬虫,也就是爬取页面中指定部分的数据值,而不是整个页面的数据.因此,本次课程中会给大家详细介绍讲解三种聚焦爬虫中的数据解析方式.至此,我们的数据爬取的流程可以修改为: 指定url 基于requests模块发起请求 获取响应中的数据 数据解析

Python爬虫的三种数据解析方式

数据解析方式 - 正则 - xpath - bs4 数据解析的原理: 标签的定位 提取标签中存储的文本数据或者标签属性中存储的数据 正则 # 正则表达式 单字符: . : 除换行以外所有字符 [] :[aoe] [a-w] 匹配集合中任意一个字符 \d :数字 [0-9] \D : 非数字 \w :数字.字母.下划线.中文 \W : 非\w \s :所有的空白字符包,括空格.制表符.换页符等等.等价于 [ \f\n\r\t\v]. \S : 非空白 数量修饰: * : 任意多次 >=0 + :

python网络爬虫数据中的三种数据解析方式

一.正则解析 常用正则表达式回顾: 单字符: . : 除换行以外所有字符 [] :[aoe] [a-w] 匹配集合中任意一个字符 \d :数字 [0-9] \D : 非数字 \w :数字.字母.下划线.中文 \W : 非\w \s :所有的空白字符包,括空格.制表符.换页符等等.等价于 [ \f\n\r\t\v]. \S : 非空白 数量修饰: * : 任意多次 >=0 + : 至少1次 >=1 ? : 可有可无 0次或者1次 {m} :固定m次 hello{3,} {m,} :至少m次 {m

Oracle11g 三种数据同步方式

DataGurd: 主要备库的方式,就是数据库对数据库的备份方式,主要是解决容灾的. 流复制: 主要是利用ORACLE的归档日志,进行增量备份来实现的,不仅可以配置只复制某些表,还可以配置仅复制某些表上的ddl或dml.可以复制到表,用户,数据库级别. 高级复制: 主要是基于触发器的原理来触发数据同步的,因此,高级复制无法实现用户,数据库级别的对象复制,只能做些表.索引和存储过程的复制. 如果出于容灾整个数据库的考虑,高级复制相当复杂,而且并不一定能做好,流复制的配置相对简单.流复制是后来产生的

三种数据解析方式

数据解析: - 正则 - bs4 - xpath xpath在爬虫中的使用流程 -1. 下载: pip install lxml -2. 导包 from lxml import etree -3. 创建etree对象进行指定数据的解析 (如果HTML文件格式或语法有问题的话,etree对象会创建失败) -本地:etree=etree.parse('本地文件路径') etree.xpath('xpath表达式') -网络:etree=etree.HTML('网络请求到的页面数据") etree.x

android五种数据存储方式

在Android中提供了如下五种数据存储方式: SharedPreferences 文件存储 SQLite数据库方式 内容提供器(ContentProvider) 网络存储 下面具体介绍一下这五种数据存储方式的用法. 1. SharedPreferences SharedPreferences是android平台上的一个轻量级存储类,主要保存一些常用的配置信息.可以保存long.int.String类型数据. SharedPreferences以键值对方式读取和存入,最终会以XML方式保存数据,

LVS:三种负载均衡方式比较+另三种负载均衡方式

转:http://blog.csdn.net/u013256816/article/details/50705578 什么是LVS? ??首先简单介绍一下LVS (Linux Virtual Server)到底是什么东西,其实它是一种集群(Cluster)技术,采用IP负载均衡技术和基于内容请求分发技术.调度器具有很好的吞吐率,将请求均衡地转移到不同的服务器上执行,且调度器自动屏蔽掉服务器的故障,从而将一组服务器构成一个高性能的.高可用的虚拟服务器.整个服务器集群的结构对客户是透明的,而且无需修

iOS 常用四种数据存储方式

iOS 常用四种数据存储方式 在iOS开发过程中,不管是做什么应用,都会碰到数据保存的问题.将数据保存到本地,能够让程序的运行更加流畅, ,使得用户体验更好.下面介绍?一下数据保存的方式: 1.NSKeyedArchiver:采用归档的形式来保存数据,该数据对象需要遵守NSCoding协议,并且该对象对应的类必须提供encodeWithCoder:和initWithCoder:方法.前?一个方法告诉系统怎么对对象进行编码,而后?一个方法则是告诉系统怎么对对象进行解码.例如对Possession对