列处理——归一化

pandas

all_columns = list(food_info.columns.values)
#the first two columns don‘t need to be normalized
all_columns = all_columns[2:len(all_columns)]
for column in all_columns:
    food_info[column] = food_info[column] / food_info[column].max()
时间: 2024-10-08 09:46:48

列处理——归一化的相关文章

Pandas(python)数据处理:只对某一列DataFrame数据进行归一化

处理数据要用到Pandas,但是没有学过,不知道是否有直接对某一列归一化的方法调用.自己倒弄了下.感觉还是比较麻烦. 使用Pandas读取到数组之后想把其中的'MonthlyIncome'一列进行归一化,网上的栗子都是对整个dataframe进行归一化,因为我的数据有些列是类别,不能使用: import pandas as pd import numpy as np #加载数据 #cvs df = pd.read_csv("train1.csv") #规格化 s = (df['Mont

推荐系统(recommender systems):均值归一化(mean normalization)

均值归一化可以让算法运行得更好. 现在考虑这样一个情况:一个用户对所有的电影都没有评分,即上图所示 的Eve用户.现在我们要学习特征向量(假设n=2) 以及用户5的向量θ(5),因为用户Eve没有对任何电影打分,所以前面的一项为0,只有后面正则化的项,所以影响θ取值的只有后面的θ的正则化的项.所以要使它最小,即θ的取值为0.所以当我们预测用户5对所有电影的评分的时候,这时的评分都为0.所以我们会预测所有的电影的评分都为0.这样是毫无意义的,因为我们还是没有办法知道我们应该向用户5推荐什么电影(没

压缩感知中常用的观测矩阵

接上文:<压缩感知中常用的待还原信号种类>,http://blog.csdn.net/zhyoulun/article/details/25600311 在压缩感知中,观测矩阵就是指y=Ax中的A.A是一个n*m的矩阵,矩阵中的每一个元素独立同分布于一个特定的分布.分布的种类如下: 1.USE.一致球集合,Uniform spherical ensemble,首先计算出一个n*m的矩阵,矩阵中的每一个元素服从标准正态分布,然后对这个矩阵的每一列做归一化. 2.RSE.随机信号集合,Random

层次分析法量化用户的产品偏好

用户对产品有很多行为,如何进行用户行为分析来量化用户对产品的喜好程度呢? 比如豆瓣FM,用户可以点击"喜好"和"扔进垃圾箱"等:比如优酷视频,用户可以顶,踩,分享等. 我们如何通过这些行为信息分析用户对这首歌的喜好程度,对这个视频的评分是多少. 下面实例分析用户对视频的喜好程度.说到视频,我们可以联想到各种用户行为,看了多久,是否评论,是顶是踩,是否分享? 我们可以通过这些指标来评估用户对该视频的打分.比如用户看了多久打多少分,分享了打多少分等.还有就是不同的行为也

Deep Learning论文笔记之(二)Sparse Filtering稀疏滤波

Deep Learning论文笔记之(二)Sparse Filtering稀疏滤波          自己平时看了一些论文,但老感觉看完过后就会慢慢的淡忘,某一天重新拾起来的时候又好像没有看过一样.所以想习惯地把一些感觉有用的论文中的知识点总结整理一下,一方面在整理过程中,自己的理解也会更深,另一方面也方便未来自己的勘察.更好的还可以放到博客上面与大家交流.因为基础有限,所以对论文的一些理解可能不太正确,还望大家不吝指正交流,谢谢. 本文的论文来自: Sparse filtering, J. N

Python数据分析与挖掘所需的Pandas常用知识

Python数据分析与挖掘所需的Pandas常用知识 前言Pandas基于两种数据类型:series与dataframe.一个series是一个一维的数据类型,其中每一个元素都有一个标签.series类似于Numpy中元素带标签的数组.其中,标签可以是数字或者字符串.一个dataframe是一个二维的表结构.Pandas的dataframe可以存储许多种不同的数据类型,并且每一个坐标轴都有自己的标签.你可以把它想象成一个series的字典项. Pandas常用知识 一.读取csv文件为dataf

全体快三源码开发Python数据分析与挖掘所需的Pandas常用知识

前言 全体快三源码开发 (http://www.1159880099.com) QQ1159880099 Pandas基于两种数据类型:series与dataframe. 一个series是一个一维的数据类型,其中每一个元素都有一个标签.series类似于Numpy中元素带标签的数组.其中,标签可以是数字或者字符串. 一个dataframe是一个二维的表结构.Pandas的dataframe可以存储许多种不同的数据类型,并且每一个坐标轴都有自己的标签.你可以把它想象成一个series的字典项.

热力图制作

本文搜集整理了matlab.excel等方法进行各类热力图的生成 1.基于matlab的形式 1. 1)表格制作热力图, 参考matlab官网:https://ww2.mathworks.cn/help/matlab/ref/heatmap.html 1.2) 图像制作热力图, 使用 HeatMap函数,flipud 表翻转,后续参数表示归一化 hom=HeatMap(flipud(im2double(b)),'Standardize','COLUMN');表示对列进行归一化,这样colorba

阿里大数据竞赛season1 总结

关于样本测试集和训练集数量上,一般是选择训练集数量不小于测试集,也就是说训练集选取6k可能还不够,大家可以多尝试得到更好的效果: 2. 有人提出归一化方面可能有问题,大家可以查查其他的归一化方法,但是归一化环境是不可少的: 3. 将部分代码传到了**github** 4. 听说阿里又改赛制了,哈哈. 最近好累啊,简单总结一下吧. 碎碎念 这个比赛自己真的是花时间花精力去做了,虽然在s1止步,但是可以说对自己的数据分析入门算是蛮有意义的.收获的东西也蛮多,学了下python,真是一门灵活的语言(感