Spark2 DataFrame数据框常用操作（七）之统计指标：mean均值，variance方差，stddev标准差，corr(Pearson相关系数)，skewness偏度，kurtosis峰度

val df4=spark.sql("SELECT mean(age),variance(age),stddev(age),corr(age,yearsmarried),skewness(age),kurtosis(age) FROM Affairs")

df4.show
+--------+------------------+------------------+-----------------------+-----------------+--------------------+
|avg(age)|     var_samp(age)|  stddev_samp(age)|corr(age, yearsmarried)|    skewness(age)|       kurtosis(age)|
+--------+------------------+------------------+-----------------------+-----------------+--------------------+
|    34.0|173.33333333333334|13.165611772087667|     0.7456766124552038|0.965388004190285|-0.43417159763313595|
+--------+------------------+------------------+-----------------------+-----------------+--------------------+

时间： 2024-11-07 20:26:26

Spark2 DataFrame数据框常用操作（七）之统计指标：mean均值，variance方差，stddev标准差，corr(Pearson相关系数)，skewness偏度，kurtosis峰度的相关文章

Spark2 DataFrame数据框常用操作（三）

import org.apache.spark.sql.functions._ // 对整个DataFrame的数据去重 data.distinct() data.dropDuplicates() // 对指定列的去重 val colArray=Array("affairs", "gender") data.dropDuplicates(colArray) //data.dropDuplicates("affairs", "gender

Spark2 DataFrame数据框常用操作（八）之cube与rollup

Spark2 DataFrame数据框常用操作（九）之分析函数--排名函数row_number,rank,dense_rank,percent_rank

select gender, age, row_number() over(partition by gender order by age) as rowNumber, rank() over(partition by gender order by age) as ranks, dense_rank() over(partition by gender order by age) as denseRank, percent_rank

转载:R语言Data Frame数据框常用操作

Data Frame一般被翻译为数据框,感觉就像是R中的表,由行和列组成,与Matrix不同的是,每个列可以是不同的数据类型,而Matrix是必须相同的. Data Frame每一列有列名,每一行也可以指定行名.如果不指定行名,那么就是从1开始自增的Sequence来标识每一行. 初始化使用data.frame函数就可以初始化一个Data Frame.比如我们要初始化一个student的Data Frame其中包含ID和Name还有Gender以及Birthdate,那么代码为: studen

R语言Data Frame数据框常用操作

byte数据的常用操作函数[转发]

1 /// <summary> 2 /// 本类提供了对byte数据的常用操作函数 3 /// </summary> 4 public class ByteUtil 5 { 6 private static char[] HEX_CHARS = {'0','1','2','3','4','5','6','7','8','9','A','B','C','D','E','F'}; 7 private static byte[] BITS = {0x01, 0x02, 0x04, 0x0

pandas dataframe 数据框

数据框是一个二维数据结构,类似于SQL中的表格.借助字典,数组,列表和序列等可以构造数据框. 1.字典创建数据框,则列的名称为key的名称: d = {'one':pd.Series([1,2,3],index= ['a','b','c']), 'two':pd.Series([1,2,3,4],index=['a','b','c','d']) } print(pd.DataFrame(d)) 2.列表创建数据框: d = pd.DataFrame([[1,2,3,4],[5,6,7,8],[1

R 数据框的操作

1.插入一列根据自带数据集beaver 进行操作,比如插入一列id. > colnames(beaver1) [1] "day" "time" "temp" "activ" > nrow(beaver1) [1] 114 方法1: new_beaver1$id = rep(1,114) 方法2 new_beaver1 = data.frame(id = rep(1,114),beaver1) 方法3 x = da

R语言读取Excel和对数据框的操作

找整理了下资料,你看看,希望对你有帮助你下载一本资料http://down.51cto.com/data/957270 导入Excel数据请参考书中的2.3.3, 使用SQL语句操作数据框请参考书中的4.11节你可以根据自己的功能分写成不同的脚本,使用的时候直接使用就可以了我使用了以下方法: install.packages("XLConnect") library("XLConnect") 这里有weatherday.xlsx, 我放在workspace下面