spark dataFrame withColumn

说明：withColumn用于在原有DF新增一列

1. 初始化sqlContext

val sqlContext = new org.apache.spark.sql.SQLContext(sc)

2.导入sqlContext隐式转换

import sqlContext.implicits._

3. 创建DataFrames

val df = sqlContext.read.json("file:///usr/local/spark-2.3.0/examples/src/main/resources/people.json")

4. 显示内容

df.show()

| age| name|

+----+-------+

|null|Michael|

| 30| Andy|

| 19| Justin|

5. 为原有df新加一列

df.withColumn("id2", monotonically_increasing_id()+1)

6. 显示添加列后的内容

res6.show()

+----+-------+---+

| age| name|id2|

+----+-------+---+

|null|Michael| 1|

| 30| Andy| 2|

| 19| Justin| 3|

+----+-------+---+

完成的过程如下：

scala> val sqlContext = new org.apache.spark.sql.SQLContext(sc)

warning: there was one deprecation warning; re-run with -deprecation for details

sqlContext: org.apache.spark.sql.SQLContext = [email protected]

scala> import sqlContext.implicits._

import sqlContext.implicits._

scala> val df = sqlContext.read.json("file:///usr/local/spark-2.3.0/examples/src/main/resources/people.json")

2018-06-25 18:55:30 WARN ObjectStore:6666 - Version information not found in metastore. hive.metastore.schema.verification is not enabled so recording the schema version 1.2.0

2018-06-25 18:55:30 WARN ObjectStore:568 - Failed to get database default, returning NoSuchObjectException

2018-06-25 18:55:32 WARN ObjectStore:568 - Failed to get database global_temp, returning NoSuchObjectException

df: org.apache.spark.sql.DataFrame = [age: bigint, name: string]

scala> df.show()

+----+-------+

| age| name|

+----+-------+

|null|Michael|

| 30| Andy|

| 19| Justin|

+----+-------+

scala> df.withColumn("id2", monotonically_increasing_id()+1)

res6: org.apache.spark.sql.DataFrame = [age: bigint, name: string ... 1 more field]

scala> res6.show()

+----+-------+---+

| age| name|id2|

+----+-------+---+

|null|Michael| 1|

| 30| Andy| 2|

| 19| Justin| 3|

+----+-------+---+

原文地址：https://www.cnblogs.com/abcdwxc/p/9225855.html

时间： 2024-10-18 00:57:47

spark dataFrame withColumn的相关文章

spark dataframe操作集锦（提取前几行，合并，入库等）

Spark dataframe派生于RDD类,但是提供了非常强大的数据操作功能.当然主要对类SQL的支持. 在实际工作中会遇到这样的情况,主要是会进行两个数据集的筛选.合并,重新入库. 首先加载数据集,然后在提取数据集的前几行过程中,才找到limit的函数. 而合并就用到union函数,重新入库,就是registerTemple注册成表,再进行写入到Hive中. 不得不赞叹dataframe的强大. 具体示例:为了得到样本均衡的训练集,需要对两个数据集中各取相同的训练样本数目来组成,因此用到了这

spark DataFrame 常见操作

spark dataframe派生于RDD类,但是提供了非常强大的数据操作功能.当然主要对类SQL的支持. 在实际工作中会遇到这样的情况,主要是会进行两个数据集的筛选.合并,重新入库. 首先加载数据集,然后在提取数据集的前几行过程中,才找到limit的函数. 而合并就用到union函数,重新入库,就是registerTemple注册成表,再进行写入到HIVE中. 不得不赞叹dataframe的强大. 具体示例:为了得到样本均衡的训练集,需要对两个数据集中各取相同的训练样本数目来组成,因此用到了这

Spark DataFrame ETL教程

前言 ETL是 Extract-Transform-Load的缩写,也就是抽取-转换-加载,在数据工作中是非常重要的部分.实际上,ETL就是一个对数据进行批处理的过程,一个ETL程序就是一个批处理脚本,执行时能将一堆数据转化成我们需要的形式. 每个接触过数据批处理的工程师,都走过ETL的流程,只是没有意识到而已.按照ETL过程的框架来重新认识数据批处理,有利于我们更清晰地编写批处理脚本. 在单机范围内的数据量下,使用python的pandas包就可以非常方便地完成数据批处理工作.但当数据量达到1

spark dataframe unionall

今天本来想写一个spark dataframe unionall的demo,由于粗心报下面错误: Exception in thread "main" org.apache.spark.sql.AnalysisException: Union can only be performed on tables with the same number of columns, but the left table has 3 columns and the right has 4; at o

Spark DataFrame列的合并与拆分

版本说明:Spark-2.3.0 使用Spark SQL在对数据进行处理的过程中,可能会遇到对一列数据拆分为多列,或者把多列数据合并为一列.这里记录一下目前想到的对DataFrame列数据进行合并和拆分的几种方法. 1 DataFrame列数据的合并例如:我们有如下数据,想要将三列数据合并为一列,并以","分割 +----+---+-----------+ |name|age| phone| +----+---+-----------+ |Ming| 20|15552211521| |

spark dataframe函数编程

DataFrame 的函数 Action 操作 1. collect() ,返回值是一个数组,返回dataframe集合所有的行 2. collectAsList() 返回值是一个Java类型的数组,返回dataframe集合所有的行 3. count() 返回一个number类型的,返回dataframe集合的行数 4. describe(cols: String*) 返回一个通过数学计算的类表值(count, mean, stddev, min, and max),这个可以传多个参数,中间用

Spark DataFrame 数据框空值判断和处理

scala> val data1 = data.toDF("affairs", "gender", "age", "yearsmarried", "children", "religiousness", "education", "occupation", "rating") data1: org.apache.spark

spark&dataframe

1.今天,我们来介绍spark以及dataframe的相关的知识点,但是在此之前先说一下对以前的hadoop的一些理解当我启动hadoop的时候,上面有hdfs的存储结构,由于这个是分布式存储,所以当一个节点挂了之后,此后由于还有别的机器上存储这些block块(这里面你肯定要问了,我们怎么知道它挂了,其实我前面关于akaka的时候rpc 通信的机制,心跳机制),所以这个是我们选择它的理由之一,还有一个原因我们可以进行无限扩容,是因为当我们使用zookeeper进行管理这些datanode的

spark dataframe 类型转换

读一张表,对其进行二值化特征转换.可以二值化要求输入类型必须double类型,类型怎么转换呢? 直接利用spark column 就可以进行转换: DataFrame dataset = hive.sql("select age,sex,race from hive_race_sex_bucktizer "); /** * 类型转换 */ dataset = dataset.select(dataset.col("age").cast(DoubleType).as(

猜你喜欢

【HDOJ】1277 全文检索

AC自动机,静态数组,动态分配TLE. 1 /* 1277 */ 2 #include <iostream> 3 #include <cstdio> 4 #include &l ...

A weighting function for ‘nls’/’nlsLM’

,http://www.r-bloggers.com/a-weighting-function-for-nls-nlslm/ Standard nonlinear regression assumes ...

Bioconda安装与使用

1. Bioconda是一个自动化管理生物信息软件的工具,就像APPstore.360软件管家一样. Bioconda的优点是安装简单,各个软件依赖的环境一同打包且相互隔离,非常适合在服务器中建立自 ...

上周热点回顾（1.9-1.15）

热点随笔: · 从零到百亿互联网金融架构发展史(纯洁的微笑)· 我的这10年——从机械绘图到炼油到微软MVP 的华丽转身(数据之巅)· 反骨仔的 2016 年度全文目录索引(反骨仔(二五仔)) ...

BZOJ 1096 ZJOI2007 仓库设计斜率优化dp

太高兴了,这是我第一次自己独立思考的斜率优化dp,从头到尾都是自己想的.(相信自己,能行的,不过也做了40分钟了). 这道题目还好吧! 看到之后第一反应是想设从工厂0运到工厂i 总共需要 tot[i] ...

利用Lucene和 XPDF 来处理pdf文件

/* * 利用Lucene和 XPDF 来处理pdf文件 * */ package pdfbox; import java.io.File; import java.io.IOException; ...

在线Cron表达式解析工具使用说明

在日常Java开发中,常常会用到quartz定时器,而定时器的Cron表达式比较难以理解,尤其是复杂的表达式,较难分析出是否周期频率正确. 这里,云码网推出Cron在线解析工具,方便大家在线生成Cro ...

数据仓库（七）：Oracle Warehouse Builder（OWB）创建数据仓库

本文简述使用OWB创建数据仓库的一般过程.Oracle的OWB是目前最好的三大ETL产品之一.OWB不但可以可以完成数据的抽取.转换和加载,还能帮助用户在Oracle数据库中创建ROLAP(Rela ...

就业准备

一,java基础和数据结构 1.equals和==的区别 package testJavaBase; public class TestEquals { public static void main ...

对各组意见

1 你好,我们是第十组,意见如下: 扫描二维码后应能直接进入功能可以增加一些应有错误提醒 2 你好,我们是第十组,意见如下: 可以对记录钱的数量控制功能再细化一些, 界面美化不够好 3 你好,我 ...

ruby案例分析：微信红包分配

今年和去年一样,央视的春晚再次被广大网友吐槽, 即便全民呼吁"六小龄童上春晚",齐天大圣仍然没有走上央视舞台.知名时评人石述思转了这样一条微博,今年的春晚导演为了大家抢红包也是拼了 ...

51Nod 1073 约瑟夫环

N个人坐成一个圆环(编号为1 - N),从第1个人开始报数,数到K的人出列,后面的人重新从1开始报数.问最后剩下的人的编号. 例如:N = 3,K = 2.2号先出列,然后是1号,最后剩下的是3号. ...

简单瀑布流布局（未完成）

<!DOCTYPE html> <html lang="en"> <head> <meta charset="UTF-8&quo ...

多种语言开发Spark-以WordCount为例

Spark是目前最火爆的大数据计算框架,有赶超Hadoop MapReduce的趋势.因此,趁着现在还有大多数人不懂得Spark开发的,赶紧好好学习吧,为了使不同的开发人员能够很好的利用Spark,S ...

cocos3 动作和帧动画

// on "init" you need to initialize your instance bool HelloWorld::init() { ////////////// ...

第二讲 auto_ptr智能指针

// STL.cpp : 定义控制台应用程序的入口点. // //智能指针在其生命周期结束后会自动调用delete #include "stdafx.h" #include< ...

python读书笔记-《A Byte of Python》中文第三版后半部分

编辑器:windows,linux 不要用notepad,缩进糟糕 -------------- 5.18缩进同一层次的语句必须有相同的缩进.每一组这样的语句称为一个块. 1i = 5 2 pri ...

HDU 1521

指数型生成函数.做这题时,回去看看组合数学才知道,指数生成函数求的就是多重集合的r排列数. #include <iostream> #include <cstdio> #inc ...

关于分页---跳转页面

分页的跳转页面要用到javascript 技术. 首先在input type='text' 文本框中写入要跳转的页面. 接着点击"跳转" button按钮触发点击事件点 ...

h5开发app之在线生成二维码

h5通过jquery和qrcode在线生成二维码首先我们需要下载一个qrcode.js文件,然后依次引入jquery和qrcode文件. 1.创建一个输入框以便做演示使用: <input id ...

专题

随机推荐

© 2024 憋错料 | info#biecuoliao.com | 10 q. 0.024 s.