spark dataframe unionall

今天本来想写一个spark dataframe unionall的demo,由于粗心报下面错误：

Exception in thread "main" org.apache.spark.sql.AnalysisException: Union can only be performed on tables with the same number of columns, but the left table has 3 columns and the right has 4;
at org.apache.spark.sql.catalyst.analysis.CheckAnalysis$class.failAnalysis(CheckAnalysis.scala:38)
at org.apache.spark.sql.catalyst.analysis.Analyzer.failAnalysis(Analyzer.scala:44)
at org.apache.spark.sql.catalyst.analysis.CheckAnalysis$$anonfun$checkAnalysis$1.apply(CheckAnalysis.scala:170)
at org.apache.spark.sql.catalyst.analysis.CheckAnalysis$$anonfun$checkAnalysis$1.apply(CheckAnalysis.scala:50)
at org.apache.spark.sql.catalyst.trees.TreeNode.foreachUp(TreeNode.scala:121)
at org.apache.spark.sql.catalyst.analysis.CheckAnalysis$class.checkAnalysis(CheckAnalysis.scala:50)
at org.apache.spark.sql.catalyst.analysis.Analyzer.checkAnalysis(Analyzer.scala:44)
at org.apache.spark.sql.execution.QueryExecution.assertAnalyzed(QueryExecution.scala:34)
at org.apache.spark.sql.DataFrame.<init>(DataFrame.scala:133)
at org.apache.spark.sql.DataFrame.org$apache$spark$sql$DataFrame$$withPlan(DataFrame.scala:2127)
at org.apache.spark.sql.DataFrame.unionAll(DataFrame.scala:1008)
at com.xiaoju.arch.engine.spark.ReadHiveDemo.main(ReadHiveDemo.java:74)

错误信息很简单：两张表union，至少字段保持一致吧，汗~~~~

时间： 2024-08-03 21:33:30

spark dataframe unionall的相关文章

spark dataframe操作集锦（提取前几行，合并，入库等）

Spark dataframe派生于RDD类,但是提供了非常强大的数据操作功能.当然主要对类SQL的支持. 在实际工作中会遇到这样的情况,主要是会进行两个数据集的筛选.合并,重新入库. 首先加载数据集,然后在提取数据集的前几行过程中,才找到limit的函数. 而合并就用到union函数,重新入库,就是registerTemple注册成表,再进行写入到Hive中. 不得不赞叹dataframe的强大. 具体示例:为了得到样本均衡的训练集,需要对两个数据集中各取相同的训练样本数目来组成,因此用到了这

spark DataFrame 常见操作

spark dataframe派生于RDD类,但是提供了非常强大的数据操作功能.当然主要对类SQL的支持. 在实际工作中会遇到这样的情况,主要是会进行两个数据集的筛选.合并,重新入库. 首先加载数据集,然后在提取数据集的前几行过程中,才找到limit的函数. 而合并就用到union函数,重新入库,就是registerTemple注册成表,再进行写入到HIVE中. 不得不赞叹dataframe的强大. 具体示例:为了得到样本均衡的训练集,需要对两个数据集中各取相同的训练样本数目来组成,因此用到了这

Spark DataFrame ETL教程

前言 ETL是 Extract-Transform-Load的缩写,也就是抽取-转换-加载,在数据工作中是非常重要的部分.实际上,ETL就是一个对数据进行批处理的过程,一个ETL程序就是一个批处理脚本,执行时能将一堆数据转化成我们需要的形式. 每个接触过数据批处理的工程师,都走过ETL的流程,只是没有意识到而已.按照ETL过程的框架来重新认识数据批处理,有利于我们更清晰地编写批处理脚本. 在单机范围内的数据量下,使用python的pandas包就可以非常方便地完成数据批处理工作.但当数据量达到1

spark dataframe函数编程

DataFrame 的函数 Action 操作 1. collect() ,返回值是一个数组,返回dataframe集合所有的行 2. collectAsList() 返回值是一个Java类型的数组,返回dataframe集合所有的行 3. count() 返回一个number类型的,返回dataframe集合的行数 4. describe(cols: String*) 返回一个通过数学计算的类表值(count, mean, stddev, min, and max),这个可以传多个参数,中间用

Spark DataFrame 数据框空值判断和处理

scala> val data1 = data.toDF("affairs", "gender", "age", "yearsmarried", "children", "religiousness", "education", "occupation", "rating") data1: org.apache.spark

spark&dataframe

1.今天,我们来介绍spark以及dataframe的相关的知识点,但是在此之前先说一下对以前的hadoop的一些理解当我启动hadoop的时候,上面有hdfs的存储结构,由于这个是分布式存储,所以当一个节点挂了之后,此后由于还有别的机器上存储这些block块(这里面你肯定要问了,我们怎么知道它挂了,其实我前面关于akaka的时候rpc 通信的机制,心跳机制),所以这个是我们选择它的理由之一,还有一个原因我们可以进行无限扩容,是因为当我们使用zookeeper进行管理这些datanode的

spark dataframe 类型转换

读一张表,对其进行二值化特征转换.可以二值化要求输入类型必须double类型,类型怎么转换呢? 直接利用spark column 就可以进行转换: DataFrame dataset = hive.sql("select age,sex,race from hive_race_sex_bucktizer "); /** * 类型转换 */ dataset = dataset.select(dataset.col("age").cast(DoubleType).as(

Spark DataFrame小试牛刀

三月中旬,Spark发布了最新的1.3.0版本,其中最重要的变化,便是DataFrame这个API的推出.DataFrame让Spark具备了处理大规模结构化数据的能力,在比原有的RDD转化方式易用的前提下,计算性能更还快了两倍.这一个小小的API,隐含着Spark希望大一统「大数据江湖」的野心和决心.DataFrame像是一条联结所有主流数据源并自动转化为可并行处理格式的水渠,通过它Spark能取悦大数据生态链上的所有玩家,无论是善用R的数据科学家,惯用SQL的商业分析师,还是在意效率和实时性

Spark DataFrame写入HBase的常用方式

Spark是目前最流行的分布式计算框架,而HBase则是在HDFS之上的列式分布式存储引擎,基于Spark做离线或者实时计算,数据结果保存在HBase中是目前很流行的做法.例如用户画像.单品画像.推荐系统等都可以用HBase作为存储媒介,供客户端使用. 因此Spark如何向HBase中写数据就成为很重要的一个环节了.本文将会介绍三种写入的方式,其中一种还在期待中,暂且官网即可... 代码在spark 2.2.0版本亲测 1. 基于HBase API批量写入第一种是最简单的使用方式了,就是基于R

猜你喜欢

MySQL 5.6升级至MySQL 5.7

1. 背景 MySQL 5.7是当前MySQL最新版本,与MySQL 5.6版本相比,有如下特征 * 性能和可扩展性:改进 InnoDB 的可扩展性和临时表的性能,从而实现更快的网络和大数据加载等操作 ...

shell编程基础-shell分库备份

分库备份企业实战题7:如何实现对MySQL数据库进行分库备份,请用脚本实现 #!/bin/bash MysqlUser=root PassWord=root Port=3306 Socket=&quo ...

活动选择（C++）

活动选择难度级别:C: 运行时间限制:500ms: 运行空间限制:51200KB: 代码长度限制:2000000B 试题描述学校最近几天有n个活动,这些活动都需要使用学校大礼堂,在同一时间,礼堂只 ...

重装系统

(1)基本的通用视频 http://v.ku6.com/show/x29A21QEI2-dvIEwk481Rw...html?from=my (2)ghost和U盘启动盘的制作 (3)BIOS中设置U ...

java_db常见错误总结

1.java.sql.SQLSyntaxErrorException: ORA-00911: 无效字符在拼写seq时是否存在存在特殊字符,如:常见语句后面添加了;2.ORA-01722:无效数字解决 ...

《人，绩效和职业道德》，读后感

阅读了软件工程最后一章的<人,绩效和职业道德>,从中体从会很大. 在文章的开头作者引用了一个猪.鸡和鹦鹉的小故事,能让读者自然而然的融入进去.确实如故事中所说的那样,在平时的工作与学习中, ...

dwr进行消息推送示例

<?xml version="1.0" encoding="UTF-8"?> <!DOCTYPE dwr PUBLIC "-//Ge ...

sorted排序

排序函数sorted原型如下,接受一个可迭代的序列,可以自定义排序函数放在key中,可以对待排序序列先期进行处理,还可以指定正反序 sorted(iterable, /, *, key=None, r ...

linux文件系统管理及挂载

文件系统的管理分区 sda0-7或者hda0-7 格式化就是设置文件系统统计文件df -h 查看分区文件系统,使用空间,挂载点 -a查看特殊文件系统/proc /sysfs du -h /目录名 ...

linux 服务器分区格式化相关知识 -mount

关于linux 系统mount和mkfs 的相关知识: 使用mount 1) Mount的相关格式:mount [-t 文件类型][-o 选项] devicedir 详解: -t 文件类型,通常默 ...

HDU1558 - Segment set 并查集 + 判断线段相交

HDU1558 - Segment set: http://acm.hdu.edu.cn/showproblem.php?pid=1558 题目大意: 输入一些线段的端点坐标,若两线段相交,则把他们合 ...

15.2.27 DP练习

关键子工程(project.c/cpp/pas) 题目在大型工程的施工前,我们把整个工程划分为若干个子工程,并把这些子工程编号为1.2.--.N:这样划分之后,子工程之间就会有一些依赖关系,即一些子 ...

框架结构

1.MVC思想是一个和成词,由Model,模型(针对数据操作部分(数据逻辑)),View,视图(针对数据显示部分(显示) ,Controller控制器(针对其他PHP代码(业务逻辑)))2.是一个单一 ...

261. Graph Valid Tree

也是卡了好多天的题目主要就是介绍了union-find的算法,用于检查Undirected graph有没有环 http://www.geeksforgeeks.org/union-find/ 1 ...

使用SMSManager短信管理器实现短信群发

import java.util.ArrayList; import android.os.Bundle;import android.provider.ContactsContract;import ...

ENode框架Conference案例转载

ENode框架Conference案例分析系列之 - Quick Start 前言前一篇文章介绍了Conference案例的架构设计,本篇文章开始介绍Conference案例的代码实现.由于代码比较 ...

webpy 实例 12306余票查询

效果 main.py # -*- coding: utf-8 -*- import web import search urls = ( '/', 'Search', ) render = web.t ...

Android两个Activity传递数据，onActivityResult获取结果时Intent为空问题

环境:设两个Activity A 和 B,A通过调用startActivityForResult()向B传送数据,B收到数据经过处理后将数据放入Intent使用setResult(result ...

taihao

db.inpatient_fee_detail.aggregate([{'$match' : {'fee.date' : {'$gte':ISODate("2016-03-10T12:39: ...

究韧浊苤炭zn5q9274p3d

徐三石很是不情愿的从怀里摸出一个小巧的白玉瓷瓶抛向贝贝.贝贝一把接过来,"多谢,你收起武魂,我帮你起出龙须针."庞大的白虎在闪身扑出的时候,高傲的仰着头,那俯视天下的傲慢充分展现了 ...

专题

随机推荐

© 2024 憋错料 | info#biecuoliao.com | 10 q. 0.022 s.