DataFrame

Constructor

DataFrame([data, index, columns, dtype, copy])

Two-dimensional size-mutable, potentially heterogeneous tabular data structure with labeled axes (rows and columns).

Axes

  • index: row labels
  • columns: column labels

DataFrame.as_matrix([columns])


Convert the frame to its Numpy-array representation.


DataFrame.dtypes


Return the dtypes in this object.


DataFrame.ftypes


Return the ftypes (indication of sparse/dense and dtype) in this object.


DataFrame.get_dtype_counts()


Return the counts of dtypes in this object.


DataFrame.get_ftype_counts()


Return the counts of ftypes in this object.


DataFrame.select_dtypes([include, exclude])


Return a subset of a DataFrame including/excluding columns based on their dtype.


DataFrame.values


Numpy representation of NDFrame


DataFrame.axes


Return a list with the row axis labels and column axis labels as the only members.


DataFrame.ndim


Number of axes / array dimensions


DataFrame.size


number of elements in the NDFrame


DataFrame.shape


Return a tuple representing the dimensionality of the DataFrame.


DataFrame.memory_usage([index, deep])


Memory usage of DataFrame columns.

时间: 2024-11-03 03:25:22

DataFrame的相关文章

Spark2 加载保存文件,数据文件转换成数据框dataframe

hadoop fs -put /home/wangxiao/data/ml/Affairs.csv /datafile/wangxiao/ hadoop fs -ls -R /datafile drwxr-xr-x - wangxiao supergroup 0 2016-10-15 10:46 /datafile/wangxiao -rw-r--r-- 3 wangxiao supergroup 16755 2016-10-15 10:46 /datafile/wangxiao/Affairs

spark的数据结构 RDD——DataFrame——DataSet区别

转载自:http://blog.csdn.net/wo334499/article/details/51689549 RDD 优点: 编译时类型安全 编译时就能检查出类型错误 面向对象的编程风格 直接通过类名点的方式来操作数据 缺点: 序列化和反序列化的性能开销 无论是集群间的通信, 还是IO操作都需要对对象的结构和数据进行序列化和反序列化. GC的性能开销 频繁的创建和销毁对象, 势必会增加GC import org.apache.spark.sql.SQLContext import org

spark dataframe操作集锦(提取前几行,合并,入库等)

Spark dataframe派生于RDD类,但是提供了非常强大的数据操作功能.当然主要对类SQL的支持. 在实际工作中会遇到这样的情况,主要是会进行两个数据集的筛选.合并,重新入库. 首先加载数据集,然后在提取数据集的前几行过程中,才找到limit的函数. 而合并就用到union函数,重新入库,就是registerTemple注册成表,再进行写入到Hive中. 不得不赞叹dataframe的强大. 具体示例:为了得到样本均衡的训练集,需要对两个数据集中各取相同的训练样本数目来组成,因此用到了这

Spark-SQL之DataFrame操作大全

Spark SQL中的DataFrame类似于一张关系型数据表.在关系型数据库中对单表或进行的查询操作,在DataFrame中都可以通过调用其API接口来实现.可以参考,Scala提供的DataFrame API. 本文中的代码基于Spark-1.6.2的文档实现. 一.DataFrame对象的生成 Spark-SQL可以以其他RDD对象.parquet文件.json文件.Hive表,以及通过JDBC连接到其他关系型数据库作为数据源来生成DataFrame对象.本文将以MySQL数据库为数据源,

DataFrame中的write与read编程

一:准备 1.启动服务 2.启动spark-shell 二:测试检验程序 1.DataFrame的构成 2.结果 三:DataFrame的创建 1.创建SQLContext val sqlContext=new SQLContext(sc) 2.创建DataFrame(两种方式) val df=sqlContext.# val df=sqlContext.read.# 3.DataFrame数据转换 val ndf=df.#.# 4.结果保存 ndf.# ndf.write.# 四:DataFr

Spark RDD、DataFrame和DataSet的区别

版权声明:本文为博主原创文章,未经博主允许不得转载. 目录(?)[+] 转载请标明出处:小帆的帆的专栏 RDD 优点: 编译时类型安全 编译时就能检查出类型错误 面向对象的编程风格 直接通过类名点的方式来操作数据 缺点: 序列化和反序列化的性能开销 无论是集群间的通信, 还是IO操作都需要对对象的结构和数据进行序列化和反序列化. GC的性能开销 频繁的创建和销毁对象, 势必会增加GC import org.apache.spark.sql.SQLContext import org.apache

pandas.DataFrame.plot

pandas.DataFrame.plot¶ DataFrame.plot(x=None, y=None, kind='line', ax=None, subplots=False, sharex=None, sharey=False, layout=None, figsize=None, use_index=True, title=None, grid=None, legend=True, style=None, logx=False, logy=False, loglog=False, xt

spark1.4加载mysql数据 创建Dataframe及join操作连接方法问题

首先我们使用新的API方法连接mysql加载数据 创建DF import org.apache.spark.sql.DataFrame import org.apache.spark.{SparkContext, SparkConf} import org.apache.spark.sql.{SaveMode, DataFrame} import scala.collection.mutable.ArrayBuffer import org.apache.spark.sql.hive.HiveC

python pandas dataframe 去重函数

今天笔者想对pandas中的行进行去重操作,找了好久,才找打相关的函数 先看一个小例子 <span style="font-size:18px;">from pandas import Series, DataFrame data = DataFrame({'k': [1, 1, 2, 2]}) print data IsDuplicated = data.duplicated() print IsDuplicated print type(IsDuplicated) da