SAS编程基础 - 数据获取与数据集操作(1)

1. 数据来源

SAS数据来源主要有两种:一是通过input语句创建,另外一种方式是通过外部数据文件获取。

1.1 libname

1.2 odbc

1.3 passthrough

1.4 import

1.5 input

该方式是在SAS系统下通过input语句输入SAS数据块,实践中是最不常的用的一块。

2. set语句

从一个或者多个SAS数据集中读取观测值并实现纵向合并。

2.1 keep=选项

data keep;
set sashelp.class(keep = age sex);
run;

该方式创建了一个临时数据集keep(输出数据集),然后使用set语句从数据集sashelp.class中获取数据,keep=指定了读入的变量,其他冗余变量不读取,最后将读取的变量输入到数据集keep中。

还可以输出两个或者多个数据集:

data d1(keep=name)d2(keep=name sex);
set sashelp.class(keep=name sex);
run;

输出数据集d1和d2,并且分别在每个数据集后使用keep=指定了输出的变量。在set语句中使用keep=语句,可以提高运行效率,因为它使得set语句从数据集class中只读取了name和sex两个变量到PDV中。去掉这里的keep=不会报错,但是效率会降低。进一步,如果将这里的keep修改为“keep=name”,即去掉sex,那么导致的结果是数据集d2中只包含name变量,而不包含sex变量,这是因为set语句没有读取sex变量,自然不会输出到d2中。

2.2 rename=选项

将变量名重新命名:

data rename;
set sashelp.class(keep = name sex rename=(name=name_new sex=sex_new));
run;

对重命名变量需要用括号括起来。

2.3 where表达式

添加筛选条件:

data where;
set sashelp.class(keep=name sex where=(sex=‘男‘));
run;

读取性别为男的人的姓名和性别。可以通过keep=的方式只输出性别为男的人的姓名,只需要将第一行修改为“data where(keep=name);”即可。注意,不能通过去掉class后面的sex实现,因为这里的keep指定的是读取变量,否则读取不到sex就无法完成where后的sex条件判断,就会报错。

2.4 in选项

把set语句后面不同的数据集通过标识变量显示出来:

 1 data one;
 2 input x y$ @@;
 3 cards;
 4 1 a 2 b 3 c
 5 ;
 6 data two;
 7 input x z$ @@;
 8 cards;
 9 4 d 5 e
10 ;
11
12 data in1;
13 set one(in=ina) two(in=inb);
14 in_one = ina;
15 in_two = inb;
16 run; 

如果一行的观测来源于数据集one,那么对一个的in_one的值是1,in_two的值为0.相反,如果该行观测来源于数据集two,那么in_one的值为0,in_two的值为1.简单来说,就是标识一下该行变量来源。

in本身不是个变量,所以不能通过in_one=in的形式得到标识变量,于是就先创建一个临时变量ina,然后把临时变量的值赋给输出变量in_one。

还可以通过if语句实现标记:

1 data in2;
2 set one(in=ina) two(in=inb);
3 if ina=1 then flag=1;else flag =0;
4 run;

in选项可以标记观测的来源,那么就可以使用in选项对不同来源的数据进行不同的操作。

2.5 firstobs=和obs=

读取数据集中指定行到行的观测:

1 data obs;
2 set sashelp.class(firstobs=3 obs=5);
3 run;

读取class数据集中第3行到第5行的数据,包括第3和第5行。firstobs和obs都可以缺省,如果缺省firstobs代表默认为从第一个开始到obs指定的行,如果缺省obs,则代表默认为从firstobs指定的行到最后位置。两者都缺省,实质上就是未指定范围,即读取全部观测。

2.6 nobs=

2.7 point=

2.7.1 取指定的一条观测

1 data point1;
2 n=3;
3 set sashelp.class point=n;
4 output;
5 stop;
6 run;

读取第3条观测,注意point=后边必须跟变量,如果直接写成point=3是错误的。使用output输出第3条观测,使用stop终止运行。注意,如果没有output则不能将观测输出到数据集中,如果没有stop会使程序陷入死循环,数据指针无法判断是否指向了最后一条观测。stop经常和point搭配使用。

2.7.2 取指定的多条观测

1 data point2;
2 do n=2,4,6,7;
3 set sashelp.class point=n;
4 output;
5 end;
6 stop;
7 run;

output与end的位置不能互换,互换后只输出最后一条观测,即第7条观测。

2.8 nobs=和point=综合应用

快速读取最后一条观测:

1 data nobs_point;
2 set sashelp.class nobs=last point=last;
3 output;
4 stop;
5 run;

2.9 end=

文件是否结尾的标识:

1 data end;
2 set sashelp.class end=last_obs;
3 flag = last_obs;
4 run;

2.10 具有相同数据结构的多个数据集的合并

1 data concatenat;
2 set sashelp.class sashelp.class(obs=10);
3 run;

2.11 使用output控制输出到多个数据集

1 data d1 d2;
2 set sashelp.class;
3 if _n_ le 10 then output d1;
4 else output d2;
5 run;

_N_表示当前数据指针指向的行。output指定输出的数据集。另外注意,SAS中的if语句不带end。

时间: 2024-08-11 07:26:15

SAS编程基础 - 数据获取与数据集操作(1)的相关文章

SAS编程基础 - 逻辑库和数据集

1. SAS逻辑库 1.1 创建SAS逻辑库: libname lb 'F:\Data_Model'; libname是关键字,lb是创建的逻辑库的名称,引号内的内容是目录路径,最后一个分号结束程序语句. 1.2 删除SAS逻辑库: libname lb clear; 执行此句,即可删除刚建立的lb逻辑库. 1.3 临时逻辑库和永久逻辑库 永久逻辑库和临时逻辑库的最大区别就是SAS进程关闭后SAS文件是否消失.临时逻辑库一般就是指work逻辑库. 2. SAS数据集 数据集是存在于逻辑库下边的,

SAS编程基础 - 菜鸟入门常用操作

1. SAS9.4添加和取消注释的快捷键? Ctrl+/:添加注释 Ctrl+Shift+/:取消注释 2. 如何强制终止程序运行? 看到那个圆圈里带叹号的图标了吗?没错,就是它 - 中断! 3. 如何运行一个SAS编辑器里的程序? 点击这个小人或者使用快捷键F3.

IOS学习之十七:Grand Central Dispatch(GCD)编程基础

IOS学习之十七:Grand Central Dispatch(GCD)编程基础 有过编程经验的人,基本都会接触到多线程这块. 在java中以及Android开发中,大量的后台运行,异步消息队列,基本都是运用了多线程来实现. 同样在,在ios移动开发和Android基本是很类似的一种模型. 但是很多时候,在应用开发中,我们会发现本身并没有自己编码去处理一些并发的事件,去开辟新的子线程等等. (虽然一般的调用sdk发起一个网络请求,系统都是会默认给你新起一个线程去处理的). 整个程序看上去基本就是

c#socket编程基础 [转帖]

c#socket编程基础 Microsoft.Net Framework为应用程序访问Internet提供了分层的.可扩展的以及受管辖的网络服务,其名字空间System.Net和System.Net.Sockets包含丰富的类可以开发多种网络应用程序..Net类采用的分层结构允许应用程序在不同的控制级别上访问网络,开发人员可以根据需要选择针对不同的级别编制程序,这些级别几乎囊括了Internet的所有需要--从socket套接字到普通的请求/响应,更重要的是,这种分层是可以扩展的,能够适应Int

《SAS编程与数据挖掘商业案例》学习笔记之十五

继续<SAS编程与数据挖掘商业案例>读书笔记,本次重点:输出控制 主要内容包括:log窗口输出控制.output窗口输出控制.ods输出控制 1.log窗口输出控制 将日志输出到外部文件 proc printto log= "f:\data_model\book_data\chapt9\newlog.txt"; new; proc print data=sashelp.class; proc printto;run; 2.output窗口输出控制 输出sas数据集到外部文件

《SAS编程与数据挖掘商业案例》学习笔记之十八

接着以前的<SAS编程与数据挖掘商业案例>,之前全是sas的基础知识,现在开始进入数据挖掘方面笔记,本文主要介绍数据挖掘基本流程以及应用方向,并以logistic回归为例说明. 一:数据挖掘综述 衡量一个数据挖掘模型价值的唯一标准就是商业目标,为达到一个商业目标,有很多种方法,只有高效解决商业目标的方法才是最牛的方法,即使是看似简单的方法,只要能高效解决商业目标,我们就认为是牛的方法: 面对海量的数据,即使是使用了最先进的工具,最复杂的算法,但是如果挖掘出来的知识是无用的,或者挖掘的结果是无法

python网络编程基础(线程与进程、并行与并发、同步与异步)

python网络编程基础(线程与进程.并行与并发.同步与异步) 目录 线程与进程 并行与并发 同步与异步 线程与进程 进程 前言 进程的出现是为了更好的利用CPU资源使到并发成为可能. 假设有两个任务A和B,当A遇到IO操作,CPU默默的等待任务A读取完操作再去执行任务B,这样无疑是对CPU资源的极大的浪费.聪明的老大们就在想若在任务A读取数据时,让任务B执行,当任务A读取完数据后,再切换到任务A执行.注意关键字切换,自然是切换,那么这就涉及到了状态的保存,状态的恢复,加上任务A与任务B所需要的

网络编程基础

网络编程基础 1.套接字概念 Linux环境下使用套接字进行进程之间的通信.用过套接字的接口,其他进程的位置对于应用程序来讲是透明的.相互通信双方端点都有一个套接字,双方如果要进行通信,通过套接字建立桥梁,双方就可以通信了. 类似文件一样,套接字也有一个套接字描述符,应用程序可以像操作文件一样操作套接字.在进行网络通信的过程中,用户感觉就是在操作文件一样,这是Linux将外部设备抽象为一个文件的好处. 2.字节序 不同主机的体系结构不同,所采用的数据存储方式不同.网络中,进程之间的通信是跨主机的

多线程编程基础知识

多线程编程基础知识 http://www.cnblogs.com/cy163/archive/2006/11/02/547428.html 当前流行的Windows操作系统能同时运行几个程序(独立运行的程序又称之为进程),对于同一个程序,它又可以分成若干个独立的执行流,我们称之为线程,线程提供了多任务处理的能力.用进程和线程的观点来研究软件是当今普遍采用的方法,进程和线程的概念的出现,对提高软件的并行性有着重要的意义.现在的大型应用软件无一不是多线程多任务处理,单线程的软件是不可想象的.因此掌握