《SAS编程与数据挖掘商业案例》学习笔记之十一

继续读书笔记,本文重点側重sas观測值的操作方面, 主要包含:输出观測值、更新观測值、删除观測值、停止输出观測值等

1.output语句   输出当前在pdv中的观測值,继续无条件运行以下的语句。

注意:简单的data步不须要output语句。run语句会自己主动输出pdv中的数据到数据集,并返回data步开头继续运行下一条观測。

在有output语句和run语句同一时候存在时。pdv仅仅会运行output的结果到正在被创建的数据集。而运行run语句的结果是pdv会清空全部的变量值为缺失值

data a;

input id x1-x3;

cards;

101 10 20 30

102 40 50 60

;

data b;

set a;

x=x1;output;

x=x2;output;

x=x3;output;

output;

run;

因为data步包括四个output语句,因此每次读入一条观測,程序会运行output语句,总共会输出8条记录

data out1 out2;

set sashelp.class;

if _n_ le 7 then output out1;

else output out2;

run;

if条件的output语句,仅仅有满足if条件时pdv才把得到的结果输出到正在被创建的数据集

data a;

input x y @@;

cards;

1 10 1 20 1 200 2 30 2 40

3 50 3 60 4 70 3 80 4 400

;

proc sort data=a;by x;run;

data b;

set a;

by x;

retain rt;

if first.x then rt=0;

if last.x then output;

rt=y;

run;

输出by变量的last观測值,并保留last近期前一条观測变量值。

该例中output与run同一时候出现时,值输出output后面的,无论output前面的条件是否成立;运行run语句的结果是PDV会清空全部的变量值为缺失。

是对每个by组进行循环的,且first.x也是针对by组的

2.if语句 是一个可运行语句,将满足条件的观測值输出到正在被创建的数据集中

3.where语句  不是一个可运行语句。推断条件是在pdv之前

注:不能使用自己主动变量_n_或者其它选项如obs,point与where语句一起使用。由于where语句是在pdv之前

使用where语句必须保证读入数据集的完整性,不能使用如firstobs=2等不能完整读入数据集的选项

对同一数据集。同一时候使用where语句和where=选项,则系统仅仅使用where=选项,而不考虑where语句

where语句和by语句一起出现时,先运行where语句,然后在by语句,by组对运行完成后的数据集又一次定义first/last

Where语句和if语句 差别

1.where语句是在观測进入pdv之前起作用,而if语句是在pdv中的观測起作用。

2.where语句不是一个可运行语句,而子集if语句是可运行语句

3.where语句有自己特有的表达式,而if语句使用通用的sas表达式

4.where语句比if效率高

4.replace语句和remove语句和output语句

这两个语句仅仅能跟modify一起使用,

数据集:

libname chapt5 "f:\data_model\book_data\chapt5";

data chapt5.a;

input x y @@;

cards;

1 10 2 20 3 30 4 40

;

run;

libname chapt5 "f:\data_model\book_data\chapt5";

data chapt5.b;

input x y @@;

cards;

3 300 4 400 5 500

;

run;

eg:

data chapt5.a;

modify chapt5.a chapt5.b;

by x;

if _iorc_=0 then replace;

else _error_=0;

run;

对匹配到的数据。更新数据集将覆盖主数据集,对于未匹配到的数据,不予考虑

data chapt5.a;

modify chapt5.a chapt5.b;

by x;

if _iorc_=0 then replace;

else do; _error_=0;output;end;

run;

对匹配到的数据,更新数据集将覆盖主数据集,对于未匹配到的数据,将更新数据集数据也输出到主数据集中

data chapt5.a;

modify chapt5.a chapt5.b;

by x;

if _iorc_=0 then remove;

else _error_=0;

run;

对于匹配到的数据从主数据中删除

5.delete语句和stop语句

data a;

set sashelp.class;

if sex eq "M" then delete;

run;

删除部分观測,下面代码目的一样

data a;

set sashelp.class;

if sex ne "M";

run;

data a;

set sashelp.class;

if _n_ ge 3 then stop;

run;

stop直接跳出data。终于数据集a仅仅有两条观測

时间: 2024-12-16 19:24:33

《SAS编程与数据挖掘商业案例》学习笔记之十一的相关文章

《SAS编程和数据挖掘商业案例》学习笔记# 19

继续<SAS编程与数据挖掘商业案例>学习笔记,本文側重数据处理实践.包含:HASH对象.自己定义format.以及功能强大的正則表達式 一:HASH对象 Hash对象又称散列表,是依据关键码值而直接进行訪问的数据结构.是依据关键码值而直接进行訪问的数据结构. sas提供了两个类来处理哈希表.用于存储数据的hash和用于遍历的hiter,hash类提供了查找.加入.改动.删除等方法,hiter提供了用于定位和遍历的first.next等方法. 长处:键值的查找是在内存中进行的,有利于提高性能:

《SAS编程与数据挖掘商业案例》学习笔记之十九

继续<SAS编程与数据挖掘商业案例>学习笔记,本文侧重数据处理实践,包括:HASH对象.自定义format.以及功能强大的正则表达式 一:HASH对象 Hash对象又称散列表,是根据关键码值而直接进行访问的数据结构,是根据关键码值而直接进行访问的数据结构, sas提供了两个类来处理哈希表,用于存储数据的hash和用于遍历的hiter,hash类提供了查找.添加.修改.删除等方法,hiter提供了用于定位和遍历的first.next等方法. 优点:键值的查找是在内存中进行的,有利于提高性能: h

《SAS编程与数据挖掘商业案例》学习笔记之十六

<SAS编程与数据挖掘商业案例>学习笔记,本次重点:sas宏变量 内容包含:宏变量.宏函数.宏參数.通配函数.字符函数.计算函数.引用函数.宏语句.宏应用 1.宏触发器: %name-token:是一个宏语句或宏函数 &name-token:是一个宏变量引用 宏变量不依赖于sas数据集,能够在不论什么一个除数据行以外的地方定义和引用宏变量,一般定义的宏变量为局部变量,除非使用%global,定义宏变量用%let,显示宏变量用%put,调用宏变量用&. eg: %let a=xx

《SAS编程与数据挖掘商业案例》学习笔记之十五

继续<SAS编程与数据挖掘商业案例>读书笔记,本次重点:输出控制 主要内容包括:log窗口输出控制.output窗口输出控制.ods输出控制 1.log窗口输出控制 将日志输出到外部文件 proc printto log= "f:\data_model\book_data\chapt9\newlog.txt"; new; proc print data=sashelp.class; proc printto;run; 2.output窗口输出控制 输出sas数据集到外部文件

《SAS编程与数据挖掘商业案例》学习笔记之十八

接着以前的<SAS编程与数据挖掘商业案例>,之前全是sas的基础知识,现在开始进入数据挖掘方面笔记,本文主要介绍数据挖掘基本流程以及应用方向,并以logistic回归为例说明. 一:数据挖掘综述 衡量一个数据挖掘模型价值的唯一标准就是商业目标,为达到一个商业目标,有很多种方法,只有高效解决商业目标的方法才是最牛的方法,即使是看似简单的方法,只要能高效解决商业目标,我们就认为是牛的方法: 面对海量的数据,即使是使用了最先进的工具,最复杂的算法,但是如果挖掘出来的知识是无用的,或者挖掘的结果是无法

《SAS编程与数据挖掘商业案例》学习笔记之十

继续之前的读书笔记,本次讲解sas主要的变量操作,包括基本赋值语句.累加语句.keep语句.retain语句.array语句.rename语句.length语句. 1.基本赋值语句 z=x y; z=sum(x,y);  sum函数的好处是可以克服缺失值的影响: 2.如果表达式中既有数值型变量又有字符型变量的话,则会将字符型变量转化为数值型变量 3.系统在编译阶段,对于赋值语句变量,如果是字符型变量则长度为1,如果是数值型变量则长度为8,接下来,系统将执行赋值语句,这时变量长度将由第一次读入的表

《SAS编程与数据挖掘商业案例》学习笔记之十七

继续读书笔记,本次重点sas sql语句,由于sql内容多且复杂,本文只介绍商业应用中常用的并且容易出错的地方,内容包括:单表操作.多表关联.子查询以及merge和join的区别 1.单表操作 eg1: Proc sql outobs=10: *可选项,功能类似于data步中的obs数据集选项 create table class as Select  name, case when sex eq 'M' then "1" when sex eq 'F'  then "2&q

《SAS编程与数据挖掘商业案例》学习笔记之十三

本次重点:data步循环与控制 涉及:if/then/else语句,select语句,do语句,continue语句,leave语句 1.if then else 语句 高效率的if应用: 1) If  x=1 then y=1; Else if x=2  then y=2; Else y=3; 对于每一个数据集的观测,if-then-else只会判断一次,为真则执行 2) If status=1 then If status=5 then If status=9 then output; 高效

《SAS编程与数据挖掘商业案例》学习笔记之八

十:file语句 file中的option选项: Dlm=              指定列表输出文件的分隔符,默认是空格 Dropover      规定当输出数据行长度超过指定值时,忽略超出部分 Flowover    规定当输出数据行长度超过指定值时,超过部分在下一行输出 Dsd   规定一个数据项可以包含分隔符,但是要用引号括住  默认分隔符是逗号 Encoding=  指定输出外部文件所用编码 Filename=   定义一个临时变量,用于接收put语句打开的文件名,默认长度为8 Fi