R_Studio(癌症)以等宽类别值、自定义类别值、等频类别值(分为5类)

  对“癌症.csv”中的肾细胞癌组织内微血管数进行连续属性的离散化处理

  增加“微血管数分类1”属性,取值为等宽类别值(分为5类),增加“微血管数分类2”属性,取值为自定义类别值(0~40,41~60,61~120,121~150,151~200,201~250),增加“微血管数分类3”属性,取值为等频类别值(分为5类)

  

setwd(‘D:\\data‘)

list.files()

#读取数据
dat=read.csv(file="癌症.csv",header=TRUE)
#等宽类别值
v1=dat[,4]/max(dat[,4])*5
v1=ceiling(v1)#将得到的值向上取整
dat=data.frame(dat,‘微血管数分类1‘=v1)#变量重命名,存入数据

#自定义类
c2=c(0,40,60,120,150,200,250)
v2=cut(dat[,4],c2,labels = F,right = T)
dat=data.frame(dat,‘微血管数分类2‘=v2)#变量重命名,存入数据

names(dat)=c("f1","f2","f3","f4","f5","f6") #变量重命名
#attach(data)
n=length(dat[,1])
k=5#等频划分为5组
m=length(k)
data=dat[order(dat$f4),]#按大小排序作为离散化依据

v3=rep(1:k, each = n/k, len = n)#定义新变量

dat=data.frame(dat,"微血管数分类3"=v3)

Gary.R

  

实现过程

  增加“微血管数分类1”属性,取值为等宽类别值(分为5类)

v1=dat[,4]/max(dat[,4])*5
v1=ceiling(v1)#将得到的值向上取整
dat=data.frame(dat,‘微血管数分类1‘=v1)#变量重命名,存入数据
输出:[1] 1 2 4 3 2 2 2 5 2 2 3 2 2 1 1 2 3 3 1 4 2 3 4 3 3

  (区间值 / max()*等宽 分类 控制数值区间在1~5)

  

  增加“微血管数分类2”属性,取值为自定义类别值(0~40,41~60,61~120,121~150,151~200,201~250)

c2=c(0,40,60,120,150,200,250)
v2=cut(dat[,4],c2,labels = F,right = T)
dat=data.frame(dat,‘微血管数分类2‘=v2)#变量重命名,存入数据
输出: [1] 2 2 5 4 3 3 3 6 3 3 4 3 2 2 1 3 4 3 2 5 2 4 5 4 4

  cut()函数:切割将x的范围划分为时间间隔

  参数:

  breaks:两个或更多个唯一切割点或单个数字(大于或等于2)的数字向量,给出x被切割的间隔的个数。

  breaks:采用fivenum():返回五个数据:最小值、下四分位数、中位数、上四分位数、最大值。

  labels:为区间数,打标签

  right=T:右区间取闭区间(10,20]

  增加“微血管数分类3”属性,取值为等频类别值(分为5类)

n=length(dat[,1])
k=5#等频划分为5组
m=length(k)
data=dat[order(dat$肾细胞癌组织内微血管数),]#按大小排序作为离散化依据
v3=rep(1:k, each = n/k, len = n)#定义新变量
dat=data.frame(dat,"微血管数分类3"=v3)
输出:[1] 1 1 1 1 1 2 2 2 2 2 3 3 3 3 3 4 4 4 4 4 5 5 5 5 5

  rep()函数  传送门

rep(x, ...)

rep.int(x, times)

rep_len(x, length.out)

rep函数有4个参数:
x:向量或者类向量的对象
each:x元素每个重复次数
times:each后的向量的处理,如果times是单个值,则each后的值整体重复times次数,如果是x each后的向量相等长度的向量,则对each后的每个元素重复times同一位置的元素的次数,否则会报错
length.out指times处理后的向量最终输出的长度,如果长于生成的向量,则补齐。也就是说rep会先处理each参数,生成一个向量X1,然后times再对X1进行处理生成X2,length.out在对X2进行处理生成最终输出的向量X3> rep(1:4,times=c(1,2,3,4))  #与向量x等长times模式

[1] 1 2 2 3 3 3 4 4 4 4
> rep(1:4,times=c(1,2,3))  #非等长模式,出现错误
Error in rep(1:4, times = c(1, 2, 3)) : invalid ‘times‘ argument
> rep(1:4,each=2,times=c(1,2,3,4)) #还是非等长模式,因为each后的向量有8位,而不是4位
Error in rep(1:4, each = 2, times = c(1, 2, 3, 4)) :
invalid ‘times‘ argument
> rep(1:4,times=c(1,2,3,4))  #等长模式,我写重了o(╯□╰)o
[1] 1 2 2 3 3 3 4 4 4 4
> rep(1:4,times=c(1,2,3,4),each=3) #重复的例子啊,莫拍我
Error in rep(1:4, times = c(1, 2, 3, 4), each = 3) :
invalid ‘times‘ argument
> rep(1:4,each=2,times=1:8)   #正确值,times8位长度向量
[1] 1 1 1 2 2 2 2 2 2 2 3 3 3 3 3 3 3 3 3 3 3 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4
> rep(1:4,each=2,times=1:8,len=3)   #len的使用,循环补齐注意下
[1] 1 1 2
> rep(1:4,each=2,times=3)   #先each后times
[1] 1 1 2 2 3 3 4 4 1 1 2 2 3 3 4 4 1 1 2 2 3 3 4 4
>rep函数完毕!
 

rep()函数

  

原文地址:https://www.cnblogs.com/1138720556Gary/p/9721477.html

时间: 2024-10-11 18:07:30

R_Studio(癌症)以等宽类别值、自定义类别值、等频类别值(分为5类)的相关文章

自定义函数中的参数返回值 “-> (Int -> Int)”的问题

func makeIncrementer() -> (Int -> Int) { func addOne(number: Int) -> Int { return 1 + number } return addOne } var increment = makeIncrementer() println(increment(7)) 这里为什么要写两个 Int->Int 这里是返回值是参数,左边是参数,右边是返回值的意思. 自定义函数中的参数返回值 "-> (Int

Android开发 AIDL使用自定义对象作参数或返回值

http://www.pocketdigi.com/20121129/952.html 默认,AIDL支持对象作参数,但需要该对象实现Parcelable接口,且aidl文件应该是该类在同一包下,需要单独给该类定义一个aidl文件.定义模型类:EnglishItem.java: 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40

C++11之右值引用(二):右值引用与移动语义

上节我们提出了右值引用,可以用来区分右值,那么这有什么用处?   问题来源   我们先看一个C++中被人诟病已久的问题: 我把某文件的内容读取到vector中,用函数如何封装? 大部分人的做法是: void readFile(const string &filename, vector<string> &words) { words.clear(); //read XXXXX } 这种做法完全可行,但是代码风格谈不上美观,我们尝试着这样编写: vector<string&

二叉树权值最大的叶子节点到权值最小的叶子节点的距离

有一棵二叉树,树上每个点标有权值,权值各不相同,请设计一个算法算出权值最大的叶节点到权值最小的叶节点的距离.二叉树每条边的距离为1,一个节点经过多少条边到达另一个节点为这两个节点之间的距离. 给定二叉树的根节点root,请返回所求距离. 真是醉了,看漏了叶子节点. 代码: 1 import java.util.*; 2 3 /* 4 public class TreeNode { 5 int val = 0; 6 TreeNode left = null; 7 TreeNode right =

为什么 Java 只有值传递,但 C# 既有值传递,又有引用传递,这种语言设计有哪些好处?

为什么 Java 只有值传递,但 C# 既有值传递,又有引用传递,这种语言设计有哪些好处? http://www.zhihu.com/question/20628016 Java值传递的终极解释 http://developer.51cto.com/art/201103/251163.htm

&lt;10&gt; 无参无返回值+ 无参有返回值函数的定义+有参无返回值函数定义+ 有参有返回值函数定义+函数的参数+函数的参数传递过程

无参无返回值: 1 #include <stdio.h> 2 3 4 /** 5 * 定义一个无参无返值函数 6 * 7 */ 8 void print_line(){ 9 10 printf("-----------------\n"); 11 12 } 13 14 15 16 int main(int argc, const char * argv[]) { 17 //调用函数 18 print_line(); 19 20 return 0; 21 } 无参有返回值函数

关于readdir返回值中struct dirent.d_type的取值问题

原网页链接 http://www.gnu.org/software/libc/manual/html_node/Directory-Entries.html 原文及翻译 混在一起写了 unsigned char d_type This is the type of the file, possibly unknown. The following constants are defined for its value: DT_UNKNOWN The type is unknown. Only s

C#自定义将各种对象转换成JSON格式的类

这个C#封装类可以用于将各种格式的数据转换成JSON格式,包括List转换成Json,普通集合转换Json ,DataSet转换为Json ,Datatable转换为Json ,DataReader转换为Json等,如果你需要将对象转换成JSON,可以使用这个类. using System; using System.Collections.Generic; using System.Text; using System.Data; using System.Reflection; using

java 反射: 当Timestamp类型的属性值为null时,设置默认值

import java.beans.PropertyDescriptor; import java.lang.reflect.Field; import java.lang.reflect.Method; import java.sql.Timestamp; class Person { private String name; private int age; private Timestamp birth; public Timestamp getBirth() { return birth