统计学习导论:基于R应用——第三章习题

第三章习题

部分证明题未给出答案

1.

表3.4中,零假设是指三种形式的广告对TV的销量没什么影响。而电视广告和收音机广告的P值小说明,原假设是错的,也就是电视广告和收音机广告均对TV的销量有影响;报纸的P值高,说明原假设成立,也就是报纸广告对TV的销量没啥影响。

2.

KNN回归和KNN近分类都是典型的非参数方法。这两者的区别在于,前者的输入和输出均为定量值;而后者的输入和输入和输出均为定性值。

3.

首先,有题目可知下面关系:Y = 50 + 20(gpa) + 0.07(iq) + 35(gender) + 0.01(gpa * iq) - 10 (gpa * gender)

(a) 当IQ和GPA一定的时候,Y的可变量是35*gender-10(gpa*gender).所以当GPA小的时候,无法判断前面变量的正负号,而当GPA足够大的时候,该变量一定是负的。所以当GPA足够大时,男性平均收入高于女性

(b) 直接套公式Y= 50 + 20 * 4 + 0.07 * 110 + 35 + 0.01 (4 * 110) - 10 * 4= 137.1

(c)错误。中文版61页有比较好的解释,实验分层原则规定:如果模型中含有交互项,那么即使主效应的系数的p值不显著,也应该包含在模型中。

4.

(a)一般来说,三次回归的训练RSS会比线性回归的训练RSS小,因为三次回归会对数据进行贴近训练集的拟合。

(b)题目中明确说明该数据的实际模型是线性拟合,所以用三次拟合会产生过拟合,而线性拟合有更好的泛化能力,所以线性回归的测试RSS小。

(c)答案和(a)一样

(d)由于不知道实际情况,所以无法判断。

8.

Auto = read.table("Auto.data.txt", header = T ,na.strings="?")
Auto = na.omit(Auto)

(a)

attach(Auto)
lm.fit = lm(mpg ~ horsepower)
summary(lm.fit)

i.由summary的结果来看,F-statistic很大而p-value很小,说明两者是有相关性的。

ii.由书的54页可知,看拟合效果如何,得看RSE和R-square。书上55页讲的挺清楚,不过目前不知道RSE在这里怎么解释拟合效果。。囧。。R-square为0.6059,这说明Y的变异中能被X解释的部分所占比例有60.59%

iii.由拟合出的参数可知,负相关。

iv.predict(lm.fit, data.frame(horsepower=c(98)), interval="confidence")。结果是24.47,置信区间是(23.97, 24.96)

 predict(lm.fit, data.frame(horsepower=c(98)), interval="prediction")。预测区间是(14.81, 34.12)

(b)

plot(horsepower, mpg)
abline(lm.fit)

(c)

par(mfrow=c(2,2))
plot(lm.fit)

9.

(a)

Auto = read.table("Auto.data.txt", header = T ,na.strings="?")
Auto = na.omit(Auto)
pairs(Auto)

(b)

cor(subset(Auto, select=-name))

(c)

lm.fit1 = lm(mpg~.-name, data=Auto)

summary(lm.fit1)

i.有。有f-statistic和p-value值可以判断

ii.由p-value小于0.05可知,displacement, weight, year, and origin这几个预测变量和响应变量有显著关系。

iii.车龄变量的系数是0.75,这说明随着车龄的增加,车子会越来越耗油。

(d)

par(mfrow=c(2,2))
plot(lm.fit1)

plot(predict(lm.fit1), rstudent(lm.fit1))

(e)

lm.fit2 = lm(mpg~cylinders*displacement+displacement*weight)
summary(lm.fit2)

(f)

lm.fit3 = lm(mpg~log(weight)+sqrt(horsepower)+acceleration+I(acceleration^2))
summary(lm.fit3)

par(mfrow=c(2,2))
plot(lm.fit3)

plot(predict(lm.fit3), rstudent(lm.fit3))

lm.fit2<-lm(log(mpg)~cylinders+displacement+horsepower+weight+acceleration+year+origin,data=Auto)
summary(lm.fit2)

par(mfrow=c(2,2))
plot(lm.fit2)

plot(predict(lm.fit2),rstudent(lm.fit2))

10.

(a)

library(ISLR)
summary(Carseats)

attach(Carseats)
lm.fit = lm(Sales~Price+Urban+US)
summary(lm.fit)

(b)

由summary(lm.fit)的结果的p-value和t-statistic可知,Price和US与Sales有关,Urban和Sales无关

(c)

Sales = 13.04 + -0.05*Price - 0.02*Urban + 1.20*US,其中Urban和US为YES时,值为1,否则为0

(d)

Price and US

(e)

由上面分析可知,Urban与Sales无关,所以我们可以去掉这个变量

lm.fit2 = lm(Sales~Price+US)
summary(lm.fit2)

(f)

(a)中Multiple R-squared:  0.239,  Adjusted R-squared:  0.234,(e)中Multiple R-squared:  0.239,  Adjusted R-squared:  0.235 ,可知两者拟合度差不多,而(e)稍微好点

(g)

confint(lm.fit2)

(h)

plot(predict(lm.fit2), rstudent(lm.fit2))

通过这个命令得到的图,我们可知,stuendtize residuals的范围在-3到3之间,所以没有离群点

par(mfrow=c(2,2))
plot(lm.fit2)

通过这个命令得到的图,我们可知,有一些点远远超过了其他点,故存在高杆点

11.

按照题目要求先生成x和y

set.seed(1)
x = rnorm(100)
y = 2*x + rnorm(100)

(a)

lm.fit = lm(y~x+0)
summary(lm.fit)

由结果可知,p-value接近0可知,原假设不成立

(b)

lm.fit = lm(x~y+0)
summary(lm.fit)

由结果可知,p-value接近0可知,原假设不成立

(c)

这个问题问得让我都觉得奇怪。。。答案是说明x和y确实是有关系么

(d)

由(a)中结果可知,t-value为18.73.而(sqrt(length(x)-1) * sum(x*y)) / (sqrt(sum(x*x) * sum(y*y) - (sum(x*y))^2))计算结果为18.72593

(e)

我们把t(x,y)换成t(y,x),会得到t(x,y)=t(y,x)

(f)

对比(a)和(b)结果就行

12.

由公式

<a href="http://www.codecogs.com/eqnedit.php?latex=\beta&space;=&space;\frac{\sum_{i=1}^{n}x_{i}y_{i}}{\sum_{i‘=1}^{n}x_{i‘}^{2}}" target="_blank"><img src="http://latex.codecogs.com/gif.latex?\beta&space;=&space;\frac{\sum_{i=1}^{n}x_{i}y_{i}}{\sum_{i‘=1}^{n}x_{i‘}^{2}}" title="\beta = \frac{\sum_{i=1}^{n}x_{i}y_{i}}{\sum_{i‘=1}^{n}x_{i‘}^{2}}" /></a>

时间: 2024-11-06 10:01:30

统计学习导论:基于R应用——第三章习题的相关文章

统计学习导论:基于R应用——第四章习题

第四章习题,部分题目未给出答案 1. 这个题比较简单,有高中生推导水平的应该不难. 2~3证明题,略 4. (a) 这个问题问我略困惑,答案怎么直接写出来了,难道不是10%么 (b) 这个答案是(0.1*0.1)/(1*1),所以答案是1% (c) 其实就是个空间所占比例,所以这题是(0.1**100)*100 = 0.1**98% (d) 这题答案显而易见啊,而且是指数级别下降 (e) 答案是0.1**(1).0.1**(1/2).0.1**(1/3)...0.1**(1/100) 5. 这题

算法竞赛入门经典第二版第三章习题

写这个的原因是看到一位大神的习题答案总结,于是自己心血来潮也想写一个这个,目的主要是督促自己刷题吧,毕竟自己太弱了. 习题3-1 得分 UVa 1585 大致就是设置一个变量记录到当前为止的连续的O的数量,碰到X就变0,水题. #include<stdio.h> #include<ctype.h> #include<string.h> char s[90]; int main(void) { int length,n,sum,num; scanf("%d&qu

《基于微服务架构的在线学习系统设计与实现》第三章 文献随笔(四)

一.基本信息 标题:基于微服务架构的在线学习系统设计与实现 时间:2019 来源:微服务架构 关键字:在线学习系统:微服务架构:spring cloud框架:API网关 二.研究内容 1.研究背景 基于对国内外的各学习网站的体验与分析,结合软件工程的需求分析方法,综合大学生的学习习惯以及学习方法对系统进行的功能性需求分析以及非功能性需求分析. 2.在线学习系统的需求分析   (1)功能需求分析 学生用户需求分析: 网站注册.用户登录.个人信息管理.课程列表.课程公告.课程评分.课程收藏.课程讨论

R语言第三章 统计绘图表示第二节

R语言 第2节 1. 散点图 plot(x$x1,x$x2, main="数学分析与线性代数成绩的关系", xlab="数学分析", ylab="线性代数", xlim=c(0,100), ylim=c(0,100), xaxs="i",#Setx axis style as internal yaxs="i",#Sety axis style as internal col="red"

汇编语言:基于 X86 处理器第三章复习笔记

一:基本语言元素 1:整数常量 整数常量表达式:[{ + / - }] digits [ radix ] 整数常量的表达与进制是分不开的,通常通过在尾部添加字母加以区分: 十六进制 h 十进制   t(一般省略) 八进制   o/q 二进制   b 编码实数 r 注意:以字母开头的十六进制为了与标识符分区,必须在前面加数字 0 2:整形常量表达式 整形常量表达式是指一种算术表达式,由整数常量,算术运算符构成,注意:整形常量表达式的运算结果也必须是一个整数常量,其位数应该在处理器的位数之内 算术表

《算法导论》读书笔记--第三章 函数的增长

好长时间了,继续算法导论. 当输入规模足够大时,并不计算精确的运行时间,倍增常量和低阶项被舍去.我们要研究的是算法的渐近效率,即在输入规模无限量时,在极限中,算法的运行时间如何随着输入规模的变大而增加.通常,渐近的更有效的某个算法除对很小得到输入外都是最好的选择. 3.1渐近符号 用渐近符号来刻画算法的运行时间.

《算法导论》读书笔记--第三章函数的增长 课后题

本章的课后题看一下即可,比较平凡. 3.1渐近记号 引用一下别人的答案,非常感谢: 原文地址:http://www.cnblogs.com/timebug/archive/2010/03/25/1694286.html |概念回顾| 当输入规模大到使只有运行时间的增长量级有关时,就使在研究算法的渐进效率. 几个重要渐进记号的定义: Θ(g(n))={ f(n): 存在正常数c1,c2和n0,使对所有的n>=n0,有0<=c1g(n)<=f(n)<=c2g(n) } O(g(n))=

java第一天学习内容回顾——java白皮书第三章

java虚拟机可以使用即时编译和字节码(为达到独立于平台的特性)两种,对使用频繁的字节码序列将编译成机器码实现即时编译. java中基本类型的字节数是固定的(为方便移植),与C/C++不同(它们只确定了相对大小关系),java中byte(1) short(2) int(4) long(8) float(4) double(8). java分为标准版.微型版(嵌入式).企业版(后端) HTML是描述网页结构的方式,java是程序设计语言,其内容提供的applet可以嵌入网页中. XML是描述数据结

java第二天学习内容回顾——java白皮书第三章

对于由控制台进行输入时,需要利用到Scanner控件进行辅助,可以利用它进行整行或者单字节的读取,此外需要注意,如果是密码方面的输入问题,需要利用的Console空间,其限制每次只能固定读取一整行. java需要包含某些包时,利用import保留字,不同于Include java关于格式化输出问题的详述于白皮书P57 String.format方法的使用与作用类似于print,但不同处在于前者只是创建了一个格式化的字符串,而后者则是打印出格式化的字符串. 对于当前时间的多种打印形式详述与白皮书P