最近在看李航的统计学习方法P11时发现一个多项式函数拟合问题觉得公式的推导有问题,于是看了一些资料发现这里的推倒是有错误的,用python编程验证后发现按书上的求导结果拟合后的函数图像完全不对,下面给出正确的推导结果和对应的python实现与拟合效果。
(第一次写了一版这篇博客,公式自己敲的,但是从别人那里贴的代码,后面感觉那个代码思路没问题,但就是进行了很多次重复计算,数据量大的时候效率低,而且很多地方对python的语言特性利用不足,写的有点类似C语言风格,比较晦涩。于是乎,把代码重写了一次,准备把文章撤下来重新贴自己的代码,这时候发现没有保存,前面用Tex敲的一堆公式就没了,心中顿时万马奔腾。。。。好在今天考试考完,强行克服拖延症把这篇文章重写一遍并附上重写的代码。)
下面开始正文
问题描述
假定给定一个训练数据集:
T={(x1,y1),(x2,y2),?,(xN,yN)}
其中,xi∈R是输入x的观测值,yi∈R是相应的输出y的观测值,i=1,2,?,N,多项式函数拟合的任务是假设给定数据由M次多项式函数生成,选择最有可能产生这些数据的M次多项式函数,即在M次多项式函数中选择一个对已知数据以及未知数据都有很好预测能力的函数。
设M次多项式为
fM(x,w)=w0+w1x+w2x2+?+wMxM=∑j=0Mwjxj
式中x式单变量输入,w0,w1,?,wm是M+1个参数。
用平方损失作为损失函数,系数12是为了方便计算,将模型与训练数据代入,有
L(w)=12∑i=1N(∑j=0Mwjxji?yi)2
对wj求偏导并令其为0
书里这里的求导是错误的,就不写错误的推导了,下面给出正确的推导
set? L(w)?wk=0?12∑i=1N2(∑j=0Mwjxji?yi)×xki=0?∑i=1N∑j=0Mwjxji=∑i=1Nxkiyi(k=0,1,2,?,M)
所以要求拟合多项式系数w?0,w?1,?,w?M需要解下面这个线性方程组,下面的求和符号上下限都是i=1到N,为了方便略去不写。
??????????N∑xi∑x2i?∑xMi∑xi∑x2i∑x3i?∑xM+1i∑x2i∑x3i∑x4i?∑xM+2i?????∑xMi∑xM+1i∑xM+2i?∑x2Mi??????????????????w0w1w2?wm????????=??????????∑yi∑xiyi∑x2iyi?∑xMiyi??????????
所以计算出∑i=1Nxji(j=0,1,2,?,2M)和∑i=1Nxjiyi(j=0,1,2,?,M)然后将这些值带入上述线性方程组求解即可。
下面给出python实现
# coding=utf-8
‘‘‘
作者:Xiaole Wen
程序:多项式曲线拟合算法
‘‘‘
import matplotlib.pyplot as plt
import math
import numpy
import random
fig = plt.figure()
ax = fig.add_subplot(111)
#在这里给出拟合多项式的阶数
order=9
#生成曲线上的各个点
x = numpy.arange(-1,1,0.02)
y = [((a*a-1)*(a*a-1)*(a*a-1)+0.5)*numpy.sin(a*2) for a in x]
#ax.plot(x,y,color=‘r‘,linestyle=‘-‘,marker=‘‘)
#,label="(a*a-1)*(a*a-1)*(a*a-1)+0.5"
plt.plot(x,y)
#生成的曲线上的各个点偏移一下,并放入到xa,ya中去
i=0
xa=[]
ya=[]
for xx in x:
yy=y[i]
d=float(random.randint(60,140))/100
#ax.plot([xx*d],[yy*d],color=‘m‘,linestyle=‘‘,marker=‘.‘)
i+=1
xa.append(xx*d)
ya.append(yy*d)
ax.plot(xa,ya,color=‘m‘,linestyle=‘‘,marker=‘.‘)
#存储从0次到m次的所有冥方和
bigMat=[]
for j in range(0,2*order+1):
sum=0
for i in range(0,len(xa)):
sum+=(xa[i]**j)
bigMat.append(sum)
#计算线性方程组系数矩阵
matA=[]
for rowNum in range(0,order+1):
row=bigMat[rowNum:rowNum+order+1]
matA.append(row)
matA=numpy.array(matA)
matB=[]
for i in range(0,order+1):
ty=0.0
for k in range(0,len(xa)):
ty+=ya[k]*(xa[k]**i)
matB.append(ty)
matB=numpy.array(matB)
matAA=numpy.linalg.solve(matA,matB)
#画出拟合后的曲线
#print(matAA)
xxa= numpy.arange(-1,1.06,0.01)
yya=[]
for i in range(0,len(xxa)):
yy=0.0
for j in range(0,order+1):
dy=(xxa[i]**j)
dy*=matAA[j]
yy+=dy
yya.append(yy)
ax.plot(xxa,yya,color=‘g‘,linestyle=‘-‘,marker=‘‘)
ax.legend()
plt.show()
下面给出阶叔分别取3和取9的时候的拟合结果
图中蓝色的线代表原始数据生成函数,绿色代表拟合函数
版权声明:本文为博主原创文章,未经博主允许不得转载。