学习日志---线性回归实现

由对偏导数的计算可以得到w的计算公式:如下

假定输入数据存放在矩阵x中,而回归系数存放在向量w中。那么对于给定的数据,预测结果将会通过给出。对于x和y,如何找到w?常用的方法是找到平方误差最小的w。

平方误差可以写做:

用矩阵表示还可以写做。对w求导,解得w如下:

采用的数据是在UCI上下载的回归汽车msg性能的数据集;

由于下载的数据格式不标准,因此这里自己写了一段java代码将数据集的格式进行了重新的规整,代码如下:

import java.io.BufferedReader;
import java.io.BufferedWriter;
import java.io.File;
import java.io.FileInputStream;
import java.io.FileOutputStream;
import java.io.InputStreamReader;
import java.io.OutputStreamWriter;

public class MyMaze {
    
    public static void main(String[] args) throws Exception {
        FileInputStream fileInputStream = new FileInputStream(new File("E:\\DataRegression.txt"));
        BufferedReader bufferedReader = new BufferedReader(new InputStreamReader(fileInputStream));
        File file = new File("E:\\result.txt");
        FileOutputStream fileOutputStream = new FileOutputStream(file);
        BufferedWriter bufferedWriter = new BufferedWriter(new OutputStreamWriter(fileOutputStream));
        String line;
        String newline = null;
        while((line = bufferedReader.readLine())!=null)
        {
            if(line == null)
            {
                break;
            }
            int length = line.length();
            for(int i = 0; i<length; i++)
            {
                while(line.charAt(i)==‘ ‘)
                {
                    if(line.charAt(i+1)!=‘ ‘)
                    {
                        newline = newline + " ";
                        break;
                    }
                    i++;
                }
                newline = newline + line.charAt(i);
            }
            newline = newline + "\r\n";
            newline = newline.substring(4);
            bufferedWriter.write(newline);
           
            newline = null;
        }
        
        bufferedWriter.close();
    }
    

}
输出的文件是每个变量之间都有两个空格的数据集,其中第一项是因变量,也就是msg。

下面是采用python方法对数据集进行线性回归:

import numpy as np
import matplotlib.pyplot as plt

numFeat = len(open(‘result.txt‘).readline().split(‘  ‘))
dataMat = []; labelMat = []
fr = open(‘result.txt‘)
//这里对每行的数据进行分割,提取每行的数据
for line in fr.readlines():
    lineArr=[]
    curline = line.split(‘  ‘)
    for i in range(1,numFeat):
        lineArr.append(float(curline[i]))
    dataMat.append(lineArr)
    labelMat.append(float(curline[0]))
//将序列转为矩阵
xMat = np.mat(dataMat)
yMat = np.mat(labelMat).T
xTx = xMat.T*xMat
/判断行列式的值是否为0
if np.linalg.det(xTx) == 0.0:
    print "wrong"
//利用公式求参数
ws = xTx.I*(xMat.T*yMat)

//利用matplotLib画图,制定在fig中
fig = plt.figure()
ax = fig.add_subplot(111)
xCopy = xMat.copy()
xCopy.sort(0)
yHat = xCopy*ws
//这里是找x矩阵中某一项与yHat的关系,如这里是第二项
ax.plot(xCopy[:,1],yHat)
//展示图像
plt.show()

//这里是求出相关系数的函数,越接近1越好
yHat = xMat*ws
print yHat.T.shape
print yMat.shape
print np.corrcoef(yHat.T, yMat.T)
时间: 2024-10-23 17:06:29

学习日志---线性回归实现的相关文章

学习日志---线性回归与logistic回归

导说: 都属于广义线性回归范畴. 线性回归分析:一元线性(当个因变量,一次,是条直线): 多元线性(因变量有很多个,但也是一次,在空间中就是一个平面): 广义线性(高维线性回归,也就是一个超平面) (都是一次的,因此称为线性回归) 非线性回归分析:非一次的,是曲线,有些可以用线性模型处理,称为广义线性模型,例如Logistic回 归:. 困难:筛选变量(降维技术),避免多重共线性(某一变量依赖于其他几个变量),观察拟合方程,避 免过拟合... 使用线性回归依据: 对于线性回归,可以使用相关系数判

winform学习日志(二十三)---------------socket(TCP)发送文件

一:由于在上一个随笔的基础之上拓展的所以直接上代码,客户端: using System; using System.Collections.Generic; using System.ComponentModel; using System.Data; using System.Drawing; using System.Linq; using System.Text; using System.Windows.Forms; using System.Net.Sockets; using Sys

Linux学习日志2-vim使用基础

vim是linux操作系统下的一个文本编辑工具,功能非常强大,但刚学习起来比较复杂.vim的所有功能要讲明白得有几百页,在这里只是记录一下vim的一些基本用法. 首先vim打开文件的三种方式: vim +# xxx(#是数字):表示打开xxx文件并将光标定位到指定行. vim -o xx1 xx2 xx3:表示同时打开三个文件,垂直分割显示 vim -O xx1 xx2 xx3:表示同时打开三个文件,水平分割显示 多个文件间跳转:键入ctrl+w后:→向左.←向右.↑向上.↓向下 vim打开文件

Linux学习日志day1——无人值守系统安装DHCP+TFTP+PXE+Kickstar

Linux学习日志day1--无人值守批量系统远程网络安装(DHCP+TFTP+PXE+Kickstar)                                         --作者:江信瀚 服务器环境介绍: 主机名:workstation.example.com 关闭SElinux以及防火墙 虚拟机:VMware(关闭了VMware的DHCP服务) 网卡配置: 静态IP获取! IPV6全部都删除,因为根本用不到 子网IP可以在VMware中设置 8.8.8.8是谷歌的DNS服务器

Cocos2d-x 3.1.1 学习日志4--cocos2d-x解决中文乱码问题的几种办法

做个打飞机的游戏,由于版本太新,网上基本没有教教程,我的版本是cocos2d-x 3.1.1的,今天遇到cocos2dx中中文乱码的问题.无奈只好Google百度寻求答案,明白了这个问题的缘由.因为cocos2d-x内部是以utf8处理文本的,而VS直接输入时文本编码为GBK,如果添加L标志,则为Unicode编码. 解决这个问题有三种办法: 将源代码文件保存为utf8编码,不过由于编译器的问题,这种方式会导致很多无法预测的问题 将字符串用utf8编码集中存到一文件中,然后用代码读取这些字符串来

Cocos2d-x 3.1.1 学习日志3--C++ 初始化类的常量数据成员、静态数据成员、常量静态数据成员

有关const成员.static成员.const static成员的初始化: 1.const成员:只能在构造函数后的初始化列表中初始化 2.static成员:初始化在类外,且不加static修饰 3.const static成员:类只有唯一一份拷贝,且数值不能改变.因此,可以在类中声明处初始化,也可以像static在类外初始化 #include <iostream> using std::cout; using std::endl; class base { public: base(int

SQL 学习日志01

查看一个数据库的所有表: Select TABLE_NAME FROM 数据库名称.INFORMATION_SCHEMA.TABLES Where TABLE_TYPE='BASE TABLE' (select * from 表名 where 条件) 查看一张表的表结构: sp_help table_name(表名)  获取的信息比较全 sp_columns table_name(表名) 创建数据库: use master go create database test01(数据库名) 删除数据

SQL 学习日志02

SQL数据类型 1.字符类型 char   --定长字符数据   如 char(12)  这字段就会占用12字节的空间,无论这个字段只填写了2个字节.一般在可确定这字段长度时选用,如sex字段(因只有男和女两项可选)就可用 char(2). varvhar   --可变长字符数据  如varchar(50) 这字段最大只能填写50字节,按实际填写的字节存储.一般在不确定这字段长度时使用,如 Smail字段(因邮箱的长度不确定) 就可用varchar(50). text    --用来存储大量非统

Linux学习日志1-基本知识

1.冯.诺依曼体系计算机五大组成部件: 1.控制器:控制其他四个部件的运作 2.运算器:负责计算加减乘除 3.存储器:存放运算的数据来源与结果 4.输入设备:接收数据输入存入存储器 5.输出设备:从存储器接收数据输出 2.Linux的起源: 1991年一个芬兰大学生Linus Torvalds参考其老师的教学用操作系统Minix的思想(注意仅仅是思想),自己写了一个操作系统内核,命名为Linux 0.0.1,发布在comp.os.minix新闻组上,正式宣告Linux内核的诞生.从那时起,Lin