Octave/Matlab Tutorial

Basic Operations

你现在已经掌握不少机器学习知识了在这段视频中我将教你一种编程语言 Octave语言 你能够用它来非常迅速地实现这门课中我们已经学过或者将要学的机器学习算法

过去我一直尝试用不同的编程语言来教授机器学习包括C++、Java、 Python、Numpy 和 Octave 我发现当使用像 Octave这样的高级语言时学生能够更快更好地学习并掌握这些算法

事实上在硅谷我经常看到的情况是进行大规模的机器学习项目的人通常会使用的程序语言就是Octave， Octave是一种很好的原始语言(prototyping language) 使用Octave 你能快速地实现你的算法 剩下的事情你只需要进行大规模的资源配置你只用再花时间用C++或Java这些语言把算法重新实现就行了因为我们知道开发项目的时间或者说你的时间是很宝贵的机器学习的时间也是很宝贵的所以如果你能让你的学习算法在Octave上快速的实现基本的想法实现以后再用C++或者Java去改写这样你就能节省出大量的时间

据我所见人们使用最多的用于机器学习的原始语言是Octave、MATLAB Python、NumPy 和 R Octave很好因为它是开源的当然 MATLAB也很好但它不是每个人都买得起的但是如果你能够使用MATLAB 你也可以在这门课里面使用如果你会Python、NumPy 或者R语言我也见过有人用 R 的但是据我所知这些人不得不中途放弃了因为这些语言在开发上比较慢而且因为这些语言 Python、NumPy的语法相较于Octave来说还是更麻烦一点正因为这样也因为我们最开始用Octave来写程序所以我强烈建议你不要用NumPy或者R来完整这门课的作业我建议你在这门课中用Octave来写程序接下来本视频将快速地介绍一系列的命令目标是迅速地展示通过这一系列Octave的命令让你知道Octave能用来做什么我们的网站会提供所有我在视频中提到的内容的文本所以当你看完这个视频想查询一些命令时你可以查看这些资料这些都放在网上了

总之我建议你先看教学视频之后把Octave安装到电脑上最后去这门课的网站上下载这门课的相关文档和视频然后你可以试着在Octave中键入一些有趣的命令让程序运行在你的电脑上这样你可以看到程序是怎么运行的

让我们开始吧这里是我的Windows桌面启动Octave 现在打开Octave 这是Octave命令行现在让我示范最基本的Octave代码

输入5 + 6 然后得到11 ；输入3 - 2； 5×8；1/2；2 ^ 6 得到64；这些都是基本的数学运算

>> 5+6
ans =  11
>> 3-2
ans =  1
>> 5*8
ans =  40
>> 1/2
ans =  0.50000
>> 2^6
ans =  64

你也可以做逻辑运算例如 1==2 计算结果为 false ( 假 ) 这里的百分号命令表示注释， 1==2 计算结果为假这里用0表示；

1 ~= 2 这是真的因此返回1 请注意不等于符号的写法是这个波浪线加上等于符号 ( ~= ) 而不是等于感叹号加等号 ( != ) 这是和其他一些编程语言中不太一样的地方

让我们看看逻辑运算 1 && 0 使用双＆符号表示逻辑与 1 && 0判断为假 1和0的或运算 1 || 0 其计算结果为真

还有异或运算如XOR ( 1, 0 ) 其返回值为1

>> 1 == 2  %false
ans = 0
>> 1 ~= 2  %true
ans =  1
>> 8>1 && 0  %AND
ans = 0
>> 9>1 || 1  %OR
ans =  1
>> xor(1,0)
ans =  1

从左向右写着 Octave 324.x版本其计算结果等于11 这是默认的Octave提示它显示了当前Octave的版本以及相关的其它信息如果你不想看到那个提示这里有一个隐藏的命令输入命令 PS(‘>> ‘); 现在你看到的就是等待命令的快捷提示这句话在中间有一个字符串 (‘>> ‘); 这是我喜欢的命令行样子这里敲一个回车抱歉写错了这样才对要写成PS1这样现在命令提示已经变得简化了这样看起来很棒

>> PS1(‘>>>‘);
>>>

接下来我们将谈到Octave的变量 现在写一个变量对变量A赋值为3 并按下回车键显示变量A等于3 如果你想分配一个变量但不希望在屏幕上显示结果 你可以在命令后加一个分号可以抑制打印输出敲入回车后不打印任何东西。 A等于3 只是不显示出来其中这句命令不打印任何东西现在举一个字符串的例子变量b等于"hi" 现在如果我输入b 则会显示字符串变量b的值"hi" C等于3大于等于1 所以现在C变量的值是真如果你想打印出变量或显示一个变量你可以像下面这么做设置A等于圆周率π 如果我要打印该值那么只需键入A 像这样就打印出来了

>>>a = 3
a =  3
>>>a = 3;  #分号抑制打印
>>>

对于更复杂的屏幕输出也可以用DISP命令显示 Disp( A )就相当于像这样打印出A 你也可以用该命令来显示字符串输入disp sprintf 小数 0.2% 逗号 A 像这样通过这条命令将打印出字符串打印显示为“两位小数：3.14” 这是一种旧风格的C语言语法如果就学过C语言的同学来说你可以使用这种基本的语法来将结果打印到屏幕 Sprintf命令生成一个字符串不仅仅是字符串“2 decimal：3.14” 其中的“0.2％F”表示代替A放在这里并显示A值的小数点后两位数字同时DISP 命令对字符串做出操作 DISP命令输出 Sprintf产生的字符串 Sprintf命令和DISP命令显示字符串再说一个细节例如 sprintf命令的六个小数 0.6％F ,A 这应该打印π 的6位小数形式最后看起来像这样也有一些控制输出长短格式的快捷命令默认情况下是字符串显示出的小数位有点多短 ( short ) 格式是默认的输出格式只是打印小数数位的第一位相关这方面的内容还需要你继续练习

>>>a = 3.14;
>>>a
a =  3.1400
>>>disp(a);
 3.1400
>>>disp(sprintf(‘2 decimals: %0.2f‘, a));
2 decimals: 3.14

>>>a=pi
a =  3.1416
>>>format long
>>>a
a =  3.14159265358979
>>>format short
>>>a
a =  3.1416

下面让我们来看看向量和矩阵比方说建立一个矩阵A 输入1 2 ; 3 4 ; 5 6 这会产生一个三行两列的矩阵A 其第一行是1 2 第二行是3 4 第三行是5 6 分号的作用从本质上来说就是在矩阵内换行到下一行此外还有其他的方法来建立矩阵A 输入A矩阵的值 1 2 分号 3 4 分号 5 6 这是另一种方法对A矩阵进行赋值考虑到这是一个三行两列的矩阵

>>>A = [1 2; 3 4; 5 6]
A =

   1   2
   3   4
   5   6

>>>a = [1 2;
3 4;
5 6]
a =

   1   2
   3   4
   5   6

你同样可以用向量建立向量V并赋值1 2 3 V是一个行向量或者说是一个3 ( 列 )×1 ( 行 ) 的向量一个胖胖的Y向量或者说一行三列的矩阵注意不是三行一列如果我想分配一个列向量我可以写“1;2;3” 现在便有了一个 3 行 1 列的向量同时这是一个列向量下面是一些更为有用的符号 V等于1：0.1：2 这个该如何理解呢这个集合V是一组值从数值1开始增量或说是步长为0.1 直到增加到2 按照这样的方法对向量V操作可以得到一个行向量这是一个1行11列的矩阵其矩阵的元素是1 1.1 1.2 1.3 依此类推直到数值2

>>>v = [1 2 3]
v =

   1   2   3

>>>v = [1; 2; 3]
v =

   1
   2
   3

>>>v = 1:0.1:2
v =

 Columns 1 through 4:

    1.0000    1.1000    1.2000    1.3000

 Columns 5 through 8:

    1.4000    1.5000    1.6000    1.7000

 Columns 9 through 11:

    1.8000    1.9000    2.0000

>>>v = 1:6
v =

   1   2   3   4   5   6

现在我也可以建立一个集合V并用命令“1:6”进行赋值这样V就被赋值了 1至6的六个整数这里还有一些其他的方法来生成矩阵例如“ones(2, 3)” 也可以用来生成矩阵其结果为一个两行三列的矩阵不过矩阵中的所有元素都为1 当我想生成一个元素都为2 两行三列的矩阵就可以使用这个命令你可以把这个方法当成一个生成矩阵的快速方法当你想生成一个三维2×2×2的矩阵时你就可以用这个“ones”命令比方说 w是一个有三个1的行向量或者说一行由三个同样的1组成的向量你也可以说 w为一个一行三列的零矩阵一行三列的A矩阵里的元素全部是零

>>>ones(2,3)
ans =

   1   1   1
   1   1   1

>>>w = ones(1,3)
w =

   1   1   1

还有很多的方式来生成矩阵如果我对W进行赋值用Rand命令建立一个一行三列的矩阵因为使用了Rand命令则其一行三列的元素均为随机值如果我使用 “rand(3, 3)”命令这就生成了一个 3×3的矩阵并且其所有元素均为随机数值介于0和1之间所以正是因为这一点我们可以得到数值均匀介于0和1之间的元素

>>>w = rand(3,3)
w =

   0.91025   0.82671   0.14067
   0.90400   0.34350   0.51289
   0.25501   0.24975   0.80750

如果你知道什么是高斯随机变量或者你知道什么是正态分布的随机变量你可以设置集合W 使其等于一个一行三列的N矩阵并且来自三个值一个平均值为0的高斯分布方差或者等于1的标准偏差还可以设置地更复杂

?>>>w = randn(1,3)
w =

  -0.052546  -1.786869   0.754202

例如 W减去6 再加上10的平方两者相乘 Rand命令生成一个1行10000列的矩阵把分号放到末尾这样结果就打印不出来那这样会得到什么呢这样就可以得到一个有10000元素的向量想知道具体是多少我们也可把它打印出来这将产生一个这样的矩阵生成了这个叫做 data 的对象是吧？这就是一个有着10000个元素的矩阵W 如果我现在用绘制直方图命令绘制出一个直方图使用Octave的打印直方图命令你只需要数秒钟就可以将它绘制出来这是一个对随机变量W 绘制出的直方图这里是-6+0 乘上十倍的高斯随机变量这样可以绘制出一个有着更多条的乃至50个条的直方图来这样就有一个均值减去6的高斯直方图因为这里是 -6加10的平方根并与这项相乘因此这个高斯随机变量的方差是10 且其标准偏差为10的平方根 3.1

w = -6 + sqrt(10)*(randn(1,10000));
hist(w)
hist(w, 50)

最后说一个生成矩阵的特殊命令I 其实 I也可说是一个双关语字标识设置一个4阶单位矩阵这是一个4×4矩阵所以I为“eye(4)” 通过上面的命令得到4×4矩阵 I可以等于5阶单位阵 6阶单位阵那么就有 6阶单位阵 eye( 3 )是一个3阶方阵

>> eye(4)
ans =

Diagonal Matrix

   1   0   0   0
   0   1   0   0
   0   0   1   0
   0   0   0   1

在本节视频的最后还有一个比较有用的命令那就是帮助命令例如你可以键入help i 它就会将矩阵的相关信息显示出来命令Q可以退出Octave 你也可以键入help rand 将会显示出有关rand函数的相关帮助文档以及相关的随机数生成函数甚至可以使用命令help help 将会显示出help命令的使用方法

>> help

  For help with individual commands and functions type

    help NAME

  (replace NAME with the name of the command or function you would
  like to learn more about).

  For a more detailed introduction to GNU Octave, please consult the
  manual.  To read the manual from the prompt type

    doc

  GNU Octave is supported and developed by its user community.
  For more information visit http://www.octave.org.

以上讲解的内容都是Octave的基本操作希望你能通过上面的讲解自己练习一些矩阵、乘、加等操作将这些操作在Octave中熟练在接下来的视频中将会涉及更多复杂的命令并使用它们在Octave中对数据进行更多的操作

Moving Data Around移动数据

在第二段关于 Octave的辅导课视频中我将开始介绍如何在 Octave 中移动数据 具体来说如果你有一个机器学习问题你怎样把数据加载到 Octave 中？怎样把数据存入一个矩阵？如何对矩阵进行相乘？如何保存计算结果？如何移动这些数据并用数据进行操作？

和之前一样这是我的 Octave 窗口我们继续沿用上次的窗口我键入 A 得到我们之前构建的矩阵 A 也就是用这个命令生成的 A = 这是一个三行二列的矩阵

Octave 中的 size() 命令返回矩阵的尺寸所以 size(A) 命令返回3 2 实际上 size() 命令返回的是一个 1×2 的矩阵我们可以用 sz 来存放设置 sz = size(A) 因此 sz 就是一个1×2的矩阵第一个元素是3 第二个元素是2 所以如果键入 size(sz) 看看 sz 的尺寸返回的是1 2 表示是一个1×2的矩阵 1 和 2 分别表示矩阵 A 的维度 (此处口误应为 sz 的维度译者注)

>> A = [1 2; 3 4; 5 6]
A =

   1   2
   3   4
   5   6

>> size(A)
ans =

   3   2

>> sz = size(A)
sz =

   3   2

>> size(sz)
ans =

   1   2

>> size(A,1)
ans =  3
>> size(A,2)
ans =  2

你也可以键入 size(A, 1) 这个命令会返回 A 矩阵的第一个元素 A 矩阵的第一个维度的尺寸也就是 A 矩阵的行数同样命令 size(A, 2) 将返回2 也就是 A 矩阵的列数也就是 A 矩阵的列数如果你有一个向量 v 假如 v = 假如 v = 然后键入 length(v) 这个命令将返回最大维度的大小你也可以键入 length(A) 由于矩阵 A 是一个3×2的矩阵因此最大的维度应该是3 因此该命令会返回3 但通常我们还是对向量使用 length 命令比如 length() 比如 length() 而不是对矩阵使用 length 命令因为毕竟有点容易让人弄混

>> V = [1 2 3 4]
V =

   1   2   3   4

>> length(V)
ans =  4
>> length(A)
ans =  3

下面让我们来看看如何在系统中 加载数据和寻找数据 当我们打开 Octave 时我们通常已经在一个默认路径中这个路径是 Octave 的安装位置 pwd 命令可以显示出 Octave 当前所处路径 Octave 当前所处路径所以现在我们就在这个目录下 cd 命令意思是改变路径我可以把路径改为C:\Users\ang\Desktop 这样当前目录就变为了桌面如果键入 ls ls 来自于一个 Unix 或者 Linux 命令 ls 命令将列出我桌面上的所有路径因此这些就是我桌面上的所有文件了

>> pwd
ans = C:\Users\xin
>> cd ‘E:\TEMPsrc\octave‘
>> pwd
ans = E:\TEMPsrc\octave
>> ls

事实上我的桌面上有两个文件 featuresX.dat 和 priceY.dat 是两个我想解决的机器学习问题这是我的桌面这是 featuresX 文件 featuresX 文件如这个窗口所示是一个含有两列数据的文件这其实就是我的房屋价格数据我想应该是数据集中有47行第一个房子样本面积是2104平方英尺有3个卧室第二套房子面积为1600 有3个卧室等等 priceY 是这个文件也就是训练集中的价格数据所以 featuresX 和 priceY 就是两个存放数据的文档那么应该怎样把数据读入 Octave 呢？好的我们只需要键键入 featuresX.dat 这样我将加载了 featuresX 文件同样地我可以加载 priceY.dat 其实有好多种办法可以完成如果你把命令写成字符串的形式 load(‘featureX.dat‘) 也是可以的这里打错了这跟刚才的命令效果是相同的只不过是把文件名写成了一个字符串的形式现在文件名被存在一个字符串中 Octave 中使用引号来表示字符串就像这样这就是一个字符串因此我们读取的文件文件名由这个字符串给出

load featuresX.dat
load priceY.dat
load(‘featuresX.dat‘)

另外 who 命令能显示出在我的 Octave 工作空间中的所有变量因此 who 命令显示出当前 Octave 储存的变量包括 featureX 和 priceY 同样还包括在此之前你创建的那些变量

>> who
Variables in the current scope:

a    ans  b    c

所以我可以键入 featuresX 回车来显示 featuresX 这些就是存在里面的数据还可以键入 size(featuresX) 得出的结果是 47 2 代表这是一个47×2的矩阵类似地输入 size(priceY) 结果是 47 1 表示这是一个47维的向量是一个列矩阵存放的是训练集中的所有价格 Y 的值 who 函数能让你看到当前工作空间中的所有变量

同样还有另一个 whos 命令能更详细地进行查看因此在 who 后面加一个 s 同样也列出我所有的变量不仅如此还列出了变量的维度我们看到 A 是一个 3×2的矩阵 X 是一个47×2的矩阵 priceY 是一个47×1的矩阵也就是一个向量同时还显示出需要占用多少内存空间以及数据类型是什么 double 意思是双精度浮点型这也就是说这些数都是实数是浮点数

>> whos
Variables in the current scope:

   Attr Name        Size                     Bytes  Class

   ==== ====        ====                     =====  =====

        a           1x1                          8  doubl
e
        ans         1x17                        17  char
        b           1x1                          8  doubl
e
        c           1x1                          8  doubl
e
        d           3x2                         48  doubl
e

Total is 26 elements using 89 bytes

如果你想删除某个变量你可以使用 clear 命令因此我们键入 clear featuresX 然后再输入 whos 命令你会发现 featuresX 消失了

>> who
Variables in the current scope:

a    ans  b    c    d

>> clear a
>> who
Variables in the current scope:

ans  b    c    d

另外我们怎么储存数据呢？我们来看我们设变量 v 为 priceY(1:10) 这表示的是将向量 Y 的前10个元素存入 v 中我们输入 who 或者 whos Y 是一个47×1的向量因此现在 v 就是10×1的向量因为刚才设置了 v = priceY(1:10) 这便将 v 的值设为了 Y 的前十个元素假如我们想把它存入硬盘那么用 save hello.mat v 命令这个命令会将变量 v 存成一个叫 hello.mat 的文件让我们回车现在我的桌面上就出现了一个新文件名为 hello.mat 由于我的电脑里也同时安装了 MATLAB 所以这个图标上面有 MATLAB 的标识因为操作系统把文件识别为 MATLAB 文件所以如果在你的电脑上图标显示的不一样的话也没有关系

>> save hello.mat d

现在我们清除所有变量直接键入 clear 这样将删除工作空间中的所有变量所以现在工作空间中啥都没了

>> clear
>> who

但如果我载入 hello.mat 文件我又重新读取了变量 v 因为我之前把变量 v存入了 hello.mat 文件中所以我们刚才用 save 命令做了什么这个命令把数据按照二进制形式储存或者说是更压缩的二进制形式因此如果 v 是很大的数据那么压缩幅度也更大占用空间也更小如果你想把数据存成一个人能看懂的形式那么可以键入 save hello.txt v -ascii 这样就会把数据存成一个文本文档或者将数据的 ascii 码存成文本文档现在我键入了这个命令以后我的桌面上就有了 hello.txt 文件就有了 hello.txt 文件如果打开它我们可以发现这个文本文档存放着我们的数据这就是读取和储存数据的方法

>> v = [1 2; 3 4; 5 6; 7 8; 9 0]
v =

   1   2
   3   4
   5   6
   7   8
   9   0

< -ascii  %save as text(ASCII)

接下来我们再来讲讲操作数据的方法 假如 A 还是那个矩阵跟刚才一样还是那个 3×2 的矩阵现在我们加上索引值比如键入 A(3,2) 这将索引到 A 矩阵的 (3,2) 元素 A 矩阵的 (3,2) 元素这就是我们通常书写矩阵的形式写成 A 下标32 下标32

3和2分别表示矩阵的第三行和第二列对应的元素因此也就对应 6 我也可以键入 A(2,:) 来返回第二列的所有元素因此冒号表示该行或该列的所有元素因此 A(2,:) 表示 A 矩阵的第二行的所有元素类似地如果我键入 A(:,2) 这将返回 A 矩阵第二列的所有元素这将得到 2 4 6 这表示返回 A 矩阵的第二列的所有元素因此这就是矩阵 A 的第二列就是 2 4 6 你也可以在运算中使用这些较为复杂的索引

>> A = [1 2; 3 4; 5 6]
A =

   1   2
   3   4
   5   6

>> A(3,2)
ans =  6
>> A(2,:)
ans =

   3   4

>> A(:,2)
ans =

   2
   4
   6

我再给你展示几个例子可能你也不会经常使用但我还是输入给你看 A(,:) 这个命令意思是取 A 矩阵第一个索引值为1或3的元素也就是说我取的是 A 矩阵的第一行和第三行的每一列第三行的每一列这是 A 矩阵因此输入 A(, :) 返回第一行返回第三行冒号表示的是取这两行的每一列元素也就是第一行和第二行的所有元素(此处口误应为第三行译者注) 因此返回结果为 1 2 5 6

>> A([1 3], :)
ans =

   1   2
   5   6

可能这些比较复杂一点的索引操作你不会经常用到我们还能做什么呢这依然是 A 矩阵 A(:,2) 命令返回第二列你也可以为它赋值所以我可以取 A 矩阵的第二列然后将它赋值为 10 11 12 如果我这样做的话我实际上是取出了 A 的第二列然后把一个列向量赋给了它因此现在 A 矩阵的第一列还是 1 3 5 第二列就被替换为 10 11 12 接下来一个操作让我们把 A 设为 A = ] 这样做的结果是在原矩阵的右边附加了一个新的列矩阵附加了一个新的列矩阵现在见证奇迹的时刻... 噢我又犯错了应该放分号的现在 A 矩阵就是这样了明白吗？我希望你听懂了所以这是个列矩阵而我们所做的就是把 A 矩阵设置为原来的 A 矩阵再在右边附上一个新添加的列矩阵我们的原矩阵 A 就是右边这个6个元素就是右边这个6个元素所以我们就是把 A 矩阵右边加上了一个新的列向量所以现在 A 矩阵变成这样一个 3×3 的矩阵

>> A(:,2) = [10;11;12]
A =

    1   10
    3   11
    5   12

>> A = [A, [100;101;102]]
A =

     1    10   100
     3    11   101
     5    12   102

最后还有一个小技巧我也经常使用如果你就输入 A(:) 这是一个很特别的语法结构意思是把 A 中的所有元素放入一个单独的列向量这样我们就得到了一个 9×1 的向量这些元素都是 A 中的元素排列起来的

再来几个例子好了我还是把 A 重新设为假如说我再设一个 B 为我可以新建一个矩阵 C C = 这个意思就是这是我的矩阵 A 这是我的矩阵 B 我设 C = 这样做的结果就是把这两个矩阵直接连在一起矩阵 A 在左边矩阵 B 在右边这样组成了 C 矩阵就是直接把 A 和 B 合起来我还可以设 C = 这里的分号表示把分号后面的东西放到下面所以的作用依然还是把两个矩阵放在一起只不过现在是上下排列所以现在 A 在上面 B 在下面 C 就是一个 6×2 矩阵简单地说分号的意思就是换到下一行所以 C 就包括上面的 A 然后换行到下面然后在下面放上一个 B 另外顺便说一下这个命令跟是一样的这两种写法的结果是相同的

>> A = [1 2; 3 4; 5 6];
>> B = [11 12; 13 14; 15 16];
>> C = [A B]
C =

    1    2   11   12
    3    4   13   14
    5    6   15   16

>> C = [A; B]
C =

    1    2
    3    4
    5    6
   11   12
   13   14
   15   16

好了通过以上这些操作希望你现在掌握了怎样构建矩阵 也希望我展示的这些命令能让你很快地学会怎样把矩阵放到一起怎样取出矩阵 并且把它们放到一起组成更大的矩阵通过几句简单的代码 Octave 能够很方便地很快速地帮助我们组合复杂的矩阵以及对数据进行移动这就是移动数据这一节课

在下一段视频中我们将一起来谈谈怎样利用数据进行更为复杂的计算希望这节课的内容能让你明白在 Octave 中怎样用几句简单的命令很快地对数据进行移动包括加载和储存一个向量或矩阵加载和存储数据把矩阵放在一起构建更大的矩阵用索引对矩阵某个特定元素进行操作等等我知道可能我一下子讲了很多命令所以我认为对你来讲

最好的学习方法是下课后复习一下我键入的这些代码好好地看一看从课程的网上把代码的副本下载下来重新好好看看这些副本然后自己在 Octave 中把这些命令重新输一遍慢慢开始学会使用这些命令当然没有必要把这些命令都记住你也不可能记得住你要做的就是从这段视频里了解一下你可以用哪些命令做哪些事这样在你今后需要编写学习算法时如果你要找到某个 Octave 中的命令你可能回想起你之前在这里学到过然后你就可以查找课程中提供的程序副本这样就能很轻松地找到你想使用的命令了好了这就是移动数据这节课的全部内容

在下一段视频中我将开始向你介绍怎样进行一些更复杂的计算 怎样对数据进行计算怎样对数据进行计算同时开始实现学习算法

Computing on Data

现在你已经学会了在Octave中如何加载或存储数据 如何把数据存入矩阵等等在这段视频中我将向你介绍 如何对数据进行运算 稍后我们将使用这些运算操作来实现我们的学习算法

现在我们开始吧这是我的 Octave 窗口我现在快速地初始化一些变量比如设置A 为一个3×2的矩阵设置B为一个3 × 2矩阵设置C为 2 × 2矩阵现在我想算两个矩阵的乘积比如说 A × C 我只需键入A×C 这是一个 3×2 矩阵乘以 2×2 矩阵得到这样一个3×2矩阵你也可以对每一个元素做运算方法是做点乘运算A .*B 这么做 Octave将矩阵 A 中的每一个元素与矩阵 B 中的对应元素相乘这是A 这是B 这是A .* B 比如说这里第一个元素 1乘以11得到11 第二个元素是 2乘以12得到24 这就是两个矩阵的元素位运算通常来说在Octave中点号一般用来表示元素位运算这里是一个矩阵A 这里我输入A .^ 2 这将对矩阵A中每一个元素平方所以 1的平方是1 2的平方是4 等等

>> A = [1 2; 3 4; 5 6];
>> B = [11 12; 13 14; 15 16];
>> C = [1 1; 2 2];
>> A*C
ans =

    5    5
   11   11
   17   17

>> A .* B
ans =

   11   24
   39   56
   75   96

>> A .^ 2
ans =

    1    4
    9   16
   25   36

我们设V是一个向量设V为是列向量你也可以输入 1 ./ V 得到每一个元素的倒数所以这样一来就会分别算出 1/1 1/2 1/3 矩阵也可以这样操作 1 ./ A 得到 A中每一个元素的倒数

>> V = [1; 2; 3];
>> 1 ./ V
ans =

   1.00000
   0.50000
   0.33333

>> 1 ./ A
ans =

   1.00000   0.50000
   0.33333   0.25000
   0.20000   0.16667

同样地这里的点号还是表示对每一个元素进行操作我们还可以进行求对数运算也就是对每个元素进行求对数运算还有自然数e的幂次运算就是以e为底以这些元素为幂的运算所以这是e 这是e的平方这是e的立方 v 矩阵是这样的我还可以用 abs 来对 v 的每一个元素求绝对值当然这里 v 都是正数我们换成另一个这样对每个元素求绝对值得到的结果就是这些非负的元素还有 -v 给出V中每个元素的相反数这等价于 -1 乘以 v 不过一般就直接用 -v 就好了其实就等于 -1*v 还有什么呢？

>> log(V)
ans =

   0.00000
   0.69315
   1.09861

>> exp(V)
ans =

    2.7183
    7.3891
   20.0855

>> abs(V)
ans =

   1
   2
   3

还有一个技巧比如说我们想对v中的每个元素都加1 那么我们可以这么做首先构造一个 3行1列的1向量然后把这个1向量跟原来的向量相加因此 v 向量从增至我用了一个 length(v) 命令因此这样一来 ones(length(v) ,1) 就相当于 ones(3,1) 所以这是ones(3,1) 对吧然后我做的是 v + ones(3,1) 也就是将 v 的各元素都加上这些1 这样就将 v 的每个元素增加了1 另一种更简单的方法是直接用 v+1 所以这是 v v + 1 也就等于把 v 中的每一个元素都加上1

>> v = [1;2;3]
v =

   1
   2
   3

>> v + ones(length(v), 1)
ans =

   2
   3
   4

>> v + ones(3,1)
ans =

   2
   3
   4

>> v + 1
ans =

   2
   3
   4

现在让我们来谈谈更多的操作这是我的矩阵A 如果你想要求它的转置那么方法是用A‘ 这是单引号符号并且是左引号可能你的键盘上有一个左引号和一个右引号这里用的是左引号也就是标准的引号因此 A’ 将得出 A 的转置矩阵当然如果我写 (A‘)’ 也就是 A 转置两次那么我又重新得到矩阵 A

还有一些有用的函数假如说小写a 是这是一个1行4列矩阵假如说 val=max(a) 这将返回 A矩阵中的最大值在这里是15 我还可以写 = max(a) 这将返回 a矩阵中的最大值存入val 以及该值对应的索引因此元素15对应的索引值为2 存入ind 所以 ind 等于2

>> a = [1 15 2 0.5]
a =

    1.00000   15.00000    2.00000    0.50000

>> val = max(a)
val =  15
>> [val, ind] = max(a)
val =  15
ind =  2

特别注意一下如果你用命令 max(A) A是一个矩阵的话这样做就是对每一列求最大值等下再仔细讲讲

我们还是用这个例子这个小a 矩阵如果输入 a<3 这将进行逐元素的运算 所以第一个元素是小于3的因此返回1 a的第二个元素不小于3 所以这个值是0 表示"非" 第三个和第四个数字仍然是小于3 2和0.5都小于3 因此这返回也就是说对a矩阵的每一个元素与3进行比较然后根据每一个元素与3的大小关系返回1和0表示真与假

现在如果我写 find(a<3) 这将告诉我 a 中的哪些元素是小于3的是小于3的在这里就是第一第三和第四个元素是小于3的

a =

    1.00000   15.00000    2.00000    0.50000

>> a < 3
ans =

   1   0   1   1

>> find(a < 3)
ans =

   1   3   4

下一个例子设A = magic(3) magic 函数返回什么呢让我们查看 magic 函数的帮助文件

magic 函数将返回一个矩阵称为魔方阵或幻方 (magic squares) 它们具有以下这样的数学性质它们所有的行和列和对角线加起来都等于相同的值当然据我所知这在机器学习里基本用不上但我可以用这个方法很方便地生成一个 3行3列的矩阵而这个魔方矩阵这神奇的方形屏幕。每一行每一列每一个对角线三个数字加起来都是等于同一个数我只有在演示功能或者上课教 Octave 的时候会用到这个矩阵在其他有用的机器学习应用中这个矩阵其实没多大作用让我来看看别的如果我输入 = find( A>=7 ) 这将找出所有A矩阵中大于等于7的元素因此 r 和 c 分别表示行和列这就表示第一行第一列的元素大于等于7 第三行第二列的元素大于等于7 第二行第三列的元素大于等于7 我们来看看第二行第三列的元素就是 A(2,3) 是等于7的就是这个元素确实是大于等于7的顺便说一句其实我从来都不去刻意记住这个 find 函数到底是怎么用的我只需要会用 help 函数就可以了每当我在使用这个函数忘记怎么用的时候我就可以用 help 函数键入 help find 来找到帮助文档

>> A = magic(3)
A =

   8   1   6
   3   5   7
   4   9   2

>> [r, c] = find(A >= 7)
r =

   1
   3
   2

c =

   1
   2
   3

好吧最后再讲两个内容一个是求和函数这是 a 矩阵键入 sum(a) 就把 a 中所有元素加起来了如果我想把它们都乘起来键入 prod(a) prod 意思是 product(乘积) 它将返回这四个元素的乘积 floor(a) 是向下四舍五入因此对于 a 中的元素 0.5将被下舍入变成0 还有 ceil(A) 表示向上四舍五入所以0.5将上舍入变为最接近的整数也就是1

>> a
a =

    1.00000   15.00000    2.00000    0.50000

>> sum(a)
ans =  18.500
>> prod(a)
ans =  15
>> floor(a)
ans =

    1   15    2    0

>> ceil(a)
ans =

    1   15    2    1

还有我们来看键入 type(3) 这通常得到一个3×3的矩阵如果键入 max(rand(3), rand(3)) 这样做的结果是返回两个3×3的随机矩阵并且逐元素比较取最大值所以你会发现所有这些数字几乎都比较大因为这里的每个元素都实际上是两个随机生成的矩阵逐元素进行比较取最大的那个值这是刚才生成的 3×3魔方阵 A 假如我输入 max(A,[],1) 这样做会得到每一列的最大值所以第一例的最大值就是8 第二列是9 第三列的最大值是7 这里的1表示取A矩阵第一个维度的最大值相对地如果我键入 max(A,[],2) 这将得到每一行的最大值所以第一行的最大值是等于8 第二行最大值是7 第三行是9 所以你可以用这个方法来求得每一行或每一列的最值

>> max(rand(3), rand(3))
ans =

   0.957477   0.083887   0.459507
   0.799441   0.975439   0.927632
   0.888604   0.942436   0.612661

>> A
A =

   8   1   6
   3   5   7
   4   9   2

>> max(A, [], 1)
ans =

   8   9   7

另外你要知道默认情况下 max(A)返回的是每一列的最大值如果你想要找出整个矩阵A的最大值你可以输入 max(max(A)) 像这样或者你可以将 A 矩阵转成一个向量然后键入 max(A(:)) 这样做就是把 A 当做一个向量并返回 A 向量中的最大值

>> max(max(A))
ans =  9
>> max(A(:))
ans =  9

最后让我们把 A 设为一个 9行9列的魔方阵别忘了魔方阵具有的特性是每行每列和对角线的求和都是相等的这是一个9×9的魔方阵我们来求一个 sum(A,1) 这样就得到每一列的总和所以这样做就是把 A 的每一列进行求和从这里我们也可以看出这也验证了一个9×9的魔方阵确实每一列加起来都相等都为369 现在我们来求每一行的和键入sum(A,2) 这样就得到了 A 中每一行的和 A 中每一行的和加起来还是369

>> A = magic(5)
A =

   17   24    1    8   15
   23    5    7   14   16
    4    6   13   20   22
   10   12   19   21    3
   11   18   25    2    9

>> sum(A,1)
ans =

   65   65   65   65   65

>> sum(A,2)
ans =

   65
   65
   65
   65
   65

现在我们来算 A 的对角线元素的和看看它们的和是不是也相等我们现在构造一个 9×9 的单位矩阵键入 eye(9) 设为I9 然后我们要用 A 逐点乘以这个单位矩阵这是矩阵A 我现在用 A 逐点乘以 eye(9) 这样做的结果是两个矩阵对应元素将进行相乘除了对角线元素外其他元素都会得到0 然后我对刚才求到的结果键入sum(sum(A.*eye(9)) 这实际上是求得了这个矩阵对角线元素的和确实是369

>> sum(sum(A.*eye(5)))
ans =  65

你也可以求另一条对角线的和这个是从左上角到右下角的你也可以求另一条对角线从左下角到右上角这个和这个命令会有点麻烦其实你不需要知道这个我只是想给你看如果你感兴趣的话可以听听让我们来看看 flipup/flipud 表示向上/向下翻转如果你用这个命令的话计算的就是副对角线上所有元素的和还是会得到369 我来给你演示一下 eye(9) 矩阵是这样那么 flipup(eye(9)) 将得到一个单位矩阵并且将它翻转不好意思打错了应该是flipud 翻转以后所有的1就变成副对角线了

>> eye(9)
ans =

Diagonal Matrix

   1   0   0   0   0   0   0   0   0
   0   1   0   0   0   0   0   0   0
   0   0   1   0   0   0   0   0   0
   0   0   0   1   0   0   0   0   0
   0   0   0   0   1   0   0   0   0
   0   0   0   0   0   1   0   0   0
   0   0   0   0   0   0   1   0   0
   0   0   0   0   0   0   0   1   0
   0   0   0   0   0   0   0   0   1

>> flipud(eye(9))
ans =

Permutation Matrix

   0   0   0   0   0   0   0   0   1
   0   0   0   0   0   0   0   1   0
   0   0   0   0   0   0   1   0   0
   0   0   0   0   0   1   0   0   0
   0   0   0   0   1   0   0   0   0
   0   0   0   1   0   0   0   0   0
   0   0   1   0   0   0   0   0   0
   0   1   0   0   0   0   0   0   0
   1   0   0   0   0   0   0   0   0

最后再说一个命令然后就下课假如 A 是一个 3×3的魔方阵同样地如果你想这个矩阵的逆矩阵键入 pinv(A) 通常称为伪逆矩阵但这个名字不重要你就把它看成是矩阵 A 求逆因此这就是 A 矩阵的逆矩阵设 temp = pinv(A) 然后再用temp 乘以 A 这实际上得到的就是单位矩阵对角线为1 其他元素为0 稍微圆整一下就是好了这样我们就介绍了如何对矩阵中的数字进行各种操作

>> A = magic(3)
A =

   8   1   6
   3   5   7
   4   9   2

>> pinv(A)
ans =

   0.147222  -0.144444   0.063889
  -0.061111   0.022222   0.105556
  -0.019444   0.188889  -0.102778

>> temp = pinv(A)
temp =

   0.147222  -0.144444   0.063889
  -0.061111   0.022222   0.105556
  -0.019444   0.188889  -0.102778

>> temp * A
ans =

   1.00000   0.00000  -0.00000
  -0.00000   1.00000   0.00000
   0.00000   0.00000   1.00000

在运行完某个学习算法之后通常一件最有用的事情是看看你的结果或者说让你的结果可视化在接下来的视频中我会非常迅速地告诉你如何很快地画出如何只用一两行代码你就可以快速地可视化你的数据画出你的数据这样你就能更好地理解你使用的学习算法

时间： 2024-11-03 20:48:11

Octave入门

Octave/Matlab Tutorial