Computer Science - Computer Vision - Intro

Computer Vision - Intro

初探计算机视觉

CV在AI领域的地位

视觉相当于人脑的大门,是人类感知外界世界的最主要途径。该生理构造决定真实世界中的信息主要以视觉为主。所以,如果不能处理视觉信息的话,整个AI领域就几乎无法研究真实的世界。而作为AI领域中的子领域,CV就承担着处理视觉信息的任务。其地位不言而喻。

视觉,它相当于说芝麻开门。大门就在这里面,这个门打不开, 就没法研究真实世界的人工智能。

CV与ML的关系

CV是一个领域,下辖很多子问题,就像物理学。而ML基本是一个方法和工具,就像数学和统计学。所以,ML这种方法可以运用到CV这个领域中,二者并不是并列关系。

  • 机器学习中的 “机器”就是统计模型,“学习”就是用数据来拟合模型。 是由做计算机的人抢占了统计人的理论和方法,然后,应用到视觉、语音语言等 domains。
  • 学习搞来搞去,最丰富的数据是在视觉(图像和视频)。现在这次机器学习的一些大的动作和工程上的推广工作,还是从计算机视觉这边开始的。
  • 计算机视觉的发展太工程化、功利化了,逐步脱离了科学的范畴。这是短视和危险的。最近又受到机器学习来的冲击。

CV的三个源头

神经科学家:David Marr : 定义了这个学科的格局

CV的三个层次 :表达、算法、实践
  • 表达:是什么问题?想要得到什么答案?

    在表达的层次,我们问一下这是个什么问题呢?如何把它写成一个数学问题。任务是什么?输出是什么?这是独立于解决问题的方法的。

  • 算法:解决问题时使用什么算法?

    对这个数学问题去求解时,可以选择不同的算法, 可以并行或者串行。

  • 实践:一个算法如何在硬件上实现?

    一个算法如何在硬件上实现,可以用CPU,DSP, 或者神经网络来实现。

CV的分析体系 :整体的语义解释
  • 理清视觉到底要计算什么。Marr提出了一个系列的表达,从primal sketch(首要简约图), 到2 ? D sketch(深度简约图), 到3D sketch。 这里面还包含了纹理、立体视觉、运动分析、表面形状、等等。比如说我要估计一个物体的深度和形状,我就估计它的光照,和物理材料特性;还有,三维几何形状怎么去表达? 他试图去建立一个完整的体系
  • 现在的视觉就基本上被很多人错误地看成一个分类问题,你给我一张图像,我说这个图像里有一只狗或者没有狗,狗在哪儿都不知道。头在哪?脚在哪?不知道。Marr框架是有秩序的,现在的秩序在做深度学习的人眼中还不存在,或者没有忙过来。各人做各人的分类问题,比如说有人算这个动物分类,有的人算这个家具的分类。各种分类以后,他们之间怎么样的关系呢?要对这个图像或者场景要产生一个整体的语义解释
CV的本质 :“计算”的过程
  • 我们以前用贝叶斯方法(以及现在的深度网络)认为视觉就是表达成为一个后验概率,寻求一个最优解。这个解就是图像的解释。这个求解过程就会终止。可是Marr说的这个事情,它不是单纯去求一个解,而是一个连续不断的计算过程。我给你一张图像,你越看、越琢磨,你可能看到的东西会越多。
  • 视觉是受任务驱动的。而任务是时刻在改变之中。……如果说人工智能往前发展机器人,要从机器人的角度来用视觉的话,那么它就有很多不同的任务。我现在做饭,我在打球,我在欣赏风景,这个时候我看到的东西是完全不一样的。我怎么样通过这千千万万的任务,而不是简单一个分类,来驱动我的计算的过程,来找到我的需求,来支持我目前的任务。……研究视觉要从一个agent(执行者)的角度,带着任务进来的这么一个人或机器人,主动地去激发视觉

计算机科学家:傅京孫(King-Sun Fu) : 理论践行者

学科和学会的建设,工程师培养
  • 他和其他人于1973年组织了第一届国际模式识别会议(ICPR),并担任主席。会议后来演变成国际模式识别学会IAPR,在1976年成立,并被选为其主席。他重组了另外一个IEEE学会下面的模式识别委员会,并于1974年成为其第一任主席,创办了IEEE模式分析和机器智能(PAMI)会刊,并于1978年担任第一任总编。这是目前计算机视觉和相关领域最权威的一本期刊了。很多中国学生现在不知道,这个领域的老大本来是华人。目前, 国际模式识别学会IAPR设立了一个傅京孫奖, 作为终身成就奖, 是模式识别的最高荣誉。
  • 据说他的实验室是一个Chinatown。1978年中国打开国门,中国最早的一批中科院的计算机人员都到他那里进修,在普渡。所以他对中国计算机的发展,可以说是一个贡献非常巨大的人。
句法模式识别(Syntactic Pattern Recognition)

我们这个世界的模式, 一个最基本的组织原则是composition。一张图像就像语言、句子符合语法结构, 视频中的一个事件也有语法结构。寻找一个层次化、结构化的解释是计算视觉的核心问题。

Marr计算过程的表达 : 形式语言

语法结构对计算过程有了规范和表达的途路。……这个表达支撑了自底向上或自顶向下的计算的过程。

数学家:Ulf Grenander : 数学奠基人

模式分析的基础 : 数理模型

当你要去识别、分析一个模式,比如一个动物,人脸, 一个事件, 你首先要建立一个数理模型, 这个模型通过随机数据来拟合, 也就是当前的机器学习。

建模的理论和方法

一整套建模的理论和方法。把代数、几何、概率整合起来。

一些算法

很多蒙特卡洛算法都是他和这个学派的人提出来的。

Wiki - Computer Vision

Definition

Typical Tasks

Applications

CV x WHU

原文地址:https://www.cnblogs.com/samaritan-z/p/8447053.html

时间: 2024-10-13 23:17:07

Computer Science - Computer Vision - Intro的相关文章

Computer Science Theory for the Information Age-5: 学习理论——VC维的定义以及一些例子

学习理论--VC维的定义以及一些例子 本文主要介绍一些学习理论上的东西.首先,我们得明确,从训练集上学习出来的分类器的最终目标是用于预测未知的样本,那么我们在训练的时候该用多少的样本才能使产生的分类器的效果尽可能的好呢?这些就是VC-理论要解决的问题.在介绍这个理论之前,我们得先介绍一个比较抽象的概念--VC维.这个指标是用与衡量假设空间的复杂程度.为了能更好的理解VC维,本文还会举一些例子来加深理解. (一)由一个例子引出的动机 为了更好的说明为什么我们要定义这个VC维,我们先来看一个例子.假

Discovering the Computer Science Behind Postgres Indexes

This is the last in a series of Postgres posts that Pat Shaughnessy wrote based on his presentation at the Barcelona Ruby Conference. You can also watch the video recording of the presentation. The series was originally published on his personal blog

Computer Science Theory for the Information Age-6: 学习理论——VC定理的证明

VC定理的证明 本文讨论VC理论的证明,其主要内容就是证明VC理论的两个定理,所以内容非常的枯燥,但对于充实一下自己的理论知识也是有帮助的.另外,VC理论属于比较难也比较抽象的知识,所以我总结的这些证明难免会有一些错误,希望各位能够帮我指出. (一)简单版本的VC理论. 给定一个集合系统$(U,\mathcal{S})$,VC理论可以解决以下问题.对于一个在$U$上的分布$P$,那么至少需要选择多少个样本(根据分布$P$选择),才能使对每个$S\in\mathcal{S}$,用样本估计出来的值以

MIT Introduction to Computer Science and Programming (Lesson one )

MIT Introduction to Computer Science and Programming (Lesson one ) 这篇文是记载 MIT 计算机科学及编程导论 第一集 的笔记 Lesson one : Goals of the course;what is computation;introduction to data types,operators,and variables 一 讲解课程的任务.课程目标 目标 像一个计算机科学家一样思考 都能够读写程序 tacking t

Note 2 for <Pratical Programming : An Introduction to Computer Science Using Python 3>

Book Imformation : <Pratical Programming : An Introduction to Computer Science Using Python 3> 2nd Edtion Author : Paul Gries,Jennifer Campbell,Jason Montojo Page : Chapter 2.3 to Chapter 2.5 1.A type consists of two things: (1).a set of values (2).

Side effect (computer science)

In computer science, a function or expression is said to have a side effect if it modifies some state outside its scope or has an observable interaction with its calling functions or the outside world besides returning a value. For example, a particu

How do you explain Machine Learning and Data Mining to non Computer Science people?

How do you explain Machine Learning and Data Mining to non Computer Science people? Pararth Shah, ML Enthusiast Answered Dec 22, 2012 · Featured on VentureBeat · Upvoted by Melissa Dalis, CS & Math major at Duke and Alberto Bietti, PhD student in mac

Computer Science 220S1C (2019)

Computer Science 220S1C (2019)Assignment 4 (traversal and optimisation)Due date June 7, 2019, 10pm100 Marks in totalThis assignment requires you to submit programs in Python that you have written yourselfto the automarker, http://www.cs.auckland.ac.n

Computer Science 320 S2

Computer Science 320 S2 (2019)Assignment 4Due date Sep 28, 2019 23:59pmAnswer all of the following questions. There are 10 points, which contribute 5% of your total coursemarks. Submit a properly typesetted pdf file (LATEX preferred) of your answers