浅谈 GPU图形渲染管线

 图形渲染管道被认为是实时图形渲染的核心,简称为管道。管道的主要功能是由给定的虚拟摄像机、三维物体、灯源、光照模型、纹理贴图或其他来产生或渲染一个二维图像。由此可见,渲染管线了实时渲染技术的底层工具。图像中物体的位置及形状是通过它们的几何描述、环境特征、以及该环境中虚拟摄像机的摆放位置来决定的。物体的外观受到了材质属性、灯源、贴图以及渲染模式(sharding modles)的影响。

        很多计算机图形学的书籍都把渲染管线分为三个阶段:应用程序阶段、几何阶段、光栅化阶段。

1.  应用程序阶段(CPU)

  应用程序阶段,通过高级编程语言(C、C++、JAVA)进行开发,与CPU、内存打交道,主要任务是识别出潜在可视的网格实例,并把它们及其材质呈交给图形硬件以供渲染。在该阶段的末端将产生几何体数据,包括顶点坐标、法向量、纹理坐标、纹理等,通过数据总线传送到图形硬件以供渲染(时间瓶颈),进行几何阶段。

      应用程序阶段负责驱动GPU管道,在该阶段有三个角色:

  1. 可见性判别:仅把可见(或至少潜在可见)的物体提交GPU,以免浪费宝贵的资源去渲染看不见的物体。(裁剪?)
  2. 提交几何图元至GPU以供渲染:像DirectX中的渲染调用接口DrawIndexedPrimitive(),该接口吧子网格材质对传送至GPU进行下一步操作,类似的,在OpenGL中的接口glDrawArrays()也有相同功能。另一种提交方法是建立GPU命令表。场景如果需要多步骤渲染,则需要多次提交,所提交的几何图元应有适当地排序以优化性能。
  3. 控制着色器参数以及渲染状态

  很多经典的算法都是中这个阶段中进行的,诸如碰撞检测、场景图建立、空间八叉树更新、视锥裁剪等。

  •      视锥裁剪

  视锥裁剪算法是在应用程序阶段执行的。在把场景中的物体提交给GPU进行下一阶段操作之前,需要把对最后影像没有任何贡献的物体裁剪掉,仅仅把可见的网格数据传送给GPU。这个建立可见网格实例表的过程即为可见性判断。锥体由虚拟摄像机来定义。虚拟摄像机制定了场景对观察者可见的部分,即我们将依据哪部分3D场景来创建2D图像。在世界坐标系中,摄像机有一定的位置和方向属性,定义了可见的空间体积即视锥体。下图展示一个虚拟摄像机的模型:

                                                                

  用几何术语来讲,上述的空间体积是一个平截头体。在平截头体剔除里,三维物体与平截头体有三种位置关系:

  1. 三维物体完全位于平截头体外。
  2. 三维物体部分位于平截头体内。
  3. 三维物体完全位于平截头体内。

  

  对于第一种情况,物体会被排除在渲染表之外。给定一个网格模型,我们可以通过一些简单的判别测试来判断网格模型是否位于平截头体内,这些测试会用到物体的包围体积(包围物体的一个球体)及平截头体的六个平面。把平截头体六个平面同时往里缩进物体包围体积的半径长度,若球体中所有6个修改后的平面的前方,那么物体就是完全位于平截头体内部的(第三种情况),这种情况下三维物体将被保留并进入下一个阶段的处理。对于第二种情况,三维物体的三角形单元将被分为两个部分,位于视域体内部的将被保留,视域体外的哪部分将被剔除。

 

  • 场景图

  现在的游戏世界能够达到很大的规模,在多数场景中,大部分的几何物体处于上文所说的平截头体之外,如果这些物体的剔除皆使用平截头体,会造成难以想象的时间资源消耗。因此我们希望能够设计一种数据结构来解决大场景的裁剪问题,它能狗迅速丢弃大量完全不接近摄像机平截头体的场景部分,这样才能进行更加仔细的平截头体剔除,此数据结构更可以帮助对场景中的几何物体排序。这种数据结构就是场景图。场景图不一定是图,更多可能是某种树:四叉树、八叉树、BSP树、kd树等等。它们的理念在于把三维空间以某种形式划分为区域,使不与平截头体相交的区域尽快丢弃,而无须逐一物体进行平截头体剔除。

 

  • 四叉树与八叉树

  四叉树使用递归的方式把空间划分成象限,因此四叉树每个节点都有四个孩子节点。象限的划分通常是由轴对称的平面切割而成,所以每个象限是正方形或长方形的,不过也有一些四叉树用任意形状来细分空间。四叉树这种数据结构出现的目的就是加速平截头体的裁剪,那么它是如何办到的呢?我们从根节点往叶子节点遍历,如果某个节点区域若位于平截头体外,则该节点的四个孩子节点区域也是位于平截头体外,所以我们可以停止遍历该分支。

                  八叉树是四叉树的三维版本,每层递归细分都把八叉树空间划分为8个子区域,子区域通常中正方体或者长方体,不过也可以是任意三维区域。

2. 几何阶段(GPU)

  几何阶段主要负责顶点坐标变换、光照、裁剪、投影以及屏幕映射,该阶段基于GPU进行计算,该阶段的末尾得到经过变换和投影之后的顶点坐标、颜色、 以及纹理坐标。其主要工作可以概括为“变换三维顶点坐标”和“光照计算”。我们的显卡信息中通常会有一个标示为“T&L”的硬件部分,T即是Transform,L即是Lighting。那么三维顶点坐标为什么需要变换?如何变换?要知道,我们出入到计算机中的是一系列三维坐标点,但我们最终看到的从视点出发观察到的特定点。我们电脑显示器是二维的,GPU所需要做的,就是把三维顶点数据经过转换绘制到二维屏幕上,并让二维画面看起来有3D效果。

      2.1   根据顶点坐标变换的顺序,主要有如下几个坐标空间:局部坐标系(或称自身坐标系、建模坐标系)、世界坐标系、观察坐标系、视口坐标系(屏幕坐标系)。

  1. 局部坐标系

  局部坐标系用于定义构成物体的三角形单元列表的坐标,它描述的是模型文件本身的顶点与顶点值之间的关系,顶点值是在模型建模时得到的。局部坐标系与场景中的其他物体没有任何的参照关系,这也是局部坐标系与世界坐标系区分的关键。

  1. 世界坐标系

           构建各种模型时,每个模型都位于其自身的局部坐标系中,而无论在现实世界还是在计算机的虚拟空间中,物体都必须和一个固定的坐标原点进行参照才能够确定自己所在的位置,这是世界坐标系的实际意义所在。位于局部坐标系中的物体通过一个称为世界变换的运算过程变换到世界坐标系中,该变换通常包括平移、旋转、以及比例运算,分别用于设定该物体中世界坐标系中的位置、方向及模型的大小。这变换过程由一个四阶矩阵控制,通常称为世界矩阵(world matrix)。

                          

   另外,光照计算通常也是中世界坐标系中进行的,这是因为光照效果受到了物体之间关系的影响(如距离、是否遮挡、有无相互投影等)。当然,中观察坐标系中也可以得到相同的光照效果,因为中同一观察空间中物体之间的相对关系是保存不变的。有一点值得注意,顶点法向量中模型文件中属于局部坐标系描述,中GPU的顶点程序中必须将法向量转换到世界坐标系才能使用。这种转换同样是通过一个矩阵,这矩阵是上文所提的世界变化矩阵的逆矩阵。

 3. 观察坐标系

  在现实世界中,每个人都是通过自己的眼睛来观察世界,同样的,在虚拟世界中,虚拟摄像机就是我们的“眼睛”,计算机每次只能从唯一的视角出发来渲染物体。例如当我们玩CS游戏时,屏幕显示的内容随着视点的变化而变化,这是因为GPU将物体的坐标从世界坐标系变换到了观察坐标系。实际上所谓的观察坐标系,也就是我们在上文中提到的摄像机的视锥体,它以摄像机为原点,由摄像机观察方向、视角、远近裁剪平面,共同构成一个梯形体的三维空间: 

                                     

近裁剪平面也即是梯形体较小的矩形面,在Directx中,为了简化绘制工作,通常将近裁剪平面和投影平面合二为一。在观察者坐标系中,我们的任务是获取3D场景的2D表示,这种从N维到N-1维的操作在数学上称为投影,实现投影有多种方式,如正投影(也称平行投影)和透视投影。由于透视投影更加符合人类的视觉习惯,它会产生近大远小的效果,所以我们采用这种投影来执行视锥中的3维数据到投影平面的投影。Directx中通过一个称为投影矩阵来将视域体中的几何体投影到投影窗口中。

  4. 视口坐标系(屏幕坐标系)

       从视点坐标系到视口坐标系的转换是通过视口变换操作来进行的。视口变换的任务是将顶点坐标从投影平面转换到屏幕的一个矩形区域中,该区域称为视口。在游戏中,视口通常是整个矩形屏幕区域,当然也可以将视口描述为屏幕的一个子区域,视口的坐标是相对于窗口来描述的

                                   

  经过一系列坐标的转换,我们输入计算机的一系列三维坐标点已经转换为2D屏幕的三维显示数据。

2.2 图元装配

         几何阶段处理结束后,送到光栅化阶段的是一堆三角形面片,所以中几何阶段中需要对顶点进行图元装配。所谓的图元装配,即根据顶点原始的连接关系,还原出模型的网格结构。网格由顶点和索引组成,在之前的流水线中是对顶点的处理,而在这阶段是根据索引将顶点连接中一起,组成线、面单元。然后对超出视口外的三角形进行裁剪(视口裁剪),如果有一个三角形其中一个顶点位于画面外,另外两个顶点位于画面内,我们看到的将是一个四边形,而这个四边形又被划分为两个小的三角形。

       这里提到了视口裁剪,实际上裁剪是个很大的概念,裁剪包括了视域裁剪(应用程序阶段)、视口裁剪、背面剔除、遮挡剔除(光栅化阶段)。背面剔除涉及到三角形的顶点绕序问题。每个多边形都有两个侧面,我们将其中一个标记为正面,另一个侧面标记为背面,通常,多边形的背面是不可见的,通过背面剔除操作可以不对物体的背面进行渲染,减少需要绘制的顶点个数。一般来说我们根据右手定则来决定三角形的法向量,如果法向量朝向视点(三角形顶点顺时针绕序)即为正面,反之为背面。在Directx3D中,默认顶点排列顺序为顺时针的三角形单元是正面朝向。但也可以通过SetRenderState方法来修改剔除方式。

 

 3. 光栅化阶段

         管道的最终阶段为合并阶段或混合阶段,NVIDIA称之为光栅运算阶段。这个阶段把几何阶段送过来的三角形转化为片段,并对片段进行着色。片段经过深度测试、alpha测试、模板测试等多种测试后,最终和帧缓冲混合。

        光栅化的目的是计算出每个像素的颜色值,pixel operation 是在更新帧缓存之前执行的最后一系列对每个片段的操作。Pixel operation 包括了一下内容:

  1. 深度测试,消除遮挡面

  当两个物体有前后位置关系时,位于前面的物体会将后面的物体部分或全部遮挡。这时为了优化考虑GPU不应该绘制被遮挡的片段,这种行为称为遮挡剔除。为了更好了解遮挡剔除与深度测试,我们先来看看深度缓存。

  深度缓存:深度缓存是一个只含有特定像素的深度信息而不含图像数据的表面。深度缓存为最终绘制图像中的每一个像素都保留了一个深度项。所以,当所绘制的图形的分辨率为640*480时,,深度缓存中将有640*480个深度项。深度缓存用于计算每个像素的深度值并进行深度测试,深度测试的基本内容是依据深度值让处于同一位置的不同像素进行竞争,以选出该写入该位置的像素,距离摄像机最近的像素获胜,并被写入深入缓存的对应位置上。这样做是合理的,因为距离摄像机最近的像素一定会将位于其后方的像素遮挡。

  1. 纹理操作:也就是根据像素的纹理坐标,查询对应的纹理值。

  2. 混色(融合)

  融合技术能使我们将当前要进行的光栅化的像素的颜色与先前已经光栅化并处于同一位置的像素的颜色进行合成,即将正在处理的图元颜色值与存储中后台缓存中的像素颜色值进行合成。利用该技术,我们可以获得各种各样的效果,尤其是透明效果。不过值得注意的是,为了中场景中绘制透明物体,通常需要对物体按照由后到前的顺序进行混合处理,如果按照任意顺序进行处理将会产生严重的失真。所以在blending(混色)操作之前要来一次Depth test(见下图)。

  1. 滤波或滤镜(Filtering):将正在计算的颜色经过某种滤镜后输出,可以理解为经过一中数学运算后变成新的颜色值。

                  

  经历了这阶段之后,像素的颜色值被写入帧缓存中。       

  以上内容即为渲染管道的整个流程。

PS:本文的内容参考了多本书籍:

         《游戏引擎架构》《Directx 9.0 3D 游戏开发编程基础》《GPU编程与CG语言之阳春白雪与下里巴人》《real-time Rendering》

   笔者水平有限,如有差错或缺漏希望指正。

时间: 2024-11-01 16:52:13

浅谈 GPU图形渲染管线的相关文章

Unity3D 开发之shader教程(浅谈GPU渲染之shader language概述)

尊重他人智慧成果,欢迎转载,请注明作者 心若透明 地址  http://www.cnblogs.com/ubanck/p/4110618.html 在上一篇博客里,大致讲解了一下3D渲染的原理,即从一个简单的模型到渲染到屏幕的过程!其中提到了重要的坐标变换方式,说的不够清楚!今天来谈谈shader语言的执行过程 从硬件上讲,GPU内部有顶点着色器与片段着色器,从渲染管线来看,顶点着色器控制这顶点的坐标转换过程,片段着色器控制像素的颜色计算过程.顶点着色器将顶点转换完成,输入到片段着色器进行处理(

Unity3D 开发之shader教程(浅谈GPU渲染入门)

这篇随笔,就不按照各种专业的解释来描述了,完全看自己发挥吧,写到哪儿算哪儿.若是哪里有说的不对的地方,请各位看官直说无妨! 说到游戏研发,就不可避免会提到图形学,图形学里面细去研究,就会牵涉到各种各样的数学知识,向量,矩阵之类的!而到这儿,咱们先开始从shader谈起,什么是shader?咱们通常说写个shader,其实也就是写了一个执行某种功能的程序,跟你写个普通的程序原理上说一样的,而不同之处在于,shader是写个GPU执行的,说到GPU执行,那么就得谈到3D游戏里面的那些人物啊,花鸟啊,

浅谈GPU

Programmable Graphics Processing Unit(GPU),可编程图形处理单元,可编程图形硬件. 98年NVIDIA的modern GPU研发成功,使用晶体管(transistors)进行计算. 自03年起,可编程图形硬件正式诞生,GPU编程也宣告诞生. 目前最新的可编程图形硬件已经具备了如下功能:1. 支持 vertex programmability 和 fragment programmability:2. 支持 IEEE32 位浮点运算:3. 支持 4 元向量,

五 浅谈CPU 并行编程和 GPU 并行编程的区别

前言 CPU 的并行编程技术,也是高性能计算中的热点,也是今后要努力学习的方向.那么它和 GPU 并行编程有何区别呢? 本文将做出详细的对比,分析各自的特点,为将来深入学习 CPU 并行编程技术打下铺垫. 区别一:缓存管理方式的不同 GPU:缓存对程序员不透明,程序员可根据实际情况操纵大部分缓存 (也有一部分缓存是由硬件自行管理). CPU:缓存对程序员透明.应用程序员无法通过编程手段操纵缓存. 区别二:指令模型的不同 GPU:采用 SIMT - 单指令多线程模型,一条指令配备一组硬件,对应32

【《Real-Time Rendering 3rd》 提炼总结】(二) 第二章 图形渲染管线 The Graphics Rendering Pipeline

本文由@浅墨_毛星云 出品,转载请注明出处.   文章链接:http://blog.csdn.net/poem_qianmo/article/details/70544201 这篇文章是解析计算机图形学界"九阴真经总纲"一般存在的<Real-Time Rendering 3rd>系列文章的第二篇.将带来RTR3第二章内容"Chapter 2 The Graphics Rendering Pipeline 图形渲染管线"的总结.概括与提炼. 文章分为全文内

浅谈 Java Printing

浅谈 Java  Printing 其实怎么说呢?在写这篇博文之前,我对java printing 可以说是一无所知的.以至于我在敲文字时, 基本上是看着api文档翻译过来的.这虽然看起来非常的吃力,但是我相信,有道大哥不会辜负我的.嘻 嘻! Java Printing 技术,也就是我们平时所接触的打印,只不过是说可以用Java实现而已. 一.Java Printing 打印简介 Java Printing API能够使java应用程序实现相关的打印功能,如: 1.打印所有 Java 2D 和

图标字体化浅谈[转]

在做手机端Web App项目中,经常会遇到小图标在手机上显示比较模糊的问题,经过实践发现了一种比较好的解决方案,图标字体化.在微社区项目中,有很多小的Icon(图标),如分享.回复.赞.返回.话题.访问.箭头等,这些Icon(图标)一般都是纯色的.开始制作时考虑用双倍大小的Sprite图,通过CSS样式设置只显示二分之一尺寸,这样在Retina屏上显示的大小是正常的,一旦放大屏幕后图标又变得模糊不清,测试的效果不是很理想,后来又考虑多套图标适配方案.SVG矢量图等,都因为种种原因放弃掉了(如多套

浅谈算法和数据结构

: 一 栈和队列 http://www.cnblogs.com/yangecnu/p/Introduction-Stack-and-Queue.html 最近晚上在家里看Algorithems,4th Edition,我买的英文版,觉得这本书写的比较浅显易懂,而且“图码并茂”,趁着这次机会打算好好学习做做笔记,这样也会印象深刻,这也是写这一系列文章的原因.另外普林斯顿大学在Coursera 上也有这本书同步的公开课,还有另外一门算法分析课,这门课程的作者也是这本书的作者,两门课都挺不错的. 计算

浅谈程序员该具备的自我修养

各行各业的工作者,都有其要求,那么作为程序员,我们又该具备哪些素养呢?博主在这里浅谈个人看法,如有不当之处,请大佬们指正. 一.知识储备 1.数学 或许在很多人看来,学计算机用不到什么数学,最多也就是一百以内的加减乘除,用在for循环.数组索引之类的上面.但其实不然,大部分人这样觉得是因为基本都工作在应用层,所以相对而言,用到的数学知识会比较少,也比较浅显. 而当从应用层更深地学习研究时,就需要一定的数学能力了. 2.计算机 1)操作系统 操作系统(OS)是配置在计算机硬件上的第一层软件.是对硬