cg编程之 Shader Language原理

来源：互联网发布：不会编程能学数据库吗编辑：程序博客网时间：2024/05/01 10:50

Shader Language 目前主要有三种：基于OpenGL的GLSL，基于Direct3D的HLSL，还有NVIDIA公司的Cg 语言。

shader language被定位为高级语言，如，GLSL的全称是“High Level Shading Language”，Cg语言的全称为“C for Graphic”，并且这两种shader language的语法设计非常类似于C语言。不过高级语言的一个重要特性是“独立于硬件”，在这一方面shader language暂时还做不到，shader language完全依赖于GPU构架，这一特征在现阶段是非常明显的！任意一种shader language都必须基于图形硬件，所以GPU编程技术的发展本质上还是图形硬件的发展。

本章的目的是阐述shader language的基本原理和运行流程，首先从硬件的角度对Programmable Vertex Processor（可编程顶点处理器，又称为顶点着色器）和 Programmable Fragment Processor（可编程片断处理器，又称为片断着色器）的作用进行阐述，然后在此基础上对vertex program和fragment program进行具体论述。

1.1 Shader Language原理

使用shader language编写的程序称之为shader program（着色程序）。着色程序分为两类：vertex shader program（顶点着色程序）和fragment shader program（片断着色程序）。为了清楚的解释顶点着色和片断着色的含义，我们首先从阐述GPU上的两个组件：Programmable Vertex Processor（可编程顶点处理器，又称为顶点着色器）和 Programmable Fragment Processor（可编程片断处理器，又称为片断着色器）。文献[2]第1.2.4节中论述到：

The vertex and Fragment processing broken out into programmable units. The Programmable vertex processor is the hardware unit that runs your Cg Vertex programs, whereas the programmable fragment processor is the unit that runs your Cg fragment programs.

这段话的含义是：顶点和片段处理器被分离成可编程单元，可编程顶点处理器是一个硬件单元，可以运行顶点程序，而可编程片段处理器则是一个可以运行片段程序的单元。

顶点和片段处理器都拥有非常强大的并行计算能力，并且非常擅长于矩阵（不高于4阶）计算，片段处理器还可以高速查询纹理信息（目前顶点处理器还不行，这是顶点处理器的一个发展方向）。

如上所述，顶点程序运行在顶点处理器上，片段程序运行在片段处理器上，哪么它们究竟控制了GPU渲染的哪个过程。图 8展示了可编程图形渲染管线。

着色语言比较，以及HLSL VS GLSL VS CG - 童童 - lee_shutong 的GPU博客

GPU渲染管线，可以看出，顶点着色器控制顶点坐标转换过程；片段着色器控制像素颜色计算过程。这样就区分出顶点着色程序和片段着色程序的各自分工：Vertex program负责顶点坐标变换；Fragment program负责像素颜色计算；前者的输出是后者的输入。

图 9展示了现阶段可编程图形硬件的输入/输出。输入寄存器存放输入的图元信息；输出寄存器存放处理后的图元信息；纹理buffer存放纹理数据，目前大多数的可编程图形硬件只支持片段处理器处理纹理；从外部宿主程序输入的常量放在常量寄存器中；临时寄存器存放着色程序在执行过程中产生的临时数据。

1.2 Vertex Shader Program

Vertex shader program（顶点着色程序）和Fragment shader program（片断着色程序）分别被Programmable Vertex Processor（可编程顶点处理器）和 Programmable Fragment Processo（可编程片断处理器）所执行。

顶点着色程序从GPU前端模块（寄存器）中提取图元信息（顶点位置、法向量、纹理坐标等），并完成顶点坐标空间转换、法向量空间转换、光照计算等操作，最后将计算好的数据传送到指定寄存器中；然后片断着色程序从中获取需要的数据，通常为“纹理坐标、光照信息等”，并根据这些信息以及从应用程序传递的纹理信息（如果有的话）进行每个片断的颜色计算，最后将处理后的数据送光栅操作模块。

图 10展示了在顶点着色器和像素着色器的数据处理流程。在应用程序中设定的图元信息（顶点位置坐标、颜色、纹理坐标等）传递到vertex buffer中；纹理信息传递到texture buffer中。其中虚线表示目前还没有实现的数据传递。当前的顶点程序还不能处理纹理信息，纹理信息只能在片断程序中读入。

顶点着色程序与片断着色程序通常是同时存在，相互配合，前者的输出作为后者的输入。不过，也可以只有顶点着色程序。如果只有顶点着色程序，那么只对输入的顶点进行操作，而顶点内部的点则按照硬件默认的方式自动插值。例如，输入一个三角面片，顶点着色程序对其进行phong光照计算，只计算三个顶点的光照颜色，而三角面片内部点的颜色按照硬件默认的算法（Gourand明暗处理或者快速phong明暗处理）进行插值，如果图形硬件比较先进，默认的处理算法较好（快速phong明暗处理），则效果也会较好；如果图形硬件使用Gourand明暗处理算法，则会出现马赫带效应（条带化）。

而片断着色程序是对每个片断进行独立的颜色计算，并且算法由自己编写，不但可控性好，而且可以达到更好的效果。

由于GPU对数据进行并行处理，所以每个数据都会执行一次shader程序程序。即，每个顶点数据都会执行一次顶点程序；每个片段都会执行一次片段程序。

1.3 Fragment Shader Program

片断着色程序对每个片断进行独立的颜色计算，最后输出颜色值的就是该片段最终显示的颜色。可以这样说，顶点着色程序主要进行几何方面的运算，而片段着色程序主要针对最终的颜色值进行计算。

片段着色程序还有一个突出的特点是：拥有检索纹理的能力。对于GPU而言，纹理等价于数组，这意味着，如果要做通用计算，例如数组排序、字符串检索等，就必须使用到片段着色程序。让顶点着色器也拥有检索纹理的能力，是目前的一个研究方向。

附：什么是片断？片断和像素有什么不一样？所谓片断就是所有的三维顶点在光栅化之后的数据集合，这些数据还没有经过深度值比较，而屏幕显示的像素都是经过深度比较的。

CG编程参考资料，Nvidia官网提供的教程The Cg Tutorial

转自http://blog.csdn.net/pizi0475/article/details/6574689