KlayGE 4.0中Deferred Rendering的改进（二）：拥挤的G-Buffer

Nov 28

转载请注明出处为KlayGE游戏引擎，本文的永久链接为http://www.klayge.org/?p=1574

上一篇讲了在KlayGE 4.0中，Deferred Rendering的流水线改进。本篇继续讲G-Buffer的变化。

G-Buffer布局

前面提到了G-Buffer改成了MRT，那么现在就来比较一下新老G-Buffer的区别。老G-Buffer的安排如下：

老G-Buffer是4个通道、每个通道都是fp16的RGBA16F格式。其中normal用Spheremap Transform的方式映射到2个通道；depth单独存一个通道；specular和shininess挤在一个通道内，整数部分为specular * 100，小数部分为shininess / 256.0f。

这样的G-Buffer需要占据64-bit，IO开销不小，而且depth精度有限。如果按照新的MRT G-Buffer扩展到2个RT，就需要再增加一个32-bit的RT。对于不支持Independent MRT的D3D9硬件来说，甚至要增加一个64-bit的RT，会很影响性能。

最直接的改进就是把depth去掉，同时把specular和shininess分散到两个通道去，就像这样：

这么一来，所有的分量都可以存在8-bit之内，2个RT仍用64-bit就能解决，并且空闲了一个通道！但是，由于normal的位数下降了非常多（从原来32-bit变成16-bit），效果也会受到很大影响。例如，原先（2个16-bit通道）的高光是这个样子的：

改用2个8-bit通道就出现了很明显而且丑陋的梯度：

所以说2个8-bit通道没有能力表现出光滑的normal过渡，得把剩余的一个通道用上才行。但需要注意的是，和传统Deferred Shader的G-Buffer不同在于，这种MRT G-Buffer的每个lighting pass只需要读取一次RT0，到了shading pass才读一次RT1。如果把lighting pass需要的信息放到了RT1，就会造成lighting pass的IO加倍，失去Deferred Lighting的有效加速。

因此，我只能作出一个艰难的决定：放弃基于物理的fresnel。原先把specular放在RT0的目的就是，在lighting pass可以用它来计算fresnel：

[latex]F_{Schlick}(\mathbf{c}_{spec}, \mathbf{l}, \mathbf{h})=\mathbf{c}_{spec}+(1-\mathbf{c}_{spec})(1-(\mathbf{l} \cdot \mathbf{h})^5)[/latex]

基于物理的fresnel需要specular颜色（这里简化成只有亮度了）、light方向和halfway方向，必须在lighting pass计算。最常见的近似是用view和normal来代替light和halfway，这样就可以在shading pass才计算fresnel，而且对于所有角度的光源产生的fresnel系数都相同。实际上，这个近似只有在高光的那一个点的地方是相同的，越往边缘去会越暗。但因为fresnel本身比较弱，这个差异可以被直接忽略。因为通道实在不够，在KlayGE 4.0中，我也不得不采用这个近似的、不基于物理的fresnel，得到新的G-Buffer布局如下：

specular被挪到了RT1的A通道，RT0的RGB通道就能都用来存放normal了。那么，在24-bit normal下渲染结果又如何呢？

可以看到，效果比只用16-bit好了许多，但离32-bit的情况还是很有差距的。至少一眼就能看出来梯度的现象。在SIGGRAPH 2010上，Crytek有个讲座叫CryENGINE 3: reaching the speed of light。里面提到了出现这个现象的根本原因在于：normal是被normalize过的！24-bit一共能表达256x256x256 = 16777216个不同的值，但如果仅限于normalizied的，就剩下了大概289880个，仅占了1.73 %。它有效的位数只有17-bit，所以梯度的格子仅比16-bit的时候密了一倍。Crytek的best fit for normals方法能表达16482364个值，也就是98.2 %，提升了几乎两个数量级。用best fit调整过的normal平滑的多了：

已经看不出和32-bit normal的区别了。关于best fit for normals的具体方法，可以参考Crytek的ppt。这里提供了一个我的程序预计算出来的纹理，用来查询最佳长度。

normals_fitting.7z

和Crytek的方法不同的是，我省掉了它所说的y/x变换，所以从normal计算纹理坐标的时候也得去掉vTexCoord.y /= vTexCoord.x一行。

现在，lighting pass和shading pass需要的信息都已经挤到了狭小的64-bit中，下一篇我会讨论一个所有deferred框架都会面临的大问题：透明物体。

KlayGE 4.0中Deferred Rendering的改进（一）：流水线

KlayGE 4.0中Deferred Rendering的改进（三）：透明的烦恼

Deferred

Comments

atyuwen

November 29th, 2011 at 10:33 AM

赞，期待后续
KlayGE 4.0中Deferred Rendering的改进（三）：透明的烦恼 - KlayGE游戏引擎

November 29th, 2011 at 9:58 PM

[…] 上文讲到了如何把信息挤入有限的G-Buffer，另一个在实际中面临的问题是如何渲染透明物体。 […]
了心

November 30th, 2011 at 11:41 AM

太赞了

“作出一个艰难的决定”哈哈

期待能在Terge上实现

GONG Minmin

November 30th, 2011 at 2:41 PM

不久的将来就会实现

daphnis

February 14th, 2012 at 10:35 PM

你去掉了vTexCoord.y /= vTexCoord.x会损失将近一半的精度
在损失一半精度的条件下，如果你的纹理把下半部分补上，那么vTexCoord.x和vTexCoord.y可以不排序，可以节省更多的指令，那么在ps_2_0下CompressNormalToUnsignedGBuffer函数只需要花费12个指令

GONG Minmin

February 15th, 2012 at 1:22 PM

有道理，谢谢提醒！

Forward框架的逆袭：解析Forward+渲染 - KlayGE游戏引擎

April 21st, 2012 at 10:57 AM

[…] 从这里可以看出，前两步与Tiled-based deferred shading大同小异，但只需要Z-Buffer，而不需要很消耗带宽的G-Buffer（G-Buffer最小也要32bit color + 32bit depth）。第三步是完全一样的。第四部由于用了forward，可以有forward的各种好处： […]
屏幕空间实时非平面反射 - KlayGE游戏引擎

June 12th, 2012 at 9:10 PM

[…] 本来打算把Ocean例子改成用SSR，但因为Ocean目前不是采用deferred rendering，要修改的话肯定赶不上KlayGE 4.1了。只能等到下一版才有空切换过去。在当前版本中还有另一个问题，因为normal用的是best-fit的方法保存成24bit，精度较低，所以在某些视角上会出现误差较大的反射ray，导致反射图像不连续。分享到： […]
KlayGE 4.5中渲染的改进（二）：再探normal的存储 - KlayGE游戏引擎

June 19th, 2014 at 8:52 AM

[…] 在KlayGE 4.0之前，G-Buffer是2张64bpp的纹理，normal用spheremap transform的方式存在2个fp16的通道里，共32bit。这样的G-Buffer占用空间相当大。在4.0的时候，G-Buffer改成了2张32bpp的纹理，normal用best fit的方法存在3个8bit通道里，共24bit。Best fit的有效位数是23bit，两个fp16的总有效位数是22bit，所以这么做反而有助于质量提升。 […]

KlayGE游戏引擎