GF100架构分析:优化8xAA的ROP与32xAA支持
提升抗锯齿能力的新型ROP单元——
GF100的ROP子系统经过重新设计,可提升吞吐量与效率。一个GF100 ROP分区包含8个ROP单元,数量比上一代架构翻了一倍。每个ROP单元在一个时钟周期内均能够输出一个32位整数像素,一个FP16像素需要两个以上的时钟周期,一个FP32像素需要四个以上的时钟周期。原子指令性能也得到了大幅提升,相同地址的原子操作执行速度最高可达GT200的20倍,邻近存储区的操作执行速度最高可达7.5倍。
在GF100上,由于压缩效率的提升以及更多ROP单元能够更有效地渲染这些无法被压缩的较小基元,因此8倍速多重采样抗锯齿(MSAA)的性能得到了大幅提升。当压缩不起作用时,场景中几何逼真度的提升更加需要ROP单元良好地运行。
支持高达32x的覆盖采样抗锯齿(CSAA)——
GF100还新增了一种新型32倍速覆盖采样抗锯齿(CSAA)模式,该模式能够提供最高图像质量并利用“透明至覆盖”(Alpha-to-Coverage)来为当今游戏进一步提升几何逼真度。
由于受到API与GPU计算能力的限制,当今的游戏能够渲染的几何图形数量还很有限。叶子的渲染是一个尤其突出的难题。针对叶子的一种常用技术就是创建一个包含许多树叶的透明纹理公告板,利用“透明至覆盖”来除去树叶之间的缝隙。覆盖采样的数量决定了边缘的画质。如果只有四个覆盖或八个采样,那么将会出现非常糟糕的锯齿以及镶边现象,尤其是在纹理靠近屏幕的时候。采用32倍速覆盖采样抗锯齿(CSAA),GPU共有32个覆盖采样,从而最大限度减少了镶边效果。
透明多重采样(TMAA)也能够从CSAA中获益匪浅。由于“透明至覆盖”不在DirectX 9 API当中,所以DirectX 9游戏无法直接使用“透明至覆盖”。而TMAA恰恰对这样的游戏有所帮助。取而代之的是,它们采用了一种叫做“透明测试”的技术,该技术能够为透明纹理产生硬边缘。TMAA能够转换DirectX 9应用程序中旧的着色器代码,使其能够使用“透明至覆盖”。而“透明至覆盖”与CSAA相结合,能够生成大幅提升的图像质量。