更高执行效率:HD6900 VLIW4架构
AMD在2900XT推出的时候采用了现在的5D架构来设计显示核心,此后这个设计一路延续到RV870的HD5800系列。HD6900在架构上做了不少的改变,首先第一个是4D架构,或者叫VLIW4。384个线程处理器内包括四个均等的中型流处理单元,外加一个通用目的光栅单元和一个分支单元。
Cayman核心的HD6970一共拥有24组SIMD单元,流处理器数目数1536个。虽然流处理器数目减少,但是Cayman核心面积反而增加,这是由于Cayman核心本来是采用32nm制作工艺,后来台积电跳过32mn工艺,直接研究28nm制作工艺,Cayman核心被迫使用40mn制作工艺,所以这样的情况下Cayman核心面积增加了不少。
▲Cayman核心核心架构
VLIW4 4D式架构采用四路设计,所有的流处理器都具有相同的整数、浮点操作执行能力,VLIW4架构相比于VLIW5能减少核心面积大约10%,简化调度和光栅管理,逻辑核心也得到了大范围的重新利用,从而提高了处理能力。
▲4路并行设计
Cayman核心使用了两组图形引擎,每时钟周期可处理2个原语(Primitive),具备基于区块的负载均衡,转换和隐面消除率翻番,这个设计等同于双核心的设计,同时两个光栅器单元,每时钟周期最多可处理32个像素,显卡的处理速度将有非常大的提升。HD6900使用了第八代的曲面细分技单元,支持更高曲面细分等级的片外缓存,以提高性曲面细分能力,相比HD5870提升多达三倍。
▲渲染后端
Cayman的渲染后端也有所改善,每个单元拥有16b的整点和32b的浮点运算能力,性能提升2到4倍,配合上驱动的支持可以大大提升显卡的渲染能力。
▲更强大的通用运算能力
在通用运算方面Cayman核心提高更为强大的运算能力,DMA引擎设计拥有更加快的显存读取和写入速度,另外Cayman可同时执行多个通用运算内核,每个内核都有自己的命令队列和虚拟地址。Cayman还支持着色器读取操作合并、LDS(本地数据共享)直接拾取、改进的流控制、更快的双精度操作(单精度的四分之一)。