从一开始,RV770的核心具体规格就一直是个不解之迷,其中最初消息显示为480个流处理器单元,而随着时间的推移,我们最终确定RV770核心的流处理单元达到800个之多!在核心面积和晶体管数量仅提升40%的情况下,流处理器单元居然有着2.5倍的提升,这使得即使核心频率只有625MHz的RadeonHD4850,其浮点运算效率也达到了惊人的1TeraFLOP!
虽然以ATI的说法来看,RV770拥有800个之多的流处理器单元,而即使是NVIDIA最新的旗舰GeforceGTX280也仅有240个流处理器,但我们不能理解为RV770的流处理器是GT200的数倍,因为在核心架构上两者走着完全不一样的路。
在过往,像素渲染单元和顶点渲染单元都分别负责着不同的数据渲染,比如说像素渲染单元负责着包括RGB(三原色)和这三原色的信息说明等一共四个数据的运算,而顶点渲染单元则是负责三角型顶点的XYZW坐标数据的运算,我们把这些任何一个单独的数据称为标量。因为在以前往往这两种数据都是4个标量为一组的,所以像素渲染单元和顶点渲染单元都被设计成单周期同时执行一组4标量的运算,这就是旧有的SIMD架构,SIMD架构在处理4标量为一组的矢量运算时效率非常高。
但随着游戏的复杂化,一组矢量未必数量一定为4的标量,那么比如在执行只有单一标量的矢量数据时,原来的SIMD架构效率就大打折扣了。虽然近代的ATI使用了“3+1” 的设计,允许一次处理4个矢量运算,或者同时处理一个3矢量运算和一个单标量运算。而NVIDIA的Geforce6和Geforce7系列则除“3+1”外还可以提供一个额外的“2+2”类型运算来提高效率,但由于的单标量运算日益频繁,加上长久以来像素渲染与顶点渲染比重的问题,所以旧有的SIMD架构终被取缔了。
到了DirectX10时代的统一渲染架构,NVIDIA采用的是全标量流处理器设计MIMD,遇到单标量处理时流处理器可以提供100%的运算效率,虽然听上去很灵活,但如果遇到传统矢量运算的话,MIMD架构的效率仍然不如SIMD。而ATI则保持过往R580的策略,在每个流处理器里面放置更多的流处理单元,这里的更多是指由原来R580的1:3比例增加至1:5。
所以RV770的800个流处理器单元,其实由10个SIMD矩阵、每个矩阵16个SIMD单元拆分所得(每个SIMD内拥有5个ALU),不过这些流处理单元不象传统的SIMD架构只支持矢量运算,其也支持标量与矢量并行运算,支持5个单独标量、2+2+1标量和1组矢量+1个标量等多种模式的同时运算。和NVIDIA不同,ATI的的流处理器频率和核心频率是保持一致的,而NVIDIA的流处理器频率则是核心频率的两倍以上,综合这些区别我们很难去换算ATI与NVIDIA在架构上的强弱,更多情况下取决于游戏设计更适合那一种架构。
R600/RV670都只有四组纹理单元
另外,由于ATI架构中每个SIMD矩阵配搭一个纹理单元,所以RV770的纹理单元从由RV670的4个大幅度提升至10个,其中纹理过滤单元(每个完整纹理单元包含4个纹理过滤单元)TF从原来的16个大幅度提升至40个,纹理寻址单元TA从原来的32个提升至80个,比例为1:2。虽然在数量上不及80TA与80TF数量比例的GT200,但相比起自家RV670来说,相信RV770在各向异性过滤性能方面定必大大提高。