针对这个新系列,ATI 已加倍其 Z 效能到每周期 32 像素-无论是否开启多取样功能。HD 2600 与HD 2400 仅具备每时脉 8 像素的能力,因为它只内建一个 Z 单元,而 HD 2900 则为 4 个。ATI 为 DX10 纳入了新的混色 (blend) 与可显示 128 位元 (displayable 128-bit) 及 11:11:10 浮点格式。在 R600 架构下,最多可同时定义 8 个多重转译目标 (MRT),这可容许著色器拥有多个输出。在某些情况下,资料可以储存,而不是在多通过 (pass) 作用时重新运算,因此可降低指令次数。当你能立即使用并储存留待他日使用的资料,何必要再处理一次呢? 另外,资料精度也被增加到两个通过之间的 1K-bit 资料 (例如 Float_4 * 8)。
ATI 不但加倍 Z 缓冲数,也提升了他们的复杂性。Z 范围的最佳化也是 DX10 特色之一,这代表你可以缩小 Z 缓冲的范围,以测试特定范围,这有利于模板阴影功能。压缩率也比前一代加倍,在标准模式下,HD2000 可以处理 16:1 压缩,而 X1000 为 8:1,并可以压缩样板值。使用 MSAA 8x,它可以达到 128:1 压缩比。另外,它也加入了 32 位元的浮点与整数格式。根据 ATI,HD 2900 的阴影效能是 X1950 的 2x (2倍)。值得注意的好事是这个评论是基于先前的 beta 驱动程式,如果历史再度重演,ATI 可能继续最佳化,所以我们可预期包括软阴影在内的所有形式阴影特效的效能都会再提升。目前已经可以找到数个 Catalyst 驱动程式版本,系统整合厂商手上已有 Catalyst 7.5 的下一 WHQL 侯选版, 这个驱动程式应该会在 5 月 23 日左右提供。

除了前一版硬体已存在的阶层式 Z (HiZ) 之外,ATI 也加入了阶层式模板 (HiS),以提供较佳的模板效能。 HiZ 已建置在 Xbox Xenos 晶片,现在导入 R600 中。就像 HiZ,HiS 可剔除非必要的模板写入。
Z 缓冲是与模板分离。现在 Z 与模板是个别压缩,以求较佳的效能。在过去的架构中,像《毁灭战士》(Doom) 等游戏中 它们是储存在一起,因此必须同时储存模板与深度值。 一般说来,这两项储存在一起的,但可能导致过度的解压缩动作,但新设计已解决这个问题。500 系列处理器具有压缩资料使用的晶片上储存区,它会告知萤幕每一区的压缩状态给处理器知道。当解析度超过其设计规格时,就会发生问题,处理器会用尽空间,所以并非所有区块都可压缩在本地固定记忆体上。换言之,某些程式偏向于建立许多大型 Z 缓冲。为了改良实体限制,Z 缓冲已全部虚拟化,所以可放在快取、本地或系统可位址记忆体上。 现在区块会针对其工作所在的缓冲与地区快取化。这容许大量的压缩-尤其是高解析度时,其效能表现会显现在超过 1600x1200 解析度或用到许多缓冲动作的应用程式上,这种设计对色彩及更重要的 Z,更是适用。
Re-Z
Re-Z 是一次转译内执行多 Z 通过 (pass) 的能力。 一般而言,Z 检查是在著色器之前或之后执行。 现在这个动作可在更之前或之后执行。因为著色会影响 Z 值,因此这是必要的步骤。像素可能会在作用中时,或是当某个叶形饰 (foliage) 的角落完成 alpha 测试时被删除。在过去侦测到这样的情况时,ATI 只会在所有像素都被删除后,执行延迟或 Z 的动作。现在则可以事先执行,并以“询问像素是否将被显示”的非破坏性方式执行。如果像素将被显示,那么像素著色器会遮住 (shade) 它,然后它在稍后再执行一个 Z 测试。如果此像素将不被显示,那么则可以删除。在像素将被显示的情况下,Z 缓冲在程序完成之前不会更新。基本上,这有助略过无用的著色工作及修改适用的值,是相当具前瞻性的技术,这比过去的方法更有效率,并可带来 ATI 宣称最高达 15% 的速度提升。
