阅读新闻

石破天惊!R600-ATI DX10显卡震撼问世

新设计-高层次检视

[日期:2007-07-05] 来源:原创  作者:福气 [字体: ]

 

Radeon HD 2900 的 R600架构

我们先以鸟瞰方式检视核心,然后再放大焦点在每个元件上。看著新架构的图,你应该可以看出 ATI 善用前代产品创意的地方。新的派遣 (dispatch) 控制器是以过去的经验,结合 500 系列的像素排程和 Xanos 的顶点加像素 (ertex plus pixel) 排程技术而来。完整的 DX10 需要更多的排程动作,这是因为几何著色器的加入所致。为了处理所有任务,新设计也必须加入虚拟化能力。

之前传闻 ATI 即将推出的绘图处理器会继续内含一向量加纯量 (vector plus scalar) 指令设计。但事实并非如此。ATI 变更其处理器架构为超纯量设计,也就是说纯量指令以 5 个为单位划分为一群组。超微资深工程师 Eric Demers 说明:“我们舍向量加纯量而取超纯量设计在于,超纯量更有效率,因为你可以进一步使用所有 FPU 运算。”

ATI 使用纯量群组以形成超大指令字 (VLIW),但这是否比纯纯量设计来得有效率呢?答案是视情况而定。真正的纯量设计较简单,但层次浅。超纯量的深度亦如其细度 (granularity),但如果指令未能正确馈入,也可能因此堵塞,但这已超出本文讨论范围,我们会另寻机会讨论两种设计的辩证。

ATI 继续使用一超执行绪 (ultra-threaded) 派遣处理器,以保持晶片单元随时处于忙碌的状态。其设计逻辑在于让所有执行绪平行运作,也能使许多不同种类的著色器同时执行。但过程的阻塞只会导致效能变差劲,因此 ATI 将执行绪虚拟化,以提高筹码。任何特定时间中只有数百个执行绪在运作,虚拟化可有效容许不受限制数目的执行绪。然后这些执行绪被馈入单指令多资料 (SIMD) 阵列路径中。所有 4 个阵列都会接收一组指令,并互相独立。总计会有 64 区块 (block) 的五个一组的汇流处理器,总计为 320 个汇流处理器。

这项架构具备统一的著色器。如同在去年秋季 DX10 报导与G80 发表报导所指出,我们示范了具有统一架构的 DX10 中的统一著色器程式码如何增加使用率与效能。在例如《上古卷轴:遗忘之都》(Oblivion) 与众多即将出炉的游戏中,画面时间 (frame time) 时会形成相当不同的负载。在画面初期,我们可见到延迟打光 (deferred lighting)、阴影通过 (pass)、角色动画与许多纯顶点处理,可以相较少量的像素处理完成。在画面测试后半,则可见 HDR 通过、色调对映、模糊过滤、调整 (tuning)、网状张开 (bloom) 效果、后制处理及其他显然是像素处理的特效。

图表上的著色器/SP 右边有 4 个群组的材质单元。每个材质单元能捉取具有顶点与材质资料大快取的资料,而且也具备一个新的 L2 资料快取。在著色器下方是 4 个标准后端 (back end),ATI 宣称 Z缓冲效能是前一代 (x1000) 的两倍。

频宽因此大幅改良,双向均为 512 位元宽度,这并非在晶片多加一些接脚就可以完成的任务。分配频宽到晶片中所有元件的硬体也不能少。Demers 表示:“这款产品牵涉到许多引线 (wire) 与电晶体。”“这是个重大的设计决策。”说的没错,ATI 有效加倍了频宽。

 



上一页 [1] [2] [3] [4] [5] [6] [7] [8] [9..] [18] 下一页   
【内容导航】
第1页:等待值得么
第2页:精神食粮:这种设计的理由
第3页:新设计-高层次检视
第4页:命令处理器 (CP)
第5页:设定引擎
第6页:超执行绪派遣处理器
第7页:排序
第8页:SIMD 阵列
第9页:材质单元
第10页:记忆体读/写快取
第11页:转译后端-AA 到 Z
第12页:Z 缓冲与 HiZ
第13页:内存界面与分散
第14页:镶嵌-必要或强制?
第15页:游戏的真实世界
第16页:AVIVO-许多新硬体
第17页:给我看效能测试!
第18页:性能测试结果
阅读:
录入:福气

评论 】 【 推荐 】 【 打印
上一篇:iPhone改变移动产业 成为全球疯狂运动
下一篇:摩托罗拉预计第二季裁员相关税前支出为1.01亿美元
本文评论       全部评论
发表评论

字数
姓名:

 
新闻查询