RV870和GT300的一些猜测

现在的位置: 首页 > 综合 > 正文

RV870和GT300的一些猜测

2012年12月08日 ⁄ 综合 ⁄ 共 3238字 ⁄ 字号小中大 ⁄ 评论关闭

个人觉得SM4.0硬件规范和DX10都是过渡产品，现在SM5.0和DX11横空出世，相信大家都期待很久了。DX11在去年年末的DX SDK中就已经存在，只是没有DOCUMENT，而DX12相信也在开发之中了。ATI目前有售的民用产品应该是RV770，而在09年第三季度要发售的是支持DX11的RV870；再看看现在深陷泥潭的NV，目前有售的是GT200，支持DX11的GT300还不知道具体什么时候出来L推测应该是09年第4季度。相信最精彩的战争将在2010年上半年出现，AMD全新架构的RV970、GT300和INTEL的怪物LARREBEE将悉数登场。本文中所有GPU架构都是在RV770和GT200的基础上对RV870和GT300进行猜测，然后结合DX11进行讲解，所以不能保证内容都是正确的，仅供参考：）。

RV870：R600最后的武士

R770和RV870其实都是R600架构，在AMD收购ATI之后，将自家CPU上先进的芯片内部总线传输技术嫁接到了GPU上，使之较ATI之前的GPU在性能上有极大提高，架构一直沿用至今也没有出现太大的技术瓶颈。RV870只在频率、流处理器数量、纹理光栅单元等参数上有量的提高，要等到RV970才会使用全新架构。RV870纹理单元和光栅化单元也分别由RV770的10个和4个增加到12个和8个（此为猜测）。AMD声称RV770拥有800个流处理器，但他指的是算术逻辑计算单元，有意义的数据应该是160个，RV870的流式处理器更是多达1200个，不过我们要把他除上5才得到一个比较有意义的数字，那就是240个，根据其纹理单元可能为12个的猜测，RV870就会将20个完整的流处理器编为一组，共12组，每组对应一个纹理单元，相比RV770确实增加了不少。

RV770内部使用了两层组织设计，第一层是内部的10个簇，它们用cross bus也就是AMD CPU中使用的switch hud将这些簇联接起来，每个簇包含16个core，一个纹理单元（包含1个顶点地址生成器，1个顶点攫取器，4个纹素插值过滤器，16个纹理采样器，4个纹理地址生成器），一个16KB的share memory（用来在core之间高速共享数据R/W），一个L1 Texture Cache（大小不太清楚）；每个core中又包含1个分支指令执行单元，5个超标量计算单元，其中一个还可以执行超越函数。在来看看GT200，他第一层架构是10个所谓的TPC，每个TPC包含3个SM，每个SM又包含8个SP，一个双精度浮点计算单元和2个和两个超越函数执行单元，每个SP包含一个分支指令计算器，一个整数单精度浮点数ALU和MAD计算单元，真TM麻烦。最重要的就是ATI所谓的超标量计算架构和NV的纯标量计算架构的差别。先说GT200的纯标量架构吧，GT200的SM有两个指令ISSUE PORT，一个到分支计算器ALUMAD计算器和DPU，一个到FMUL SFU单元，一个次ISSUE最多可以抓取2条指令（必须满足要求），送到最多8个SP中，共16条，GT200将矢量计算都分成了标量计算，比如float4的乘法，分成了4个float乘法指令，显然使指令数量增加了不少，为了达到比较好的并行性，NV不得不增加SP的数量。而RV770使用了所谓的VLIW，就是宽指令集，每个SP拥有5个计算单元，这5个计算单元可以任意组合使用，比如float2 f0 = f1 * f2; float3 f3 = f4 * f5;这两条指令可以合并成一条宽度为5的SIMD指令，只需要一个ISSUE周期和一个计算周期就能完成5个FLOAT的计算，这样看来ATI的优势还不小，首先指令变少了，单就ALU和MAD计算单元来讲也远多于GT200，应该性能远高于GT200才对，但实际情况并非如此，最主要的原因有如下两条：1、目前ATI驱动中的SHADER编译器还不具备乱序分析，指令分拆重组功能，在不能完美组成5D矢量计算时，SHADER利用率不高，比如2个float3的乘法，就不能进行合并，只能分两次ISSUE计算，这样在这2次计算中，Shader利用率只有60%，还有2个单元空闲着。而GT200 SP的利用率应该长期保证在100%。2、shader运行的频率完全不同，比如市面上流行的GT200核心的GPU GTX280核心频率一般为620MHZ左右，而SHADER频率一般为1300MHZ，反观采用RV770核心的GPU HD4870 核心频率和shader频率都在750MHZ左右。这样我们可以粗略计算一下RV770和GT200的浮点计算能力: GT200: 1.3*240*2(MAD算2次浮点计算) = 624GFLOPS（在这里我们没有算上NV SM中的2个SFU和一个DPU，因为他们计算太有局限性），RV770: 0.75*800*2 = 1200GFLOPS，轻松过T。NV的另外一个超级烂的概念就是WARP，本来应该是一个纯软的CUDA编程概念，没想还跟实际硬件架构有关，GT200的WARP是32个线程，其实GPU硬件层是没有线程概念的，只有指令，所谓32WARP无非就是32条指令，明明只有8个SP为什么一次却能同时执行32条指令，我也不太清楚，大概GPU的各种指令的平均延迟大概为4个周期，可以重复利用空闲等待硬件，或者利用较高的核心频率来达到这个目的，我比较确定是前者，因为我没有看见SP中有LOAD和STORE执行单元，应该是作为SP的一部分。RV870的核心频率估计高达950MHZ，比RV770核心高出约25%左右，依然使用内外同频设计。

GT300采用40nm技术，原定由台积电代工制造，晶体管数目高达24亿，512个流处理器，比GT200的240个多了272个，依然采用TPC架构，共16组TPC，每组32个流处理器，但每个TPC内部的纹理单元数与GT200一样为8个，封装面积495mm2，采用异步频率，具体比例不好说。按照NVIDIA的惯例，第一块采用GT300核心的GPU代号应该是GF GTX380，总的来说在体系架构上跟GT200基本相同，最大的进步就是制程升级成了40nm，流处理器数目提高，外围增加了支持DX11的一些功能。然后就是GT200的双ISSUE PORT在极端情况下可以做到每2周期执行一个操作，不过这个对指令类型的搭配要求比较高，相信在GT300中会保留或增强这个特性。

DX11通过computer shader提供类似CUDA和BROOK通用并行编程的特性，这可能让NV和ATI比较不爽。因为并行编程其实就是一段代码同时在诸多数据上进行运算，然后同时将结果输出到目标的过程，CUDA BROOK还有DX11的CS都将这一过程软件抽象为线程，在CS中，将要在数据上执行的代码称为线程，以三维矩阵的形式将这些线程组织成ThreadGroup，Thread Group还可以被进一步组织成Thread Grid，每个Thread Group中的所有线程拥有一个share memory，在DX11中的规格为32KB，我们知道在GT200和RV770中，这个SHARE MEMORY在硬件只有16KB，GT200中这个share memory位于SM（多重流处理器）中，被SM中的8个SP（流处理器）共享，RV770中则位于PC（流式处理器集簇）中，为16个5路超标量shader processor共享，可见GT300和RV870的share memory应该增长为32KB，当线程需要读取的数据正被其他线程修改时，需要进行存储访问同步，可能采用的是MOSI协议（Modified Owned Shared Invalid），跟CPU中普遍采用的MESI有些许不同，后面会详细阐述。其实GT200和RV770在硬件上已经支持CS，根据硬件规范RV770每个Thread Group中最多只能有768个线程，而GT200是1024个。

【上篇】Qtopia/Qt 中文支持（转）
【下篇】Visual studio 配置文件下载

作者: gzhg102

该日志由 gzhg102 于11年前发表在综合分类下，最后更新于 2012年12月08日.
转载请注明: RV870和GT300的一些猜测 | 学步园 +复制链接

抱歉!评论已关闭.

学步园

RV870和GT300的一些猜测

作者: gzhg102

书签

最新文章New

本站推荐

返回首页