32nm的融合GPU

  • 来源:计算机世界
  • 关键字:融合,GPU,Sandy Bridge,英特尔
  • 发布时间:2011-03-31 13:31
  在上文中,笔者简单介绍了Sandy Bridge处理器带来的AVX指令集及其微架构的革新之处,现在来谈谈Sandy Bridge架构的一个大变动——融合GPU。

  CPU与GPU的融合

  除了CPU之外,英特尔其实也一直在移动/桌面级平台上提供着GPU产品,如英特尔在MCH北桥集成的显卡也属于GPU范畴。这种芯片组集成的显卡其性能并不怎么强劲,然而胜在便宜,在日常应用中也足够使用了,因此其市场占有率非常高。到了Clarkdale这一代,英特尔开始将GPU部分从芯片组上移出来并放进了整个处理器包装之内,然而由于工艺上的限制,CPU属于32nm而GPU属于45nm,它们实际上分成了两个不同的晶片,只是封装到了同一个基板上,两个晶圆通过QPI通信,由于内存控制器也移到了45nm的GPU封装上,内存延迟和带宽反而受到了影响,这种方式最终得到的性能不佳。

  Sandy Bridge整合的CPU和GPU才是真正的融合,它们不再分成两个不同工艺制程的单独核心,而是完全在设计时就融合在了同一个核心上,并由统一的32nm工艺制造。融合它们的架构正是前面说过的环形总线,GPU直接挂在环形总线上,并和CPU核心一起共享整个处理器的L3缓存乃至内存控制器。

  革新的GPU架构

  Sandy Bridge新的GPU架构同时瞄准了功耗和性能两个要素,在图形性能上,主要的核心变动就在于EU单元上。

  EU(Execution Units)执行单元和其他GPU的流处理器相对应,运行各种不同的Shader,在Sandy Bridge上被称为Unified Execution Units。

  新一代的EU执行单元增强了面向向量/矩阵的操作性能,提供了zero overhead的线程切换能力。新一代EU还使用了更大的寄存器文件(每线程4KB),可以保存更多的数据,以支持更复杂的Shader程序。此外,新的EU还使用了第二代并行分支算法,即使面对更复杂的状况也能提供高效并行执行能力。Sandy Bridge的新EU还使用了新的超越数学运算引擎,吞吐量提升了4倍到20倍不同,英特尔表示,正弦、余弦操作的速度比现在的HD Graphics提升了几个数量级。

  除了这些之外,Sandy Bridge的新EU还使用了新的、能和图形API ISA达到1:1的指令集,在时钟频率不变的情况下增强了吞吐量。英特尔将采用新一代EU设计的融合显卡命名为HD Graphics 2000和3000系列,这两个系列的不同就在于EU的数量,其中2000拥有6个EU,3000拥有12个EU。标准版本的Sandy Bridge处理器提供的是HD Graphics 2000,只有带K后缀的倍频解锁版本才会提供HD Graphics 3000。

  增强的多媒体处理能力

  Sandy Bridge的GPU除了图形性能明显提升之外,还有一个重点关注的领域就是多媒体处理上,并且和一般的GPU仅关注解码能力不同,Sandy Bridge同时提供了强大的解码能力和编码能力。其中,编码通过类似Fixed Function的专用单元来完成,这个单元叫多格式解码器(Multi-Format Codec),是一款专用的并行引擎,支持MPEG-2/VC-1/AVC格式。和通常的GPU解码方案不同,Sandy Bridge的解码并不需要使用到GPU EU执行单元,包括VLD/CAVLC/CABAC/IDCT/IT/MC/LF等阶段全部在MFC内完成,功耗表现上更加出色。

  Sandy Bridge的视频编码则使用EU执行单元阵列配合专用的高吞吐量VME(Video Motion Estimator)来完成,并在需要时重用MFC部分(如AVC编码)。此外还有一个专用的色彩处理加速后端来进行STE(增强皮肤色调)、ACE(自适应对比度增强)、TCC(全局色彩控制)等处理,总的来说,Sandy Bridge的GPU提供了一整套硬件的编解码方案,由于效果如此之明显,英特尔还特地使用了一个Quick Sync(高速转码)的术语来形容Sandy Bridge的纯硬件转码能力。

  融合之路

  面对着独立GPU的强大压力,Sandy Bridge使用了很多种方式去应对,一个是通过AVX指令集和强化的微架构来快速提升CPU的运算能力;另一个就是提升英特尔自己GPU的能力,如果你打不过一个对手,那就加入它。为了提升集成GPU的能力,将CPU和GPU融合在一起就是一个必然的选择。

  融合可以让GPU也使用到英特尔强大的制程工艺。Sandy Bridge的GPU部分使用的是和CPU一样的32nm工艺,而业界独立GPU的制程还停在40nm上,即便是同一个工艺,英特尔也能达到更高的性能。可以注意到,通常独立GPU的核心部分只能运行在数百MHz,而英特尔的GPU则可以达到1.35GHz,更先进的工艺还可以使用更多的晶体管,以及使用更好架构设计。实际上,Sandy Bridge的GPU当中使用到了NVIDIA的专利技术,为此专利以及未来会使用到的其他专利英特尔付出了15亿美元。使用他人的技术也是增强自己GPU能力的方法之一。

  通过融合策略,英特尔将CPU和GPU放在了同一个起跑线上,并使用英特尔强大的制程工艺驱动,这让其立在了不败之地上。下一期笔者将会带来Sandy Bridge的性能测试数据,请看下回分解。
……
关注读览天下微信, 100万篇深度好文, 等你来看……
阅读完整内容请先登录:
帐户:
密码: