至尊平台——英特尔Sandy Bridge处理器分析测试之七

  • 来源:计算机世界
  • 关键字:英特尔,处理器,测试
  • 发布时间:2012-01-10 16:10
  自Nehalem 开始,英特尔就采用了融合核心的设计,亦即在不同的产品线中使用同一个微架构,只是核外部分有所不同。例如,同一时代面向服务器的Xeon 5600/3500系列架构、面向高端桌面的Core i7990X、面向主流桌面的Core i7 870均属于Westmere 架构(Nehalem 微架构)。一般来说,同一个微架构系列会衍生出3 到4 个不同的系统架构来面向多个不同的产品线。

  Sandy Bridge-E 处理器内存控制器、PCI Express 和QPI 这些IO 需要不少的针脚数,如Nehalem/Westmere 时代有LGA1567(四内存通道)、LGA1366(三内存通道)、LGA1156(双内存通道)的区别;到了Sandy Bridge,由于架构的大变化,针脚也有所改动,变成了LGA2011 和LGA1155 两种。显然,LGA1155 就是LGA1156 的后续, 两个内存通道维持不变。而LGA1567 的SandyBridge 后续型号则从路线图上消失。跟Nehalem-EX/Westmere-EX不同,Sandy Bridge-EX 只有四路而没有八路产品。历史上曾经存在LGA1367, 后来融合进LGA2011产品线, 因为LGA2011 封装已经非常复杂, 并且可以包含LGA1367 的所有功能, 没有必要再自找麻烦增加一个型号。

  因此LGA2011 就是LGA1366的后续。LGA2011 是一个将会应用得非常广泛的针脚/ 插槽系统,包括企业级的Sandy Bride-EN/EP/EX 产品线均会采用。在桌面系统上,使用LGA2011 的处理器代号为Sandy Bridge-E。

  Sandy Bridge-E 的微架构和低端的LGA1155 Sandy Bridge 完全一致, 只是核外架构更为强大。LGA2011 Sandy Bridge-E 目前最高的配置可以达到6 个核心/12 个线程,而LGA1155 Sandy Bridge 则被限制为4 个核心/8 个线程。SandyBridge-E 没有搭载GPU, 更多的空间用来加大L3 Cache 容量,6 核心版本提供了15MB 的容量,平均每核心2.5MB, 在LGA1155 上平均每核心为2MB。从下图的SandyBridge-E 晶圆图可以看出,它就是使用企业级的Sandy Bridge-EP 裁减而来,包括图中两个被裁减的核心以及对应的L3 缓存块,以及左上角的QPI 接口电路。最下方为占用两个环形总线站台的内存控制器,每个环形总线站台连接两个内存通道,右上角为System Agent 系统代理,包括PCI Express 控制器、DMI接口以及其它控制电路。

  Sandy Bridge-E 提供了40 个PCIeLanes,比普通Sandy Bridge 的最大值24 个Lanes 要多近一倍,并且需要特别说明的是,Sandy Bridge-E 支持PCI Express 3.0,速率达到8GT/s,采用128b/130b 编码,而传统的SandyBridge 仅支持PCI Express 2.0,速率为5GT/s,8b/10b 编码,经过简单的运算可以得出,PCIe 3.0 的单位带宽是PCIe 2.0 的两倍。

  除了提供超高带宽的IO 能力之外,Sandy Bridge-E 还将内存支持提升到四个通道,此外还官方支持DDR3-1600 规格( 以及更高的超频规格),在提高内存带宽的同时提升了内存支持容量。Sandy Bridge-E 支持最大64GB 的内存。

  座驾:X79 芯片组作为Gulftown 的下一代,Sandy Bridge-E 平台从原来的三芯片方案进化到双芯片方案, 原有的北桥(IOH)部分被CPU 完全整合。PCIExpress 控制器的电路实现比较复杂,在上一代平台中,不得不使用一个独立的IOH(工艺为65nm)用于提供最多36 个PCIe 2.0 Lanes,在融合进CPU 之后,得益于工艺的进步,PCIe 控制器最终提升到了3.0 版本,带宽翻番并且数量也提升到了40 条。也是因为其复杂度,Sandy Bridge-E 和对应的企业级处理器发布做了几次延期。此外,由于PCI-SIG 认证的原因,Sandy Bridge-E 官方宣称仍然不支持PCIe 3.0,我们需要明白,它确实支持。

  由于独立北桥芯片的消失,因此处理器芯片组现在就只剩下了南桥部分。Sandy Brdige-E 搭配的主板芯片组称为X79,属于Patsburg家族,跟CPU 一样,也是由对应的企业级芯片组裁减而来。Patsburg企业级芯片组有“-A”、“-B”、“-T”、“-X”四个型号,基本规格跟LGA1155 Sandy Brdige 使用的Cougar Point 没有什么不同,区别在于Patsburg 提供了一个SAS/SATAController Unit(SCU),用来提供额外的存储连接能力。SCU 的出现源于英特尔认为,随着CPU 处理能力的提升和文件系统的进化,未来存储将会从硬RAID 转向软RAID。

  Patsburge 四个型号的区别就是SCU 的配置依次增强,“-A”型号在基本功能上增加4 个SATA 接口(仅支持6Gb/s),“-B”则可以进一步地支持SAS,“-T”将SCU的接口数量提升到8 个,并且SCU通过独立的SCU Uplink 连接到LGA2011 Sandy Bridge 处理器,而不再是需要经过狭窄的DMI 通道,“-X”型号则是可以支持RAID 5功能。由于SCU 稳定性的问题,X79 芯片组的规格一再修改,目前发布的版本SCU 功能已经彻底禁用,或许未来会再次出现。由于需要配合SCU, 因此Patsburge 搭配的磁盘驱动也不再是普通的RapidStorage Technology, 而是新的Rapid Storage Technology enterprise(RSTe)。除了SCU 之外,X79并没有什么特别的地方:支持8 个PCI Express 2.0 Lanes、14 个USB2.0、2 个SATA 6Gb/s 接口和4 个SATA 4Gb/s 接口。为了对应SandyBridge-E 的超频功能,X79 支持一些独特的调整项目。

  耗时长久的性能测试

  我们使用了一整套Sandy Bridge系统进行了SPEC CPU 2006 v1.1测试,并与之前的数据进行对比。这套系统使用的处理器是Core i73960X,6 核心12 线程,默认频率为3.3GHz,6 核心Turbo Boost 可以达到3.6GHz,单/ 双核心TurboBoost 可以达到3.9GHz。TurboBoost 技术会对性能分析带来影响,因此本文给出打开/ 关闭TurboBoost 技术后的性能成绩。此外,在Nehalem/Sandy Bridge微架构中,一些资源如TLB、ROB、RS 等是两个硬件线程共享的,超线程实际上会导致单线程运行资源的减少,因此我们分别测试了打开和关闭超线程下的成绩。

  内存子系统也是SPEC CPU 测试的重要因素,我们为测试系统准备了32GB 的内存(8 x 4GB)。Sandy Bridge 处理器现在可以支持DDR3-1600 规格的内存,因此我们还分别测试了DDR3-1333 与DDR3-1600 规格下的性能成绩。此外,为了体现内存带宽的影响,我们还分别测试了3 个内存通道与4 个内存通道下的性能。我们使用了一块古老的ATI Radeon X550 显卡来进行测试。SPEC CPU 几乎不受CPU 和内存之外部件的影响。为了将磁盘的影响最小化,我们使用了6 个Intel X25-V SSD 组建一个RAID 0 阵列来作为存储系统。

  测试使用的操作系统平台是Windows Server 2008 R2,SandyBridge 支持的AVX 指令集需要升级到SP1 版本才能支持,我们确实进行了SP1 下的SPEC CPU 2006 测试,不过本篇中,我们仅给出了传统平台上的测试。与以往的测试完全一样:基于SPEC CPU 2006 v1.1和一年多前的Intel Compiler 11.0,不支持Sandy Bridge 的AVX 指令集,这可以体现出Sandy Bridge 在运行老的代码时相对上一代处理器架构的变化。每个SPEC CPU 2006的测试时间大概为2 .3 天左右。

  总耗时近一个月。

  SPEC CPU 测试会给出大量的数据,例如,可以分为测试单线程运行效能的speed 测试和测试多线程运行效能/ 测试整个处理器运算吞吐量的rate 测试,或者分为测试通常优化性能的base 测试和极致优化性能的peak 测试。此外,每个测试同时包含了整数的int 测试和浮点的fp 测试,总共会得出8 个测试数据表,每个表包括一个总分和若干个子项目得分,由于不同的子项目代表不同的应用,因此我们给出了具体的子项目成绩。限于篇幅,这里不给出具体子项目的成绩。

  性能分析

  我们先来看测试单线程运行效能的speed 测试,包含了SPECint_base2006 和SPECfp_base2006 两个项目,它可以体现出处理器在将所有资源都提供给一个测试实例下的运行效能。由于更大的L3 和更多的内存通道,Core i7 3960X 的表现不错,比Core i7 2600K 高1%(整数)/10%(浮点),特别是考虑到在不使用Turbo Boost 时其默认频率要比Core i7 2600K 低100MHz。

  测试多线程运行效能/ 测试整个处理器运算吞吐量的rate 测试是个不同的情况,它包含了SPECint_rate_base2006 和SPECfp_rate_base2006 两个项目,它体现的是处理器全力运转的运算吞吐量和数据吞吐量,虽然其中的单个测试线程性能会受到影响,然而处理器的资源得到了最大程度的利用。从结果来看,在使用DDR3-1333 的时候,Core i7 3960X 比Core i7 2600K 高50%( 整数)/62.6%( 浮点), 可以看出大容量L3 和大内存带宽对浮点运算的作用。

  四通道DDR3-1333 比三通道DDR3-1333 高4.8%( 整数)/11.8%( 浮点), 四通道DDR3-1600 比四通道DDR3-1333 高4.5%(整数)/4.6%(浮点)。在四通道DDR3-1333 下,超线程开关的影响是16.5%(整数)/4.1%(浮点),一般情况下,你不需要关闭超线程。

  总结

  跟普通的Sandy Bridge 相比,Sandy Bridge-E 最大的变化就是新增加的40 个PCI Express 3.0 Lanes和四通道内存支持,此外L3 缓存容量也有不小的提升。PCI Express3.0 的作用我们以后会进行评估,在现在的测试中,我们可以看到四通道内存和大容量L3 的作用。从测试数据来看,四通道DDR3-1600 已经是Sandy Bridge-E 比较完美的配置,降为三通道将会受到较明显的浮点性能下降,而将DDR3-1600 降为DDR3-1333 影响不算很大。可以猜测,8 核心的Sandy Bridge-EP 将会对内存带宽更为渴求,这就需要等到2012 年第一季度才能进行验证了。总的来说,Sandy Bridge-E 比普通的Sandy Bridge 提供了多于50% 的运算性能,可以满足高端玩家、工作站用户的计算能力需求。

  计算机世界实验室 盘骏
……
关注读览天下微信, 100万篇深度好文, 等你来看……
阅读完整内容请先登录:
帐户:
密码: