【转】CPU优化(4)NUMA架构

转自 http://jimshu.blog.51cto.com/3171847/1266977/

一、服务器系统架构

  从系统架构来看,目前的商用服务器大体可以分为以下三类

1. 即对称多处理器结构(SMP:Symmetric Multi-Processor),,

  在SMP架构中,每个CPU对称工作,各CPU共享相同的物理内存,每个 CPU访问内存中的任何地址所需时间是相同的,因此SMP也被称为一致存储器访问结构(UMA:Uniform Memory Access)。

  对SMP服务器进行扩展的主要方法有:增加内存、更高的CPU工作频率、添加CPU、改善I/O性能。

  但是,SMP架构中的所有资源(CPU、内存、I/O等)都是共享的,导致了它的扩展能力非常有限。最受限制的则是内存,由于每个CPU必须通过相同的内存总线访问相同的内存资源,因此随着CPU数量的增加,内存访问冲突将迅速增加,最终会造成CPU资源的浪费,使 CPU性能的有效性大大降低。实验证明,SMP架构时,CPU利用率最好的情况是2至4个CPU。

2. 大规模并行处理结构(MPP:Massive Parallel Processing)

  由多个SMP服务器(每个SMP服务器称节点)通过节点互联网络连接而成,每个节点只访问自己的本地资源(内存、存储等),是一种完全无共享(Share Nothing)结构,因而扩展能力最好,理论上其扩展无限制,目前的技术可实现512个节点互联,数千个CPU。目前业界对节点互联网络暂无标准,如 NCR的Bynet,IBM的SPSwitch,它们都采用了不同的内部实现机制。但节点互联网仅供MPP服务器内部使用,对用户而言是透明的。

  在MPP系统中,每个SMP节点也可以运行自己的操作系统、数据库等。但是每个节点内的CPU不能访问另一个节点的内存,节点之间的信息交互只能通过节点互联网络实现。

  但是MPP服务器还需要一种复杂的机制来调度和平衡各个节点的负载和并行处理过程。目前一些基于MPP技术的服务器往往通过系统级软件(如数据库)来屏蔽这种复杂性。举例来说,NCR的Teradata就是基于MPP技术的一个关系数据库软件,基于此数据库来开发应用时,不管后台服务器由多少个节点组成,开发人员所面对的都是同一个数据库系统,而不需要考虑如何调度其中某几个节点的负载。

  SQL Server 2008 R2 PDW(并行数据仓库,之前称之为“Madison”)版本采用MPP架构,可以对大型数据表进行分区,并将分区存储在多个物理节点当中,每一个节点均有其独占的CPU资源、内存资源、以及存储资源,并且各自运行独立的SQL Server实例,这种模型称之为Ultra Shared Nothing。所有组件彼此间都是平衡的,从而消除了性能瓶颈。

  MPP的节点互联机制是在不同的SMP服务器外部通过I/O 实现的,每个节点只访问本地内存和存储,节点之间的信息交互与节点本身的处理是并行进行的。因此MPP在增加节点时性能基本上可以实现线性扩展。

3. 非一致内存访问结构(NUMA:Non-Uniform Memory Access)

  在NUMA架构中有多个CPU模块,每个CPU模块由多个CPU组成,并且具有独立的本地内存、I/O槽口等。由于其节点之间可以通过互联模块(如称为Crossbar Switch)进行连接和信息交互,因此每个CPU可以访问整个系统的内存。显然,访问本地内存的速度将远远高于访问远地内存(系统内其它节点的内存)的速度,这也是非一致内存访问的由来。

  从架构来看,NUMA与MPP具有许多相似之处:它们都由多个节点组成,每个节点都具有自己的CPU、内存、I/O,节点之间都可以通过节点互联机制进行信息交互。但是又有很大的不同:

(1)节点互联机制

  NUMA的节点互联机制是在同一个物理服务器内部实现的,当某个CPU需要进行远地内存访问时,它必须等待,这也是NUMA服务器无法实现CPU增加时性能线性扩展的主要原因。

(2)内存访问机制

  在NUMA服务器内部,任何一个CPU可以访问整个系统的内存,但远地访问的性能远远低于本地内存访问,因此在开发应用程序时应该尽量避免远地内存访问。

二、NUMA的优势与局限性

1. 优势

  利用NUMA技术,可以较好地解决原来SMP系统的扩展问题,在一个物理服务器内可以支持上百个CPU。比较典型的NUMA服务器的例子包括HP的Superdome、SUN15K、IBMp690等。

2. 局限性

  在NUMA架构中,由于访问远地内存的延时远远超过本地内存,因此当CPU数量增加时,系统性能无法线性增加。由于这个特点,为了更好地发挥系统性能,开发应用程序时需要尽量减少不同CPU模块之间的信息交互。

  如HP公司发布Superdome服务器时,曾公布了它与HP其它UNIX服务器的相对性能值,结果发现,64路CPU的Superdome (NUMA结构)的相对性能值是20,而8路N4000(共享的SMP结构)的相对性能值是6.3。从这个结果可以看到,8倍数量的CPU换来的只是3倍性能的提升。

三、处理器组

  NUMA可以解决手动配置处理器组。

四、SQL Server中的NUMA

  SQL Server 2000 SP4 开始对NUMA提供有限的 NUMA 支持,SQL Server 2005 有了大量重要的改进。SQL Server 2008对NUMA完全支持和优化,内存访问会尽量使用离CPU最近的内存,以提高性能。

  《SQL Server 如何支持 NUMA》 http://msdn.microsoft.com/zh-cn/library/ms180954(v=SQL.105).aspx

1. CPU编号

  2个物理CPU,4核,超线程,总共为2*4*2=16个逻辑CPU。如下图所示:

2. SSMS中查看NUMA

3. 任务管理器中查看CPU负载

  在此实验中,运行了一个较大负荷的SQL Server查询,然后在任务管理器中查看,可见大多数的操作都在集中在某一个NumaNode执行。

五、SQL Server 中的软件NUMA

  推荐使用硬件NUMA,因这它是在硬件层面上得以支持。如何才能知道本机是否有硬件NUMA呢? 最好的办法是问硬件供应商了。

  如果硬件本身不支持NUMA,还可以在软件层面上设置NUMA。 http://www。e800。com。cn/articles/2011/1116/498746.shtml

  软件NUMA只是对CPU进行分组,并不会改变内存。因此对于内存来讲,还是只有一个节点,所以两个NUMA节点访问的都是同一块内存。而增加软件NUMA结点的好处在于,SQL Server会针对每一个软件NUMA结点,多一个LazyWriter的线程,如果系统在LazyWriter上是性能瓶颈的话,引入软件NUMA则可以有效提升性能。

本文结语:

  通过NUMA技术,可以扩展性能,在一个物理服务器内可以支持上百个CPU。使用硬件NUMA,请咨询硬件供应商。

时间: 2024-07-29 06:31:56

【转】CPU优化(4)NUMA架构的相关文章

A NUMA API for LINUX(numa架构)

NUMA简介 在传统的对称多处理器(SMP, Symmetric Multiprocessing)系统中,整个计算机中的所有cpu共享一个单独的内存控制器.当所有的cpu同时访问内存时,这个内存控制器常常成为性能瓶颈.同时,这种架构也不能适应使用大量的cpu的场景.于是,为了解决这些问题,越来越多的现代计算机系统采用了CC/NUMA(缓存一致性/非对称访存)架构.例如AMD* Opteron*, IBM* Power5*, HP* Superdome, and SGI* Altix*. 在SMP

KVM性能优化之CPU优化

前言 任何平台根据场景的不同,都有相应的优化.不一样的硬件环境.网络环境,同样的一个平台,它跑出的效果也肯定不一样.就好比一辆法拉利,在高速公路里跑跟乡村街道跑,速度和激情肯定不同... 所以,我们做运维工作,也是如此.首先你得充分了解你所用的软件平台,然后根据你现有的生产环境去充分的测试,最后得出结果,做最优的调整. KVM也是一样,首先要做的是充分的了解它,看看有哪些参数和设置我们可以做出调整,最终应用以求发挥最高的性能. 那么KVM的性能调优,我们可以从四个方面入手 —— CPU.内存.磁

SQL优化笔记—CPU优化

补充:常规服务器动态管理对象包括,下面有些资料可能会应用到 dm_db_*:数据库和数据库对象dm_exec_*:执行用户代码和关联的连接dm_os_*:内存.锁定和时间安排dm_tran_*:事务和隔离dm_io_*:网络和磁盘的输入/输出 优化性能的常用方法是检索速度最慢的查询构成您 SQL Server 实例上的正常. 每日工作负载的一部分,然后调整它们,一个接一个的"Top 10"列表. 跟踪会话. 请求 和 SQL Server 基础架构中的最耗费大量资源,查询和执行时间最长

Linux性能优化之CPU优化(一)

前言 何为性能优化?个人认为,性能优化是为了提高应用程序或系统能力为目的.那么如何才能实现对应用程序的性能调优呢?这里很设计到很多的内容,包括Linux内核.CPU架构以及Linux内核对资源的分配以及管理,了解进程的创建过程等.这方面由于篇幅较多,所以我的文章就不过多介绍.接下来的几篇文章中,都是讲解如何发现应用程序故障根源为目标讲解,这也是每一个系统工程师应该具备的能力.废话不多说,我直接进入主题. 常用术语 延时:延时是描述操作之后用来等待返回结果的时间.在某些情况下,它可以指的是整个操作

(转)MySQL数据库的优化-运维架构师必会高薪技能,笔者近六年来一线城市工作实战经验

标签:服务器 数据库 老男孩 高薪技能 一线城市 原创作品,允许转载,转载时请务必以超链接形式标明文章 原始出处 .作者信息和本声明.否则将追究法律责任.http://liangweilinux.blog.51cto.com/8340258/1728131 首先在此感谢下我的老师-老男孩专家拥有16年一线实战经验,我当然不能和我的老师平起平坐,得到老师三分之一的真传,所以只有6年,嘿,废话不多说,下面开启MySQL优化之旅! 我们究竟应该如何对MySQL数据库进行优化?下面我就从MySQL对硬件

NUMA架构的优缺点

numa把一台计算机分成多个节点(node),每个节点内部拥有多个CPU,节点内部使用共有的内存控制器,节点之间是通过互联模块进行连接和信息交互.因此节点的所有内存对于本节点所有的CPU都是等同的,对于其他节点中的所有CPU都不同.因此每个CPU可以访问整个系统内存,但是访问本地节点的内存速度最快(不经过互联模块),访问非本地节点的内存速度较慢(需要经过互联模块),即CPU访问内存的速度与节点的距离有关,该距离成为Node Distance.查看当前numa的节点情况:numactl --har

【MySQL参数优化】根据架构优化

根据MySQL的架构优化 参数调整的最终效果: 1)SQL执行速度足够快 2)业务吞吐量足够高:TPS,QPS 3)系统负载可控,合理:cpu,io负载 在调整参数的时候,应该熟悉mysql的体系架构,可以根据体系架构分快进行参数调整. 主要方面:内存,线程,磁盘文件,各级缓存 内存 一.通过配置缓冲池的各个方面来提高性能 buffer_pool配置 innodb_buffer_pool_size 默认值:128M  ,一般调整为物理内存的50%-80% 含义:innodb缓存池大小 innod

对于流程优化的处理器架构

在过去的两年里,我学到了很多的代码优化方法的同事,在此汇总了什么. 优化处理器架构可以从下面几个方向展开:高速缓存命中.指令预测.数据预取,数据对齐,内存拷贝优化,ddr访问延迟.硬件内存管理优化,指令优化.叙述工具. 缓存未命中是处理器的主要性能瓶颈之中的一个.在FSL的powerpc上,訪问一级缓存是3个时钟周期,二级是12个,3级30多个.内存100个以上.一级缓存和内存訪问速度差30多倍. 我们能够算一下,假设仅仅有一级缓存和内存,100条存取指令.100%命中和95%命中.前者300周

内核优化之一: cpu优化方向

cpu的优化主要从以下几方面入手: 1. 调度策略(chrt) 2. 实时调度的时间限制 3. 进程组的公平调度 4. CPU亲和度