服务器可用性(服务器指的什么)

如何计算服务器可用性指标(SAI)

参照此表,您可以估算出服务器在繁忙时段的平均扩展系数,并且还可以为 Server_Transinfo_Range设定合理的数值,以此得到一个比较理想的服务器可用性指标。以下内容节选自 Domino Administrator 6.5.1帮助文档。集群中的每个服务器都定期判断自己的工作负载,判断将基于服务器最近处理请求的响应时间作出。系统用 0到 100之间的数字表示工作负载,其中 0表示服务器负载过重;100表示服务器负载很轻。这个数值称为服务器的可用性指标。随响应时间增加,服务器可用性指标减小。服务器的可用性指标约等于仍然可用的总服务器容量百分比。例如,如果服务器的可用性指标为 65,则仍然有 65%的服务器容量可用。尽管企业中的服务器功率和资源可能不同,但每台服务器上的服务器可用性指标都代表同一件事--仍然可用的服务器容量。服务器可用性指标基于扩展系数生成,用于指示服务器上的当前工作负载。扩展系数是由特定类型事件的响应时间与服务器曾经完成此类事务的最短时间之比决定的。例如,如果服务器当前执行“打开数据库”事务的平均时间为 12毫秒,而服务器曾经执行“打开数据库”事务的最短时间为 3毫秒,则“打开数据库”事务的扩展系数为 4(当前时间 12毫秒除以最快时间 3毫秒)。换言之,扩展系数决定完成当前事务所花的时间是在最佳条件下所花时间的多少倍。
IBM(R) Domino(TM)将每种事务的最短时间存储在内存和 LOADMON.NCF文件中,服务器每次启动时都会读取该时间。服务器关机时,Domino会用最新信息更新 LOADMON.NCF文件。为确定当前的扩展系数,Domino会在指定的时间段内跟踪最常用的几种 Domino事务类型。缺省情况下,Domino会在 5个时间段内跟踪这些事务,每段时间为 15秒。然后,Domino就可以确定完成每种事务平均要花的时间,并用该时间除以它曾经完成每种同类事务所花的最短时间。这样就可确定每种事件的扩展系数。为确定整个服务器的扩展系数,Domino会取所有类型事务的扩展系数的平均值,并对最常用的事务类型给予较大的加权数。当服务器繁忙时,对服务器添加更多负载会显著地影响服务器的性能和可用性。因此,向繁忙的服务器中添加负载也比向不繁忙的服务器中添加负载要更快地增大扩展系数。因为各个服务器的速度、容量和处理能力各不相同,能够处理的工作负载也不尽相同。所以,两个不同服务器的扩展系数相同并不一定意味着二者能够承担相当的工作负载。例如,对于一个在空闲状态下执行事务都需要花费很长时间的小型服务器来说,扩展系数 40可能表示用户需要等待若干秒才能得到响应。而对于一个处理速度非常快的超大型服务器来说,扩展系数 400可能表示用户只需等待不到一秒的时间就能得到响应。注意:下表中的值是根据扩展系数 64生成的,该值表示服务器处于满负载状态。扩展系数可用性指标 1 100 2 83 4 67 8 50 16 33 32 17 64 0注意:扩展系数和可用性指标仅用于度量服务器响应时间,该时间通常只是客户机经历的响应时间的一小部分。例如,客户机和服务器之间的网络响应时间通常占客户机经历的响应时间的很大部分。更改表示服务器处于满负载状态的扩展系数值要有效利用 Domino工作负载平衡,必须调整扩展系数与可用性指标之间的关系,以便服务器在达到预期的故障转移工作负载时进行故障转移。通过指定表示服务器处于满负载状态的扩展系数值,可以实现此目的。Domino中的缺省值为 64。当扩展系数达到该值时,便可将服务器视为负载已满,可用性指标降为 0(零)。如果服务器的功能特别强大,处理速度特别快,则可提高表示服务器处于满负载状态的扩展系数值。对于一些处理速度极快的服务器来说,该值可以提高到几百或更高。如果服务器的处理速度特别慢,则可降低该值。要更改表示满负载服务器的扩展系数值,请将下面的设置添加到 NOTES.INI文件,然后重新启动服务器。
SERVER_TRANSINFO_RANGE= n其中,值 n表示服务器处于满负载状态的扩展系数值等于 2的 n次幂。 n的缺省值为 6,这说明扩展系数值为 64,因为 2的 6次幂为 64;如果将 SERVER_TRANSINFO_RANGE设为 7,则满负载时的扩展系数值为 128;如果将 SERVER_TRANSINFO_RANGE设为 8,则该值为 256。要确定 SERVER_TRANSINFO_RANGE的最优值,请执行下列操作:
1.在服务器负载过重的期间内,监控服务器的扩展系数。可以使用控制台命令“show stat server.expansionfactor”来执行此任务。另外,还可以在这些期间内监控性能统计信息。记录有关此类期间的足够多的扩展系数值,以便确定使用哪个扩展系数值来表示服务器处于满负载状态。 2.为 SERVER_TRANSINFO_RANGE确定一个值,以 2为底数,该值为指数计算而得的值,即为在步骤 1中选择的扩展系数值。如果更改了表示服务器处于满负载状态的扩展系数值,扩展系数与可用性指标之间的关系就会发生变化。下表列出了当 SERVER_TRANSINFO_RANGE值为 8时的一些扩展系数以及由之转换而来的可用性指标。因为 2的 8次幂为 256,所以本例中的最大扩展系数为 256。扩展系数可用性指标1100288475863165032386425128132560更改用于计算扩展系数的数据量尽管不是必需的操作,但还是可以使用下列 NOTES.INI设置来更改 Domino收集用以配置扩展系数的数据量。要更改 Domino使用的数据收集时间段数,请使用 NOTES.INI的 Server_Transinfo_Max=x设置,其中 x是您希望 Domino使用的收集时段数量。要更改每个数据收集时间段的时间长度,请使用 NOTES.INI的 Server_Transinfo_Update_Interval=x设置,其中 x是每个时间段的长度(秒)。

如何增强服务器内存的可靠性和可用性

虽然处理器是任何服务器的核心部件,但是工作负载的所有指令和数据都存储在内存中。

在如今的虚拟化数据中心中,单单一台服务器可能运行众多虚拟机,而每个虚拟机作为一个文件驻留在内存中。但是当新的服务器添置更多更快的内存以满足更大的计算需求时,内存可靠性问题就显得尤为重要。IT人员必须留意内存故障,并充分利用旨在增强内存可用性的服务器特性。

如今,企业级服务器采用数TB的64位内存,这些预制模块遵守联合电子设备工程委员会(JEDEC)DDR3和DDR3L(低电压)标准而设计和制造。这样一来,企业很容易从诸多内存厂商购得价位合理的内存,但是遵守标准并不能保证可靠性。

内存可靠性面临的最大威胁并不是彻底的故障,不过可能会出现生产缺陷、电事件及其他物理异常引起的故障。确切地说,服务器内存面临的最大威胁来自随机比特错误——某个比特出现自发逆转。要是未加以检查,仅仅一个比特出现错误就会以突如其来、可能灾难性的方式,改动指令或改变数据流。

比特错误会自然发生。内存模块的错误率从每兆字节内存每小时大约1比特(有时被标为1010 errors/bit*h)到每兆字节内存每百年1比特(1017 errors/bit*h)不等。这个范围相差得太大了,但随着内存子系统速度变快、电气操作电压变低以及服务器上的内存总量增加,比特被“误解”并影响工作负载的可能性随之变得相当大。

其他因素也会加剧单比特错误,比如本底辐射(阿尔法粒子)、寄生电事件(如附近电磁干扰)、糟糕的主板屏蔽或设计,甚至DIMM插座上的电触点受到破损或质量低劣。

增强内存可用性的特性

缺少可用内存始终是个问题,而奇偶校验等错误检测技术已存在了好多年。奇偶校验很简单,对于检测单比特错误也很有效,但它纠正不了单比特错误,所以没有大量地应用于服务器。幸好,现在有或正出现另外许多特性,有助于增强内存可靠性。不妨考虑以下几种方案:

ECC。系统厂商们不是依赖奇偶校验,而是依赖纠错码(ECC)技术。ECC立足于奇偶校验的基础上,它使用一种算法,为每64比特的内存创建和存储一个8比特码(每个地址总共72比特)。这种算法和编码让系统得以实时检测和纠正单比特错误,此外还能检测多比特错误,并防止系统使用破损数据。ECC通常是许多通用服务器上采用的确保内存可靠性的默认技术。

先进ECC。先进ECC把ECC方法扩大到了多种内存设备,让ECC得以检测和纠正多比特故障,只要这些故障出现在同一个内存设备里面。不过,ECC和先进ECC并不支持任何一种故障切换机制,所以为了排除有问题的内存模块,仍得关闭系统(或依赖其他系统技术)。许多企业级服务器可以提供某种先进ECC,比如IBM ProLiant或戴尔PowerEdge。

内存错误跟踪。应对内存错误的一方面是,首先密切跟踪内存错误。新兴的服务器设计通过为错误率和位置做一份列表,开始密切跟踪可以纠正的错误。一些服务器还能将错误信息保存在内存模块上的可重写串行存在检测(SPD)内存空间——可以读取该内存空间,以便将来评估和分析。一旦系统能跟踪可以纠正的内存错误,并将该信息转移到系统的管理工具,就有可能通过记下错误率突然增加的DIMM来预测可能发生的内存故障。错误跟踪称得上是更先进的内存可靠性特性的先驱,更先进的特性包括DIMM故障切换或在物理内存空间里面转移数据。

热备用内存。热备用概念在磁盘存储领域很常见,但只是最近才在服务器设计流行起来。这是由于系统必须有一定的智能,才能先识别和跟踪可以纠正的内存错误,之后才能决定把数据转移到备用内存模块上。内存错误跟踪方面的技术进步让服务器的内存控制器得以将数据从存在的错误不可接受的DIMM转移到同一通道中的另一个备用DIMM上。这也叫内存插槽备用(rank sparing)。这种方法存在的不足是,为错误发生前一直非生产性的服务器增添内存需要一笔开支。

设备标记(Device tagging)。一种内存故障切换技术是基于BIOS的技术,名为设备标记。当系统跟踪到出现错误率增加的内存模块时,系统基本上就能把数据从有问题的内存转移到ECC内存——实际上使用ECC内存作为一个小小的热备用内存。这有望减少内存故障,但同时无法在这部分内存里面进行错误检测和纠正。设备标记被用作一种权宜之计,让系统保持运行,直到有问题的内存模块被换掉为止。

内存镜像。完美的内存可靠性技术就是把服务器上内存中内容从一个通道复制到另一个配对通道上。这实际上就是为内存建立了RAID 1机制。如果一个通道的内存里面出现故障,内存控制器就会切换到配对通道上,没有任何干扰;完成修复工作(如果需要修复)后,通道就可以重新进行同步。镜像方法的缺点与存储方面的RAID 1一样;由于内存中的内容被复制,存储容量减少了一半,或者说内存成本实际上翻了一番。

如今内存在现代虚拟化服务器中扮演更关键的角色,所以应对和缓解内存错误的破坏性效应显得比以往更为重要。

服务器有哪几种

文件服务器、数据库服务器、邮件服务器。

文件服务器是指在计算机网络中,以文件数据的存储与共享为主要功能的服务器,负责中央存储和数据文件管理,处于同一网络环境。数据库服务器因为数据文件的重要性及数据的文件都较大,数据库服务器一般是指运行在网络中的一台或多台服务器和数据库管理系统软件,邮件服务器。

文件服务器(Fileserver),又称档案伺服器,是指在计算机网络环境中,所有用户都可访问的文件存储设备,是一种专供其他电脑检索文件和存储的特殊电脑。文件服务器通常比一般的个人电脑拥有更大的存储容量,并具有一些其他的功能,如磁盘镜像、多个网络接口。

阅读剩余
THE END