机房服务器内存故障,戴尔服务器内存报错

服务器故障和服务器资源共享故障的区别

前者包含后者

服务器软件故障是在服务器故障中占有比例最高的部份,约占70%,解决的过程必须更加深思熟虑。导致服务器出现软件故障的原因有很多,最常见的是服务器BIOS版本太低、服务器的管理软件或服务器的驱动程序有BUG、应用程序有冲突及人为造成的软件故障。下面分别举例说明各类软件故障的维修方法。

有一台HP LH6000R服务器,配置为双PIII XEON 700带2M高速缓存的CPU、512M内存。开机后,系统日志报电压调节模块异常(VRM)的错误,报错的信息是:“Voltage Regulator Module(VRM) over/under-voltage 2.88V/0V”。从表面来看,极有可能是服务器的电压调节模块或其它硬件出现故障,极容易导致维护人员认为是硬件故障。维护人员立刻使用其它LH6000R上的硬件来测试,发现即使使用新的配件,此服务器依然报VRM错。就在一筹莫展的时候,维修工程师带来了最新的CPU管理板(CPU Management Control)的固件(FIRMWARE),于是升级了CPU管理板块的FIRMWARE后,服务器恢复立即正常。

FIRMWARE升级方法是,在服务器的NAVIGATOR(导航光盘)中提取CPU管理板(CMC)FIRMWARE的刷新程序,程序为FLASH.EXE,然后将从网上下载的LH6KC.BIN(CPU管理板的FIRMWARE)拷贝到一张DOS启动盘上,用这张盘启动服务器。然后在DOS下运行”FLASH/CMC A:LH6KC.BIN”,刷新完成后重新启动服务器后即可。这种升级方法也适合刷新系统BIOS等,只是FLASH命令的参数不同以及更新FIRMWARE及BIOS文件名不同,参数请参考服务器的说明。

任何一款服务器的FIRMWARE及BIOS都会有不同的BUG,因为BUG在所难免,所以我们不能错误地认为服务器的BIOS程序就很完善,而应该经常更新服务器的FIRMWARE及BIOS,只是在升级之前应该小心谨慎,错误的升级方法会导致严重的后果。

目前流行的中高档服务器都拥有强大的管理程序,为客户提供了方便的管理途径;服务器也拥有各种操作系统下的驱动程序,方便了客户在各种操作系统中的使用。但是,世上任何一款程序都会有一些BUG,这些BUG将影响用户使用。但是服务器厂商总是会在第一时间内开发出新的程序,客户只需要及时更新这些程序就可以避免这类故障。

当服务器的软件故障为此类时,表现的现象也不尽相同。一般来说,管理程序BUG会导致系统速度变慢,CPU占用率变高,无法正常使用某些功能等;驱动程序的BUG会导致死机、与某些软件有冲突,磁盘工作不稳定等。查看管理程序是否出错的最好的办法就是在系统中首先禁止此类管理工具,再观察服务器是否还是异常。由于管理工具是随着系统启动而启动的,所以应首先避免它的启动。以WINDOWS NT4为例,就首先在管理工具服务中禁用某些服务器软件服务,再修改注册表中的启动项即可。如果是驱动程序有问题的话,就以安全模式进入系统,看是否正常。但是需要注意的是,在安全模式中,系统速度变慢是正常的(特别是磁盘I/O方面)。

服务器的管理人员就应该经常在服务器网站上下载最新的管理工具程序及驱动程序。这样会减少很大一部份软件故障的发生。

相比之下,软件冲突造成的故障判断比较困难,需要管理人员有比较丰富的经验以及敏锐的观察力。

曾经有一位朋友告诉我说,他有一台浪潮的服务器无法安装SQL SERVER 2000,已经重装N次NT了,排除是系统故障。而这唯一的服务器又将作为非常重要数据库服务器,因此非常着急。于是我陪着朋友去了他的公司查看。

这台服务器所在的机房是非常标准、完善的机房,我检查了这台服务器的情况,发现并没有硬件上的故障,于是排除了光驱读盘力差的可能。但是,朋友刻的SQL SERVER 2000光盘引起了我的怀疑,我让他拿出了正版的SQL SERVER安装,结果还是不行。

在安装的过程中,没有出现丝毫错误,可就是在运行的时候会自动退出,没有任何提示。但是,我在管理工具中的事件查看器的系统日志中却发现了一条信息:windata.exe导致一个无效的数据溢出。Windata是朋友自己编写的一个程序,而且是随操作系统启动而启动的程序。我立即结束掉这个进程后,再运行SQL一切正常。

对于此类软件故障,操作员最好先查看有关的日志,看看系统中是否有可疑的进程。目前的服务器无论是高端还是低端,对于SQL等标准程序的支持是相当可靠的,所以排除的重点就是结束可疑进程。

还有一种软件故障是人为因素造成的,它一般是人为误操作(包括没按操作流程的操作)、意外关机(包括电源突然不供电)或非正常关闭应用程序造成的。

人为误操作因素只要加强管理都可以避免此类故障发生。在这里就详细说明意外关机或非正常关闭程序造成故障的方法。

正常关闭系统程序非常重要,尤其是WEB服务器。我的一个朋友就是因为没有正常关闭系统程序而经历了一次数据损坏甚至丢失的经历。我的朋友是使用的HP web hosting server appliance,因此我向他提供了一些使用规则。

这些方法对于服务器的维护非常有效,主要包括了正确的关闭系统程序、怎样避免数据丢失以及非正常关闭系统后的恢复方法。下面以我朋友的HP web hosting server appliance为例(使用的是UNIX,但思路对于其它操作系统均有效)。

正确关机的过程包括通过按动Power键来使系统断电,你应该一直按住电源开关持续几秒钟才能使系统进入正常的关闭过程中。

另外,为了避免数据丢失,你应该按照如下的步骤操作:

·经常备份Web Hosting Server Appliance的数据,可以通过网络管理界面来完成。

·安装第二块硬盘并与原来的硬盘设置成镜像,

一旦Server Apliance未能正确关闭,并无法重起,请按如下操作恢复:

1.当appliance已经断电时,连接一条非modem的串口线(可在机盒中找到)到背面的控制口上。

2.连接串口线的另一头到一台运行Windows的PC的串口上。

3.运行超级链接程序(HyperTerminal),并设置端口的参数为19200, n-8-1, Flow control- None.你可以看到appliance的控制提示,并要求你输入管理员口令。

4.重起appliance,等到提示“LILO boot:”,按住Tab键5秒钟,直到提示变为“boot:”。

5.敲入"emergency"并回车。此时需要耐心等待几分钟。然后,登录提示又将出现,此时,LCD屏又能正常工作了。

6.在LCD屏上选择一个随机的密码(此密码只是用于紧急恢复时用)

翻至Defaults…并按右箭头键选中。

翻至Root Password…并按右箭头键选中。

翻至Random并按右箭头键选中,会提示一个随机产生的密码。

记下此密码。

翻至Yes并按右箭头键选中,系统密码会立刻更改。

7.回到超级链接的控制屏,登录appliance,用"root"用户名和刚才的密码,此时会出现“#”提示。

8.为修复分区,请按如下方法操作:

对于sa1100,按顺序输入:

[…]#: fsck/dev/hda5

[…]#: fsck/dev/hda6

[…]#: fsck/dev/hda7

对于sa1120,按顺序输入:

[…]#: fsck/dev/sda5

[…]#: fsck/dev/sda6

[…]#: fsck/dev/sda7

当所有的分区都被修复后,应回到“#”提示符下。

9.输入“reboot”重新启动系统。

如果系统仍无法启动,请记录下控制屏显示的内容并求助技术支持。

对于服务器的软件故障,只要平时管理员注意维护,应该是可以避免的。

机房管理办法

一、机房日常运维管理

1、运维人员每天在8:30到达机房进行设备巡检,每天17:30下班后再次进行设备巡检,并在《设备日巡检记录表》中进行记录。如发现异常情况,需立即上报机房主管人员,并联系相关产品服务商获取技术支持。

2、对任何异常情况及其处理操作应在事件单中被记录,为日后的问题管理提供依据。

3、机房运维人员每天上、下午均应合理安排时间在机房查看设备运行状态,包括内存、硬盘、CPU等系统资源状态,如出现资源运行异常,应查看相关系统设备运行进程并转入事件管理流程进行处理。

4、保持机房整洁、卫生。所有设备摆放整齐有序,不得将任何废弃物品留在机房内。不得存放与工作无关的物品,机房的物品不得私自带走。

二、机房网络安全管理

1、新购置的设备,在安装、使用前应当认真经过安检。使用之前采取防止病毒感染措施,试运行正常后,再投入正式运行。

2、机房设备严禁连接互联网。

3、对于网络设备和服务器,要制定不同的用户账号,赋予不同的用户操作权限,并予以登记、备案。禁用guest账户,删除服务器中的多余的、过期的以及共享的账户。必须定期统计相关信息和操作状况,并向上级领导。

4、设置登录服务器的操作超时锁定,超过10分钟不操作即锁定,需要重新认证后登录。

5、系统中所涉及的涉密服务器、终端、以及应用程序的本地登录和远程登录必须进行用户身份鉴别,并与安全审计相关联,保证系统内安全事件的可查性。

6、禁止任何部门和个人严禁进行渗透测试,严禁攻击其它联网主机,严禁散布病毒。

7、严格执行计算机操作规程和各项管理制度,加强对管理人员和工作人员的防病毒教育。

8、网络服务器应当安装防火墙系统,加强网络安全管理。

9、病毒检测和网络安全检测必须指定专门的技术和管理人员负责;负责人员必须定期对网络安全和病毒检测进行检查。定期采用国家相关主管部门批准使用的检测工具对系统进行安全性检测,检测工具和版本应及时更新。对于发现的系统软件和应用软件的安全隐患,必须及时从系统软件开发商和应用软件开发商获取相关的补救措施,如安装补丁软件、制定新的安全策略、升级病毒库等。

三、机房硬件设备安全管理

1、机房运维人员必须熟知机房内设备的基本安全操作和规则,特别是对服务器、交换机进行熟悉操作,做到及时维护。

2、应定期检查、整理设备连接线路,定期检查硬件运作状态(如设备指示灯、仪表),定期调阅硬件运作自检报告,从而及时了解设备运作状态。

3、禁止随意搬动设备、随意在设备上进行安装、拆卸硬件、或随意更换设备连线、禁止随意进行硬件复位。

4、禁止在服务器上进行实验性质的配置操作,如需要对服务器进行配置,应在其他可进行试验的机器上调试通过并确认可行后,才能对服务器进行准确的配置。

5、对会影响到全局的硬件设备的更改、调试等操作应预先发布通知,并且应有充分的时间、方案、人员准备,才能进行硬件设备的更改。

6、对重大设备配置的更改,必须首先形成方案文件,经过讨论确认可行后,由具备资格的技术人员进行更改和调整,并应做好详细的更改和操作记录。对设备的更改、升级、配置等操作之前,应对更改、升级、配置所带来的负面后果做好充分的准备,必要时需要先准备好后备配件和应急措施。

7、不允许任何人在服务器、交换设备等核心设备上进行与工作范围无关的任何操作。未经上级允许,不得对核心服务器和设备进行调整配置。

8、硬件设备出现故障时,应填写好《硬件设备维修故障登记表》,详细填写故障状况及故障原因,并报修,故障处理结束后,因填写处理情况及结果,交由上级验收、签字后,存档备查。

9、存储过涉密信息的硬件和固件应到具有涉密信息系统数据恢复资质的单位进行维修。

10、不再使用或无法使用的设备应按照国家保密工作部门的相关规定及时进行报废处理,并记录最终去向。

四、机房软件安全使用管理

1、设立计算机软件管理台帐,对每套计算机软件进行登记,并纳入资产管理。

2、妥善保存计算机软件介质、说明书、使用许可证(或合同)等资料。

3、根据操作说明,正确使用各类应用软件。

4、须安装非专用软件,须经上报并检测、办理安装使用备案手续。

5、软件必须由专人来保管,禁止任何人员将机房软件私自拷贝、随意向外传播。

6、任何在用软件的升级均需主管人员书面批准。

五、机房资料、文档和数据安全管理

1、资料、文档、数据等必须有效组织、整理和归档备案。

2、硬盘、软盘、光盘、磁带、带存储功能的设备等涉密信息存储介质应按照所存储信息的最高密级标明密级。

3、禁止任何人员将机房内的资料、文档、数据、配置参数等信息擅自以任何形式提供给其他无关人员。

4、对于牵涉到网络安全、数据安全的重要信息、密码、资料、文档等必须妥善存放。外来工作人员的确需要翻阅文档、资料或者查询相关和数据的,应由机房相关负责人代为查阅,并只能向其提供与其当前工作内容相关的数据或资料。

5、重要资料、文档、数据应采取对应的技术手段进行加密、存储和备份。对于加密的数据保证其还原行,防止遗失重要和数据。

6、严禁使用计算机、终端机、因特网为无关人员查询、调阅涉密数据;存有秘密信息的磁盘、光盘,严禁外借、复制;不得向无关人员提供网络入口及口令。

7、调动工作时,必须将自己经管的涉密文件、资料和使用的保密笔记本上交,并递交在调离后一定期限内不失密泄密的保证书。

8、发现失、泄密现象,要及时上报。

9、不再使用或无法使用的涉密信息存储介质在进行报废处理时,应进行信息消除或载体销毁处理,所采用的技术、设备和措施应符合国家保密工作部门的有关规定。

六、机房保安管理

1、中心机房应采取有效的门控措施,并装备“三铁一器”。

2、出入机房应注意锁好防盗门。对于有客人进出机房,机房相关的工作人员应负责客人的安全防范工作。最后离开机房的人员必须自觉检查和关闭所有机房门窗、锁定防盗装置。应主动拒绝陌生人进出机房。

3、工作人员离开工作区域前,要保证服务器、交换机等设备控制台的密码处于锁定状态。

4、运维人员要严格执行人员出入登记制度,不得邀请无关人员到机房参观,外单位系统、线路维护人员要进入机房需提前与管理人员联系,批准后方可由管理人员陪同进入,并填写《人员出入登记表》。

5、外来人员进入必须有专门的工作人员全面负责其行为安全。

6、未经主管领导批准,禁止将机房相关的钥匙、保安密码等物品和信息外借或透漏给其他人员,同时有责任对保安信息保密。对于遗失钥匙、泄漏保安信息的情况即时上报,并积极主动采取措施保证机房安全。

7、机房人员对机房保安制度上的漏洞和不完善的地方有责任及时提出改善建议。

8、绝不允许与机房工作无关的人员直接或间接操纵机房任何设备。

9、出现机房盗窃、破门、火警、水浸、110报警等严重事件时,机房工作人员有义务以最快的速度和最短的时间到达现场,协助处理相关的事件。

七、机房用电安全管理

1、机房人员应学习常规的用电安全操作和知识,了解机房内部的供电、用电设施的操作规程。

2、机房人员应经常学习、掌握机房用电应急处理步骤、措施和要领。机房应安排有专业资质的人员定期检查供电、用电设备、UPS设备。

3、机房人员应定好UPS放电计划,对UPS的放电时长做出准确的评估,并做出更换或修复UPS计划报告相关人事。

4、运维人员定期检查UPS各项运行参数、负载、电池容量是否正常,如有异常,应及时调整处理,并做好记录。

5、严禁随意对设备断电、更改设备供电线路,严禁随意串接、并接、搭接各种供电线路、严禁把电源排插散落在地。发现用电安全隐患,应即时采取措施解决,不能解决的必须及时向相关负责人员提出解决。机房内的电源开关、电源插座要明确标出控制的设备。

6、在使用功率超过特定瓦数的用电设备前,必须得到上级主管批准,并在保证线路的保险的基础上使用。

7、在发生市电报警要尽快赶往机房查看,并通告相关人员。事件处理完后,应及时复位市电报警设备。

8、在外部供电系统停电时,机房工作人员应全力配合完成停电应急工作。当需要发电机发电时,应计算好机房用电功率合理选择发电机型号发电,严禁发电超负载供电。

9、定期(不长于三个月)对供电设施进行检测与检修,保障供电正常。

八、机房空调管理

1、为保证设备良好的工作环境,应保持合适的机房温度和湿度,机房温度应保持在22℃--26℃,机房湿度应低于70%。

2、空调运行时,巡检人员按时检查各项运行参数、状态是否正常,如有异常,应及时调整处理,并做好记录。

3、定期进行空调机的清理,防止因散热不良造成空调的工作异常。

4、配备备用电风扇,以防止空调出现故障时机房温度的快速上升。定期进行备用电风扇可用性检查。

5、每年春秋换季期对空调系统进行全面的检查保养,确保机组的正常运行。

6、每天巡检一次,确保空调系统正常运行,如发现故障应及时上报。夏季要提高巡检频率,每天两次,上下午各一次。

7、机房维护人员应懂得进行一些必要的空调降温手段,以便在出现温度升高的状况下能通过辅助手段降低温度上升的速度。

九、机房消防安全管理

1、机房工作人员应熟悉机房内部消防安全操作和规则,了解消防设备操作原理、掌握消防应急处理步骤、措施和要领。

2、消防设备应放在显眼易取之处,任何人不能随意更改消防系统工作状态、设备位置。需要变更消防系统工作状态和设备位置的,必须取得主管领导批准。工作人员更应保护消防设备不被破坏。

3、每日对火灾重大风险点如蓄电池组进行巡检,检查内容包括电池是否漏水,有无发热异常,电极触点是否连接正常。

4、插座及蓄电池附近不得摆放纸箱、说明书等易燃物品。

5、应定期消防常识培训、消防设备使用培训。如发现消防安全隐患,应即时采取措施解决,不能解决的应及时向相关负责人员提出解决。

6、严禁在机房内吸烟和使用明火,如因线路或其他原因引起明火,应及时拨打119和通知相应负责人迅速解决问题。

7、定期检查消防设备状态,保证消防设备可用性。

十、机房应急响应

1、机房停电时,UPS设备将为机房设备提供电力支持,但UPS能够提供的电力有限,因此需要根据实际情况进行处理,具体如下:

在停电时,有短信报警机制通知到机房维护人员,维护人员应马上通知机房主管人员,并在一小时内赶回机房。

机房维护人员积极配合主管人员协调各供电电路运维方及时检查处理市电回路故障。

按照《基本业务服务设备列表》,只保留基本业务服务设备运行,对其余设备进行关闭。

当UPS电力不足时,应及时关闭所有设备,避免突然断电造成的系统设备故障。

2、当机房温度升高时,为保护各设备,需要采取相应的应急处理措施,具体如下:

达到温度阈值时,应有短信通知机制通知机房维护人员,维护人员一小时内到场,马上启用备用电风扇。

当机房温度超过28℃时,维护人员应立即通知主管人员并积极协调空调维护商尽快处理。

在温度超过35℃时,可以根据《基本业务服务设备列表》关闭非基本设备,只提供基本业务服务设备运行;

当机房温度超过40℃时,应当关闭所有系统设备运行。

3、火灾不像供电及空调故障那样存在一段缓冲期去处理或减少影响,对无人值守机房来说一旦发生火灾,势必导致重大财产损失。对于机房火灾应当是预防为主,因此必须重视每日的蓄电池组巡检。当机房发生火灾时,本着先救人,后救物的思想原则采取相应的应急处理措施,具体如下:

有报警机制通知到所属地区消防部门,并通知到机房维护人员及主管人员。并根据预先制定的火灾发生时联系人目录通知到位。

到场后立即断开电源,防止由于电源引起的火情进一步扩大。

寻找安全的地点监控火情,并积极配合消防人员应对火灾。

4、设备发生故障时,使用备用设备替换现有设备,并保证新设备配置和用户密钥与旧设备一致、保证新设备配置和数据与旧设备一致。

5、传输线路干路发生故障时,请及时联系网络供应商,对线路进行检测维修。

6、发生不可预见的紧急请况时,及时向主管人员汇报,并与相关技术人员联系,采取妥当的应急办法进行应急处理。

服务器内存发热严重是什么原因

1.检查事件查看器,看看有没有程序或者其它原因,造成重启

2.如果你的服务器以前没有像现在这样经常重启。大概可以排除不是服务器的硬件问题

3.有的小机房,设备根不上,现在夏天,天热,气流不流通,外部温度过高,服务器都会经常死机,重启。

内存占用90%以上 cpu30%不到?你开了不少程序进程吧结束一些进程试试,应该没有中招中招一般都是cpu跑的很高可以用杀毒软件查下试试,不过还是建议加内存吧如果机器老化的比较厉害换机器最好

扩展

服务器(server)是相对于客户(client)而言.客户与服务器之间的关系是一种请求-回应(request-reply)的模式.

客户向服务器发送某种服务请求,服务器响应或者拒绝该请求并把相应的执行结果返回客户.

注意,服务器和客户其实都是指逻辑上的,也就是说都是软件.这意味着他们可以实际存在于一台机器上.

阅读剩余
THE END