服务器bbu(服务器是什么设备)
IBM服务器做RAID5磁盘阵列
一种是用ServerGuide引导直接选择RAID5,下一步即可,
另外一种使用WebBIOS CU(Ctrl+H)配置ServeRAID MR SAS/SATA Controller
(注:本文适用于ServeRAID MR RAID controller MR-10i/ 10K/ 10M)
一启动WebBIOS CU
1.添加有ServeRAID MR RAID controller MR-10i/ 10K/ 10M的服务器开机自检时,会有<CTRL>+<H>的提示(类似于):
Copyright© LSI Logic Corporation
Press<CTRL>+<H> for WebBIOS
此时,请按下组合键<CTRL>+<H>。此时会出现选择RAID卡的界面。
2.如果服务器上装有多个ServeRAID-MR控制器,请选择需要配置的RAID卡。
3.选择<Start>选项,继续后,会出现WebBIOS CU的界面。
二 WebBIOS CU主界面选项
1.默认视图
进入WebBIOS CU后,主界面显示如下:
默认界面是逻辑视图界面(左侧选项Logical View),在右侧,上方窗口显示该控制器所连接的物理驱动器(Physical Drivers)的状态信息,下方窗口显示该控制器上已经配置的虚拟驱动器(Virtual Drivers)的状态信息。
可以通过点击左侧逻辑视图(Logical View)或物理视图(Physical View)选项,可以切换右侧窗口显示的连接到该控制器上存储设备的(Logical View)或物理视图(Physical View)。在物理视图(Physical View)界面时,右侧界面中下方窗口显示的信息是该控制器上已经配置的阵列(Array)信息。
2.视图左侧主要选项说明
Adapter Properties(适配器属性):显示该适配器的属性信息。
Scan Devices(扫描设备):该选项用来重新扫描连接到该控制器上的物理驱动器(Physical drivers)及虚拟驱动器(Vitrual dirvers)的配置信息和物理信息。并将结果更新后显示在物理驱动器(Physical disks)和虚拟驱动器(Virtual disks)窗口中。
Virtual Disks(虚拟驱动器):选择该选项,用来查看虚拟驱动器页面,在此页面中可以更改和查看虚拟驱动器的属性,删除虚拟驱动器,初始化驱动器和其他一些任务。
Physical Drivers(物理驱动器):该选项用来查看物理驱动器页面。可以查看物理驱动器属性,创建热备磁盘和其他一些任务。
Configration Wizard(配置向导):该选项用来执行配置向导。可以用来创建新的存储配置,清除配置或者添加配置。
Adapter Selection(选择适配器):该选项用来查看适配器选择界面。可以选择不同的ServeRAID-MR控制器,可以查看这个控制器和连接到该控制器上的设备的信息,或者选择在该控制器上创建新的配置信息。
Physical View/ Logical View(物理视图/逻辑视图):如前所述,用来选择相应视图界面。
Events(事件):查看系统事件信息。
Exit(退出):选择用来退出WebBIOS CU界面。
三创建配置信息
1.使用配置向导(Configuration Wizard)进行配置
a.在主界面点击左侧 Configuration Wizard选项,会进入配置向导的画面:
b.选择配置选项。
—— Clear Configuration(清除配置):清除已有的配置信息。
—— New Configuration(全新配置):清除已有的配置信息,并且全新创建新的配置。
—— Add Configuration(添加配置):保留原有配置信息,并且添加新的硬盘到原有的配置中。(该配置通常不会引起数据丢失,但该操作有风险,建议先备份数据!)
注意:如果选择前两个选项(Clear Configuration和New Configuration),会丢失所有数据!请先备份所有数据!
c.点击Next按钮,继续下一步。如果选择Clear Configuration和New Configuration选项,会提示会丢失所有数据,需要再次确认。
d.进入配置模式选择界面,可以有三种方式选择:
—— Custom Configuration(自定义配置):允许用户自定义存储配置的所有属性参数。
—— Auto Configuration with Redundancy(自动配置冗余模式):自动创建RAID1或者RAID5,提供数据冗余。建议选此选项。
—— Auto Configuration without Redundancy(自动配置没有冗余模式):自动创建没有冗余RAID 0的配置。
e.点击Next按钮继续配置向导。
2.使用自动配置模式(Auto Configuration)
a.当WebBIOS的界面显示建议的新配置后,请检查屏幕上显示的配置信息。点击Accept接受该配置,或者点击Back返回到上个界面,修改配置。
—— RAID0:如果选择Auto Configuration without Redundancy, WebBIOS会配置RAID0。
—— RAID1:如果选择Auto Configuration with Redundancy选线,并且只有两个硬盘可用时,则会自动配置RAID1。
—— RAID5:如果选择Auto Configuration with Redundancy选线,并且有三个或三个以上硬盘可用时,则会自动配置RAID5。
b.当提示是否保存配置时,选择Yes继续。
c.当提示是否初始化新的虚拟驱动器(Virtual Disk)时,选择Yes,进行初始化。
(WebBIOS CU开始对虚拟驱动器(Virtual Disk)进行后台初始化操作。)
3.使用自定义配置(Custom Configuration)
当选择Custom Configuration并且点击Next按钮后,会进入定义磁盘组(Disk Group)的画面。可以在这个配置画面中选择物理驱动器创建磁盘组(Disk Group),即阵列(Array)。
配置画面如下图示:
【注:以下步骤适合配置RAID0, RAID1, RAID5, RAID6】
a.左侧窗口显示物理驱动器(Physical Drivers)列表,可以按下<CTRL>键同时选中两个或多个处于Ready状态的物理驱动器用来创建磁盘组(Disk Group)。
b.点击右侧窗口下的Accept DG选项,将选中的物理硬盘移动至右侧磁盘组(Disk Groups)。如果需要撤销以上操作,可以点击Reclaim按钮。
c.当磁盘组(Disk Group)的物理硬盘选定之后,点击Next按钮。会进入配置虚拟驱动器(Virtual Disk)的画面。如下显示:
在上面的画面中,可以调整RAID级别(RAID level)、条带大小(Strip Size)、读取机制(Read Policy)等选项。
d.可以根据实际情况来调整虚拟驱动器(Virtual Disk)的默认属性。主要属性如下:
—— RAID Level:从下拉列表中选择可选的RAID级别。如RAID0,RAID5等。
—— Strip Size:条带化大小定义了RAID配置中每个硬盘的数据块的大小。建议选择默认大小。
—— Access Policy:选择数据访问的类型,主要包含:
1) RW,允许读写操作。这是默认值。
2) Read Only(只读),允许只读操作。
3) Blocked(禁止):不允许访问。
—— Read Policy:指定虚拟驱动器的读取机制,主要包含:
1) Normal:此选项禁用预读机制。这是默认值。
2) Ahead:此选项启动预读机制。允许控制器提前顺序读取所需数据并且和其他数据一起存储在缓存中。这将提高顺序数据的读取速度,但是对读取随即数据的性能没有明显提升。
3) Adaptive:此选项启动可选预读机制。当两个或以上硬盘数据读取操作发生在顺序扇区中时,就启动预读机制(Ahead)。如果读取操作是随机的,控制器就会进入(Normal)默认模式。
——write Policy:指定虚拟驱动器的写操作机制,主要包含:
1) WBack:即 Write Back(回写)模式。
2) WThru:即 Write Through(直写)模式。这是默认设置。
3) Bad BBU:如果控制器的没有电池(BBU)或电池(BBU)故障,但仍想使用回写模式(WBack),则选用此选项。如果不选用此选项,当控制器检测到没有电池(BBU)或电池(BBU)损坏时,将自动切换至直写模式(WThru)。
—— IO Policy:此选项允许读取一个特定的虚拟驱动器(Virtual disk)。不影响预读(read ahead)缓存。
1) Direct:该模式下读取的数据不在缓存中缓冲。而且直接从缓存传输的主机。如果相同的数据被再次读取,则直接从缓存读取。这是默认值。
2) Cached:该模式下,所有读取的数据都要在缓存中缓冲。
—— Disk Cache Policy:指定驱动器缓存的机制。
1) Enable:启动硬盘驱动器的缓存。
2) Disable:关闭硬盘驱动器的缓存。这是默认值。
3) Unchanged:保持现有的驱动器缓存机制不做改变。
—— Disable BGI:指定后台初始化(Background initialization)状态:
1) No:保持后台初始化启动。这是指新的配置设定会在后台进行初始化并且此时可以使用WebBIOS进行其他的设置。这是默认值。
2) Yes:这项表示禁用后台初始化(Background initialization)。
—— Select Size:指定虚拟驱动器(Virtual disk)的大小,以MB为单位。通常,这个值是该磁盘组RAID级别的最大容量。
e.点击Accept按钮,接受对虚拟驱动器(Virtual disk)的配置更改。或者点击Reclaim按钮返回到之前的设置。
f.点击 Next按钮,结束对虚拟驱动器(Virtual disk)的配置。此时会显示虚拟驱动器虚拟驱动器(Virtual disk)的信息。
g.检查确认该视图中的配置信息。
h.如果虚拟驱动器(Virtual disk)的配置信息无误,点击Accept按钮保存配置信息。否则,可以点击Cancel按钮来结束该操作并返回到WebBIOS的主界面。或者,点击Back按钮返回到上一个界面,更改配置信息。
i.如果配置接受之前的配置信息,在弹出确认保存的提示时,点击Yes按钮,保存配置。保存配置信息之后,会返回到WebBIOS的主界面。
【注:一下步骤适合配置RAID10, RAID50, RAID60】
a.左侧窗口显示物理驱动器(Physical Drivers)列表,可以按下<CTRL>键同时选中两个或多个处于Ready状态的物理驱动器用来创建第一个磁盘组(Disk Group)。
b.点击右侧窗口下的Accept DG选项,将选中的物理硬盘移动至右侧磁盘组(Disk Groups)中的第一个磁盘组。如果需要撤销以上操作,可以点击Reclaim按钮。
c.左侧窗口显示物理驱动器(Physical Drivers)列表,可以按下<CTRL>键同时选中两个或多个处于Ready状态的物理驱动器用来创建第二个磁盘组(Disk Group)。
(注:两个磁盘组必须配置相同)
d.点击右侧窗口下的Accept DG选项,将选中的物理硬盘移动至右侧磁盘组(Disk Groups)中的第二个磁盘组。如果需要撤销以上操作,可以点击Reclaim按钮。
e.结束选择硬盘步骤之后,点击Next。会进入设置扩展阵列的屏幕。如下图所示:
f.在屏幕上左侧的窗口中显示Array With Free Space选项,按住<CTRL>选择一个磁盘组(Disk Group),然后点击 Add to SPAN。已经选中的磁盘组(Disk Group)会显示在右边的Span窗口。
g.按下<CTRL>键同时选中第二个磁盘组(Disk Group),然后按Add to SPAN按钮。然后所选中的磁盘组(Disk Groups)会显示在右边的Span窗口中。
h.点击 Next按钮。会进入设置虚拟驱动器(Virtual disk)属性的页面。如前面描述,可以做详细参数的设置。
i.在右侧配置窗口中,按下<CTRL>键,同时选中两个磁盘组(Disk Groups)。
j.修改虚拟驱动器(Virtual disk)的属性。如前面描述。
(注意: RAID10选择RAID级别RAID1,RAID50选RAID5, RAID60选RAID6)
k.点击Accept按钮,接受更改后的虚拟驱动器(Virtual disk)的属性。或点击Reclaim按钮返回到之前的属性设置。
l.确认结束对虚拟驱动器(Virtual disk)的属性修改后,点击Next按钮。显示配置预览界面。
m.检查预览界面的配置信息。
n.如果虚拟驱动器(Virtual disk)的配置信息无误,点击Accept按钮保存配置信息。否则,可以点击Cancel按钮来结束该操作并返回到WebBIOS的主界面。或者,点击Back按钮返回到上一个界面,更改配置信息。
o.如果配置接受之前的配置信息,在弹出确认保存的提示时,点击Yes按钮,保存配置。保存配置信息之后,会返回到WebBIOS的主界面。
四删除虚拟驱动器(Virtual Disk)
如过要删除虚拟驱动器(Virtual Disk),请执行如下操作。
(注:删除虚拟驱动器(Virtual Disk)会丢失所有的数据,请先备份所有数据。)
1.在WebBIOS CU的主界面,选择一个虚拟驱动器(Virtual Disk).
2.点击 Virtual Disks。
3.显示虚拟驱动器(Virtual Disk)界面时,在左侧窗口下的面板上,选择Del按钮,并点击Go按钮。
4.会提示确认信息,再次确认是否要删除。
(注:操作已有RAID时,有丢失数据风险。建议提前备份所有数据。)
服务器没装满硬盘影响散热
服务器没装满硬盘影响散热
服务器系统硬盘为机器运行的根本,系统工作的可靠性已经成为机器应用平台正常稳定运行的先决条件,在服务器应用过程中,保证服务器系统的稳定,机器的高效运行是目前产品测试工作的主要验证项,因此,合理的散热布局、是否拥有良好的散热通道及散热效果是服务器系统硬盘正常工作的基础。
现有的服务器系统硬盘主要布局位置大部分为安装在机箱后端的两侧或者前端,机箱内部散热结构简单,内部风道具有较高的不通畅性,不能完全发挥散热风扇的散热作用,被动散热效果差且无法有效的进行系统盘热量的散出,从而降低了服务器系统硬盘稳定性和可靠性。
技术实现要素:
本实用新型的目的是克服现有技术中的不足,提供一种用于服务器系统硬盘散热装置,通过改变服务器系统硬盘安装位置及设置挡风罩,提高内部风道流畅度,保证了服务器系统硬盘工作时能够进行有效的散热,保证服务器系统硬盘保持在合理的工作环境温度,提高服务器应用平台的工作稳定性。
为了实现上述目的,本实用新型采用的技术方案是:
一种用于服务器系统硬盘散热装置,包括机箱、风扇模组、服务器系统硬盘、挡风罩,所述风扇模组、服务器系统硬盘、挡风罩均安装在机箱上,所述挡风罩设置于风扇模组与服务器系统硬盘之间,服务器系统硬盘位于挡风罩一侧中部,所述挡风罩包括罩体、挡风板、第一侧板、第二侧板,所述第一侧板、第二侧板分别设置于罩体顶部下方中部两侧,所述挡风板设置于第一侧板、第二侧板底部并与第一侧板、第二侧板连接,通过挡风板将罩体与机箱分割成上下两个风道,其中挡风板与罩体顶部之间为上风道,通过上风道为服务器系统硬盘模组提供散热通道,挡风板与机箱之间为下风道,通过下风道为为cpu、内存等部件提供散热通道,所述第一侧板、第二侧板与罩体端部之间形成侧风道,通过侧风道为电源模块与pcie卡提供散热通道,通过风扇模组工作产生的风量进入到挡风罩中不同的风道中,对机箱中不同的元器件进行散热,通过上风道为服务器系统硬盘提供一个单独的风道,可以保证散热风量足够,确保服务器系统硬盘工作时的热量及时散出,从而保证服务器系统硬盘保持在合理的工作环境温度,提高服务器应用平台的工作稳定性。
优选的,所述罩体顶部靠近风扇模组一侧设有凹槽,风扇模组上对应设有凸起,通过凹槽与凸起的配合,可以对挡风罩实现快速安装与定位,提高了挡风罩安装的工作效率。
优选的,所述罩体顶部靠近风扇模组一侧设有第一通孔,通过第一通孔将挡风罩固定安装到风扇模组顶部,防止风扇模组工作进行吹风时将挡风罩吹动发生位移,影响散热效果,从而保证了挡风罩的实用性。
优选的,所述罩体上的两端设有通风孔,所述通风孔分别位于第一侧板、第二侧板的一侧,风扇模组工作时产生的风量可以通过通风孔对电源模块与pcie卡进行有效的散热,提高了散热的效率。
优选的,所述第二侧板的一侧设有侧挡板,所述侧挡板固定安装在罩体上,通过可以保证风量在通风孔出来后,能够直接有效的作用到pcie卡表面,保证了pcie卡散热效果。
优选的,所述第一侧板上设有通槽,所述第二侧板上设有线缆卡扣,通过通槽与线缆卡扣将线缆在挡风罩表面进行有序的排列及可靠的固定,提高了机箱内部的整洁度和可靠度。
优选的,所述挡风板上设有元器件放置框,所述元器件放置框的数量为两个,元器件放置框用于放置bbu电池或其它元器件,提高了机箱内部空间利用率。
优选的,所述元器件放置框底部两侧设有第二通孔,第二通孔用于绳子穿过固定元器件放置框内部的元器件,从而提高了元器件放置框内部的元器件工作时的稳定性。
优选的,所述元器件放置框内侧与外侧均设有加强筋,增强了挡风罩的强度,延长挡风罩使用寿命。
优选的,所述第一侧板、第二侧板的端部设有止回板,所述止回板位于罩体顶部下方,通过止回板防止风扇模组工作时出现漏风现象,产生的风量经由挡风板吹向服务器系统硬盘,提高了风扇模组的工作效率。
本实用新型的有益效果是:
1)通过改变服务器系统硬盘安装位置及设置挡风罩,提高内部风道流畅度,保证了服务器系统硬盘工作时能够进行有效的散热,保证服务器系统硬盘保持在合理的工作环境温度,提高服务器应用平台的工作稳定性。
2)罩体顶部靠近风扇模组一侧设有凹槽,风扇模组上对应设有凸起,通过凹槽与凸起的配合,可以对挡风罩实现快速安装与定位,提高了挡风罩安装的工作效率。
3)罩体顶部靠近风扇模组一侧设有第一通孔,通过第一通孔将挡风罩固定安装到风扇模组顶部,防止风扇模组工作进行吹风时将挡风罩吹动发生位移,影响散热效果,从而保证了挡风罩的实用性。
4)罩体上的两端设有通风孔,所述通风孔分别位于第一侧板、第二侧板的一侧,风扇模组工作时产生的风量可以通过通风孔对电源模块与pcie卡进行有效的散热,提高了散热的效率。
5)第二侧板的一侧设有侧挡板,所述侧挡板固定安装在罩体上,通过可以保证风量在通风孔出来后,能够直接有效的作用到pcie卡表面,保证了pcie卡散热效果。
6)第一侧板上设有通槽,所述第二侧板上设有线缆卡扣,通过通槽与线缆卡扣将线缆在挡风罩表面进行有序的排列及可靠的固定,提高了机箱内部的整洁度和可靠度。
7)挡风板上设有元器件放置框,所述元器件放置框的数量为两个,元器件放置框用于放置bbu电池或其它元器件,提高了机箱内部空间利用率。
8)元器件放置框底部两侧设有第二通孔,第二通孔用于绳子穿过固定元器件放置框内部的元器件,从而提高了元器件放置框内部的元器件工作时的稳定性。
9)元器件放置框内侧与外侧均设有加强筋,增强了挡风罩的强度,延长挡风罩使用寿命。
10)第一侧板、第二侧板的端部设有止回板,所述止回板位于罩体顶部下方,通过止回板防止风扇模组工作时出现漏风现象,产生的风量经由挡风板吹向服务器系统硬盘,提高了风扇模组的工作效率。
附图说明
附图1是本实用新型一种用于服务器系统硬盘散热装置中结构示意图。
附图2是本实用新型一种用于服务器系统硬盘散热装置中挡风罩结构示意图。
附图3是本实用新型一种用于服务器系统硬盘散热装置中挡风罩另一侧结构示意图。
附图4是本实用新型一种用于服务器系统硬盘散热装置中挡风板结构示意图。
图中:1、罩体;2、第一通孔;3、凹槽;4、挡风板;5、第一侧板;6、侧挡板;7、通风孔;8、线缆卡扣;9、机箱;10、加强筋;11、元器件放置框;12、通槽;13、第二侧板;14、止回板;15、第二通孔;16、服务器系统硬盘;17、风扇模组。
具体实施方式
下面结合附图1-4,对本实用新型实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本实用新型一部分实施例,而不是全部的实施例。基于本实用新型中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本实用新型保护的范围。
在本实用新型的描述中,需要理解的是,术语“纵向”、“横向”、“上”、“下”、“前”、“后”、“左”、“右”、“竖直”、“水平”、“顶”、“底”、“内”、“外”等指示的方位或位置关系为基于附图所示的方位或位置关系,仅是为了便于描述本实用新型,而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作,因此不能理解为对本实用新型的限制。
一种用于服务器系统硬盘散热装置,包括机箱9、风扇模组17、服务器系统硬盘16、挡风罩,所述风扇模组17、服务器系统硬盘16、挡风罩均安装在机箱9上,所述挡风罩设置于风扇模组17与服务器系统硬盘16之间,服务器系统硬盘16位于挡风罩一侧中部,所述挡风罩包括罩体1、挡风板4、第一侧板5、第二侧板13,所述第一侧板5、第二侧板13分别设置于罩体1顶部下方中部两侧,所述挡风板4设置于第一侧板5、第二侧板13底部并与第一侧板5、第二侧板13连接,通过挡风板4将罩体1与机箱9分割成上下两个风道,其中挡风板4与罩体1顶部之间为上风道,通过上风道为服务器系统硬盘16提供散热通道,挡风板4与机箱9之间为下风道,通过下风道为cpu、内存等部件提供散热通道,所述第一侧板5、第二侧板13与罩体1端部之间形成侧风道,通过侧风道为电源模块与pcie卡提供散热通道,通过风扇模组17工作产生的风量进入到挡风罩中不同的风道中,对机箱9中不同的元器件进行散热,通过上风道为服务器系统硬盘16提供一个单独的风道,可以保证散热风量足够,确保服务器系统硬盘16工作时的热量及时散出,从而保证服务器系统硬盘16保持在合理的工作环境温度,提高服务器应用平台的工作稳定性。
所述罩体1顶部靠近风扇模组17一侧设有凹槽3,风扇模组17上对应设有凸起,通过凹槽3与凸起的配合,可以对挡风罩实现快速安装与定位,提高了挡风罩安装的工作效率,所述罩体1顶部靠近风扇模组17一侧设有第一通孔2,通过第一通孔2将挡风罩固定安装到风扇模组17顶部,防止风扇模组17工作进行吹风时将挡风罩吹动发生位移,影响散热效果,从而保证了挡风罩的实用性,所述罩体1上的两端设有通风孔7,所述通风孔7分别位于第一侧板5、第二侧板13的一侧,风扇模组17工作时产生的风量可以通过通风孔7对电源模块与pcie卡进行有效的散热,提高了散热的效率,所述第二侧板13的一侧设有侧挡板6,所述侧挡板6固定安装在罩体1上,通过可以保证风量在通风孔7出来后,能够直接有效的作用到pcie卡表面,保证了pcie卡散热效果,所述第一侧板5上设有通槽12,所述第二侧板13上设有线缆卡扣8,通过通槽12与线缆卡扣8将线缆在挡风罩表面进行有序的排列及可靠的固定,提高了机箱9内部的整洁度和可靠度。
所述挡风板4上设有元器件放置框11,所述元器件放置框11的数量为两个,元器件放置框11用于放置bbu电池或其它元器件,提高了机箱9内部空间利用率,所述元器件放置框11底部两侧设有第二通孔15,第二通孔15用于绳子穿过固定元器件放置框11内部的元器件,从而提高了元器件放置框11内部的元器件工作时的稳定性,所述元器件放置框11内侧与外侧均设有加强筋10,增强了挡风罩的强度,延长挡风罩使用寿命,所述第一侧板5、第二侧板13的端部设有止回板14,所述止回板14位于罩体1顶部下方,通过止回板14防止风扇模组17工作时出现漏风现象,产生的风量经由挡风板吹向服务器系统硬盘16,提高了风扇模组17的工作效率。
以上内容仅仅是对本实用新型的结构所作的举例和说明,所属本技术领域的技术人员对所描述的具体实施例做各种各样的修改或补充或采用类似的方式替代,只要不偏离实用新型的结构或者超越本权利要求书所定义的范围,均应属于本实用新型的保护范围。
web服务器访问缓慢,作为运维人员,如何定位故障
遇到服务器故障,问题出现的原因很少可以一下就想到。我们基本上都会从以下步骤入手:
一、尽可能搞清楚问题的前因后果
不要一下子就扎到服务器前面,你需要先搞明白对这台服务器有多少已知的情况,还有故障的具体情况。不然你很可能就是在无的放矢。
必须搞清楚的问题有:
故障的表现是什么?无响应?报错?
故障是什么时候发现的?
故障是否可重现?
有没有出现的规律(比如每小时出现一次)
最后一次对整个平台进行更新的内容是什么(代码、服务器等)?
故障影响的特定用户群是什么样的(已登录的,退出的,某个地域的…)?
基础架构(物理的、逻辑的)的文档是否能找到?
是否有监控平台可用?(比如Munin、Zabbix、 Nagios、 New Relic…
什么都可以)
是否有日志可以查看?.(比如Loggly、Airbrake、 Graylog…)
最后两个是最方便的信息来源,不过别抱太大希望,基本上它们都不会有。只能再继续摸索了。
二、有谁在?
代码如下:
$ w
$ last
用这两个命令看看都有谁在线,有哪些用户访问过。这不是什么关键步骤,不过最好别在其他用户正干活的时候来调试系统。有道是一山不容二虎嘛。(ne cook in
the kitchen is enough.)
三、之前发生了什么?
$
history查看一下之前服务器上执行过的命令。看一下总是没错的,加上前面看的谁登录过的信息,应该有点用。另外作为admin要注意,不要利用自己的权限去侵犯别人的隐私哦。
到这里先提醒一下,等会你可能会需要更新 HISTTIMEFORMAT
环境变量来显示这些命令被执行的时间。对要不然光看到一堆不知道啥时候执行的命令,同样会令人抓狂的。
四、现在在运行的进程是啥?
代码如下:
$ pstree-a
$ ps aux
这都是查看现有进程的。 ps aux的结果比较杂乱, pstree-a的结果比较简单明了,可以看到正在运行的进程及相关用户。
五、监听的网络服务
代码如下:
$ netstat-ntlp
$ netstat-nulp
$
netstat-nxlp
我一般都分开运行这三个命令,不想一下子看到列出一大堆所有的服务。netstat-nalp倒也可以。不过我绝不会用 numeric选项
(鄙人一点浅薄的看法:IP地址看起来更方便)。
找到所有正在运行的服务,检查它们是否应该运行。查看各个监听端口。在netstat显示的服务列表中的PID和 ps aux进程列表中的是一样的。
如果服务器上有好几个Java或者Erlang什么的进程在同时运行,能够按PID分别找到每个进程就很重要了。
通常我们建议每台服务器上运行的服务少一点,必要时可以增加服务器。如果你看到一台服务器上有三四十个监听端口开着,那还是做个记录,回头有空的时候清理一下,重新组织一下服务器。
六、CPU和内存
代码如下:
$ free-m
$ uptime
$ top
$
htop
注意以下问题:
还有空余的内存吗?服务器是否正在内存和硬盘之间进行swap?
还有剩余的CPU吗?服务器是几核的?是否有某些CPU核负载过多了?
服务器最大的负载来自什么地方?平均负载是多少?
七、硬件
代码如下:
$ lspci
$ dmidecode
$
ethtool
有很多服务器还是裸机状态,可以看一下:
找到RAID卡(是否带BBU备用电池?)、 CPU、空余的内存插槽。根据这些情况可以大致了解硬件问题的来源和性能改进的办法。
网卡是否设置好?
是否正运行在半双工状态?速度是10MBps?有没有 TX/RX报错?
八、IO性能
代码如下:
$ iostat-kx 2
$ vmstat 2 10
$ mpstat
2 10
$ dstat--top-io--top-bio
这些命令对于调试后端性能非常有用。
检查磁盘使用量:服务器硬盘是否已满?
是否开启了swap交换模式(si/so)?
CPU被谁占用:系统进程?用户进程?虚拟机?
dstat是我的最爱。用它可以看到谁在进行 IO:是不是MySQL吃掉了所有的系统资源?还是你的PHP进程?
九、挂载点和文件系统
代码如下:
$ mount
$ cat/etc/fstab
$ vgs
$
pvs
$ lvs
$ df-h
$ lsof+D//* beware not to kill your box
*/
一共挂载了多少文件系统?
有没有某个服务专用的文件系统?(比如MySQL?)
文件系统的挂载选项是什么: noatime?
default?有没有文件系统被重新挂载为只读模式了?
磁盘空间是否还有剩余?
是否有大文件被删除但没有清空?
如果磁盘空间有问题,你是否还有空间来扩展一个分区?
十、内核、中断和网络
代码如下:
$ sysctl-a| grep...
$ cat
/proc/interrupts
$ cat/proc/net/ip_conntrack/* may take some time on busy
servers*/
$ netstat
$ ss-s
你的中断请求是否是均衡地分配给CPU处理,还是会有某个CPU的核因为大量的网络中断请求或者RAID请求而过载了?
SWAP交换的设置是什么?对于工作站来说swappinness设为 60就很好,
不过对于服务器就太糟了:你最好永远不要让服务器做SWAP交换,不然对磁盘的读写会锁死SWAP进程。
conntrack_max是否设的足够大,能应付你服务器的流量?
在不同状态下(TIME_WAIT,…)TCP连接时间的设置是怎样的?
如果要显示所有存在的连接,netstat会比较慢,你可以先用 ss看一下总体情况。
你还可以看一下 Linux TCP tuning
了解网络性能调优的一些要点。
十一、系统日志和内核消息
代码如下:
$ dmesg
$ less/var/log/messages
$
less/var/log/secure
$ less/var/log/auth
查看错误和警告消息,比如看看是不是很多关于连接数过多导致?
看看是否有硬件错误或文件系统错误?
分析是否能将这些错误事件和前面发现的疑点进行时间上的比对。
十二、定时任务
代码如下:
$ ls/etc/cron*+ cat
$ for user in
$(cat/etc/passwd| cut-f1-d:); do crontab-l-u$user; done
是否有某个定时任务运行过于频繁?
是否有些用户提交了隐藏的定时任务?
在出现故障的时候,是否正好有某个备份任务在执行?
十三、应用系统日志
这里边可分析的东西就多了,
不过恐怕你作为运维人员是没功夫去仔细研究它的。关注那些明显的问题,比如在一个典型的LAMP(Linux+Apache+Mysql+Perl)应用环境里:
Apache& Nginx;查找访问和错误日志,直接找 5xx错误,再看看是否有 limit_zone错误。
MySQL;
在mysql.log找错误消息,看看有没有结构损坏的表,是否有innodb修复进程在运行,是否有disk/index/query问题.
PHP-FPM;如果设定了 php-slow日志,直接找错误信息(php, mysql, memcache,…),如果没设定,赶紧设定。
Varnish;在varnishlog和 varnishstat里,检查 hit/miss比.
看看配置信息里是否遗漏了什么规则,使最终用户可以直接攻击你的后端?
HA-Proxy;
后端的状况如何?健康状况检查是否成功?是前端还是后端的队列大小达到最大值了?
结论
经过这5分钟之后,你应该对如下情况比较清楚了:
在服务器上运行的都是些啥?
这个故障看起来是和 IO/硬件/网络或者系统配置(有问题的代码、系统内核调优,…)相关。
这个故障是否有你熟悉的一些特征?比如对数据库索引使用不当,或者太多的apache后台进程。
你甚至有可能找到真正的故障源头。就算还没有找到,搞清楚了上面这些情况之后,你现在也具备了深挖下去的条件。继续努力吧!