如何对Dell PowerEdge™ 9G、11G、12G和刀片式机箱服务器上的硬盘和RAID控制器错误进行故障诊断

文章摘要: 本文提供有关如何对Dell PowerEdge™ 9G、11G、12G和刀片式机箱服务器上的硬盘和RAID控制器错误进行故障诊断的信息

目录:

  1. 开机自检错误消息
  2. 一般问题
  3. 物理磁盘的相关问题
  4. 配置实用程序错误信息
  5. 物理磁盘故障和重建
  6. SMART 错误
  7. 更换成员错误
  8. Linux 操作系统错误
  9. 驱动器托盘状态 LED


问题1:

开机自检错误消息

消息 含义
There are X enclosures connected to connector Y, but only maximum of 4 enclosures can be connected to a single SAS connector.Please remove the extra enclosures then restart your system. 当BIOS检测到单个SAS连接器连接的机柜超过4个时,会显示此消息。必须删除所有多余的机柜并重新启动系统。
Cache data was lost, but the controller has recovered.This could be due to the fact that your controller had protected cache after an unexpected power loss and your system was without power longer than the battery backup time.Press any key to continue, or ’C’ to load the configuration utility. 此消息在以下情况下出现:
• 适配器检测到控制器高速缓存中的高速缓存数据尚未写入到磁盘子系统。
• 控制器在初始化期间执行其高速缓存检查例行程序时检测到Error- Correcting Code (ECC)(“错误 – 纠正代码[ECC]”)错误。
• 控制器丢弃高速缓存,而不是将其发送到磁盘子系统,原因是无法保证数据完整性。要解决此问题,请将电池充满电。如果问题仍然存在,则电池或适配器 DIMM 可能出现故障。
The following virtual disks have missing disks: (x).If you proceed (or load the configuration utility), these virtual disks will be marked OFFLINE and will be inaccessible.Please check your cables and ensure all disks are present.Press any key to continue, or ’C’ to load the configuration utility. 该消息表示已删除某些配置的磁盘。如果没有卸除磁盘,则这些磁盘不再可访问。系统的 SAS 电缆可能连接不正确。请检查电缆连接并修复任何问题。重新启动系统。如果电缆没有问题,请按任意键继续。
All of the disks from your previous configuration are gone.If this is an unexpected message, then please power off your system and check your cables to ensure all disks are present.Press any key to continue, or ’C’ to load the configuration utility. 该消息表示所有配置的磁盘均已删除。如果没有卸除磁盘,则这些磁盘不再可访问。系统的 SAS 电缆可能连接不正确。请检查电缆连接并修复任何问题。重新启动系统。如果电缆没有问题,请按任意键或 <C> 键以继续。
The following virtual disks are missing: (x) If you proceed (or load the configuration utility), these virtual disks will be removed from your configuration.If you wish to use them at a later time, they will have to be imported.If you believe these virtual disks should be present, please power off your system and check your cables to ensure all disks are present.Press any key to continue, or ’C’ to load the configuration utility. 该消息表示已删除某些配置的磁盘。如果没有卸除磁盘,则这些磁盘不再可访问。系统的 SAS 电缆可能连接不正确。请检查电缆连接并修复任何问题。重新启动系统。如果电缆没有问题,请按任意键或 <C> 键以继续。
The cache contains dirty data, but some virtual disks are missing or will go offline, so the cached data can not be written to disk.If this is an unexpected error, then please power off your system and check your cables to ensure all disks are present.If you continue, the data in cache will be permanently discarded.Press ‘X’ to acknowledge and permanently destroy the cached data. 如果虚拟磁盘由于缺少物理磁盘而处于脱机状态或被删除,则控制器将保留该虚拟磁盘中的已占用高速缓存。此消息表示某些配置的磁盘已卸除。如果没有卸除磁盘,则这些磁盘不再可访问。系统的 SAS 电缆可能连接不正确。请检查电缆连接并修复任何问题。重新启动系统。使用Ctrl+R实用程序导入虚拟磁盘或丢弃保留的高速缓存。
A discovery error has occurred, please power cycle the system and all the enclosures attached to this system. 此消息表示未能在 120 秒内完成搜索。系统的 SAS 电缆可能连接不正确。请检查电缆连接并修复任何问题。重新启动系统。
Entering the configuration utility in this state will result in drive configuration changes.Press ‘Y’ to continue loading the configuration utility or please power off your system and check your cables to ensure all disks are present and reboot. 在其他 BIOS 警告提示先前配置的磁盘存在问题后,如果您选择接受任何更改并继续,则会显示此消息。系统的 SAS 电缆可能连接不正确。请检查电缆连接并修复任何问题。重新启动系统。如果电缆没有问题,请按任意键或 <Y> 键以继续。
BIOS Disabled.No Logical Drives Handled by BIOS. 当您在配置实用程序中禁用ROM选项后显示此警告消息。禁用 ROM 选项时,BIOS 无法引导到 INT 13h,并且无法提供从虚拟磁盘进行引导的能力。Int 13h 是一个中断信号,它支持发送到 BIOS 且传递至物理磁盘的多条命令。这些命令包括您可以对物理磁盘执行的操作,例如读取、写入和格式化。
Adapter at Baseport xxxx is not responding where xxxx is the baseport of the controller. 联系戴尔技术支持。
There are offline or missing virtual drives with preserved cache.Please check the cables and ensure that all drives are present.Press any key to enter the configuration utility. 如果虚拟磁盘由于缺少物理磁盘而处于脱机状态或被删除,则控制器将保留该虚拟磁盘中的已占用高速缓存。此保留的已占用高速缓存被称为已驻留高速缓存,并且保留直至您导入虚拟磁盘或放弃该高速缓存。使用Ctrl+R实用程序导入虚拟磁盘或丢弃保留的高速缓存。有关管理保留的高速缓存的步骤。
x Virtual Disk(s) Offline where x is the number of virtual disks failed. 当 BIOS 检测到虚拟磁盘处于脱机状态时,会显示此警告。您必须检查以确定虚拟磁盘出现故障的原因并纠正问题。BIOS 不采取任何措施。
x Virtual Disk(s) Degraded where x is the number of virtual disks degraded. 当 BIOS 检测到虚拟磁盘处于降级状态时,会显示此警告。采取纠正措施以保证虚拟磁盘处于最佳状态。BIOS 不采取任何措施。
x Virtual Disk(s) Partially Degraded. 当 BIOS 检测到 RAID 6 或 RAID 60 配置中发生单个磁盘故障时,则会显示此警告。您必须检查成员磁盘不存在的原因以纠正该问题。BIOS 不采取任何措施。
A discovery error has occurred, please power cycle the system and all the enclosures attached to this system. 此消息表示未能在 120 秒内完成搜索。系统的 SAS 电缆可能连接不正确。请检查电缆连接并修复任何问题。重新启动系统。
Memory/Battery problems were detected.The adapter has recovered, but cached data was lost.Press any key to continue. 此消息在以下情况下出现:
• 适配器在控制器高速缓存中检测到尚未写入到磁盘子系统的数据。
• 控制器在初始化期间执行其高速缓存检查例行程序时检测到Error- Correcting Code (ECC)(“错误 – 纠正代码[ECC]”)错误。
• 控制器丢弃高速缓存,而不是将其发送到磁盘子系统,原因是无法保证数据完整性。
• 电池可能未充满电。让电池充满电可解决此问题。如果问题仍然存在,则电池或适配器 DIMM 可能发生了故障;请与 Dell 技术支持部门联络。
Foreign configuration(s) found on adapter.Press any key to continue, or ’C’ to load the configuration utility or ’F’ to import foreign configuration(s) and continue. 当控制器固件检测到存在外部元数据的物理磁盘时,它会将物理磁盘标记为 foreign(外部)并生成警报表示检测到外部磁盘。出现此提示时按<F>键可导入配置(如果虚拟磁盘的所有成员驱动器都存在)而不载入BIOS配置实用程序。或者,按 <C> 键进入 BIOS 配置公用程序并导入或清除外部配置。
The foreign configuration message is present during POST but no foreign configurations are present in the foreign view page in CTRL+R.All virtual disks are in an optimal state. 确保所有 PD 均存在且所有 VD 均处于最佳状态。使用CTRL+R或Dell OpenManage™ Server Administrator Storage Management清除外部配置。
警告:
如果您插入的物理磁盘之前是系统中某虚拟磁盘的成员,并且该磁盘的先前位置已通过重建由更换磁盘所占用,则必须手动删除新插入磁盘的外部配置标记。
Previous configuration(s) cleared or missing.Importing configuration created on XX/XX XX.XX.Press any key to continue, or ’C’ to load the configuration utility. 该消息表示控制器和物理磁盘具有不同的配置。您可以使用BIOS配置实用程序来清除外部配置。
Invalid SAS topology detected.Please check your cable configurations, repair the problem, and restart your system. 系统的 SAS 电缆连接不正确。请检查电缆连接并修复问题(如果有)。重新启动系统。
Multibit ECC errors were detected on the RAID controller.If you continue, data corruption can occur.Contact technical support to resolve this issue.Press ‘X’ to continue or else power off the system, replace the controller and reboot. 此错误为 PERC H700 控制器所特有。多位ECC错误(MBE)在内存中出现,可能会损坏和丢弃高速缓存的数据。
警告:
MBE 错误非常严重,因为其可导致数据损坏和数据丢失。如果出现 MBE 错误,请与 Dell 技术支持联络。
注:
如果引导期间控制器上检测到多个单位ECC错误,会显示类似消息。
Multibit ECC errors were detected on the RAID controller.The DIMM on the controller needs replacement.If you continue, data corruption can occur.Press ‘X’ to continue or else power off the system, replace the DIMM module, and reboot.If you have replaced the DIMM please press ‘X’ to continue . 多位ECC错误(MBE)在内存中出现,可能会损坏和丢弃高速缓存的数据。
警告:
MBE错误非常严重,因为它们会导致数据损坏和丢失。如果出现 MBE 错误,请与 Dell 技术支持联络。
Some configured disks have been removed from your system or are no longer accessible.Check your cables and ensure all disks are present.Press any key or ’C’ to continue. 该消息表示已删除某些配置的磁盘。如果没有卸除磁盘,则这些磁盘不再可访问。系统的 SAS 电缆可能连接不正确。请检查电缆连接并修复任何问题。重新启动系统。如果电缆没有问题,请按任意键或 <C> 键以继续。
The battery is currently discharged or disconnected.Verify the connection and allow 30 minutes for charging.If the battery is properly connected and it has not returned to operational state after 30 minutes of charging then contact technical support for additional assistance. 注:
此消息可能会针对没有电池的控制器显示,具体视虚拟磁盘的策略而定。
• 控制器电池缺失,或当前无法访问。如果30分钟后问题仍然存在,请联系戴尔支持。
• 控制器电池已完全放电,需要充电后才能处于活动状态。您必须先为电池充电,然后等待几分钟以待系统检测到该电池。

返回页首


问题2:

一般问题

问题 建议的解决方案
控制器在设备管理器中显示,但带有黄色警示符号(惊叹号)。 重新安装驱动程序。有关重新安装驱动程序的更多信息,请参阅“Driver Installation”(驱动程序安装)。
由于以下原因,在基于介质的Microsoft® Windows Server® 2003或Microsoft Windows® XP安装过程中显示No Hard Drives Found(“未找到硬盘”)消息:
1. 操作系统并未原生提供驱动程序。
2. 虚拟磁盘配置不正确。控制器 BIOS 已禁用。
相应的解决方案为:
1. 按 <F6> 键以在安装期间安装 RAID 设备驱动程序。
2. 进入BIOS配置实用程序以配置虚拟磁盘。进入BIOS配置实用程序以启用BIOS。有关配置虚拟磁盘的信息。

返回页首


问题3:

物理磁盘的相关问题

问题 建议的解决方案
磁盘阵列中的一个物理磁盘处于故障状态。 执行以下操作以解决此问题:
1. 检查底板是否损坏。
2. 检查 SAS 电缆。
3. 重置物理磁盘。
4. 如果问题仍然存在,请与 Dell 技术支持联络。
无法重建容错虚拟磁盘。 更换的磁盘过小或与虚拟磁盘不兼容。请使用具有足够容量、兼容性良好的物理磁盘更换出现故障的磁盘。
一个或多个物理磁盘显示为 Blocked(已阻止)且无法配置。 PERC H700和PERC H800控制器仅支持戴尔认证的SAS和SATA硬盘驱动器(HDD)和固态驱动器(SSD)。如果您所使用的是 Dell 认证的驱动器,但仍然遇到此问题,请执行以下操作:
1. 检查底板是否损坏。
2. 检查 SAS 电缆。
3. 重置物理磁盘。

返回页首


问题4:

配置实用程序错误信息

问题 含义/解决方案
An error occurred while reading non-volatile settings.(读取非易失性设置时出错。) 从固件中读取任一设置时出错。请重置控制器并重新引导。
An error occurred while reading current controller settings.(读取当前控制器设置时出错。) 控制器设置和初始化失败。重新启动系统。
Advanced Device Properties settings not found.(找不到高级设备属性设置。) 从固件中读取重要配置页时失败。重新刷新固件并重新引导。
Error obtaining PHY properties configuration information.(获取 PHY 属性配置信息时出错。) 从固件中读取重要配置页时失败。重新刷新固件并重新引导。
Configuration Utility Options Image checksum error.(配置实用程序选项映像校验错误。) 无法从闪存中正确读取配置实用程序选项。请重新启动并重试。如果问题仍然存在,请重新刷新控制器上的固件。
Can’t load default Configuration Utility options.(无法载入默认配置实用程序选项。) 无法为配置公用程序选项结构分配内存。
An error occurred while writing non-volatile settings.(写入非易失性设置时出错。) 向固件写入一个或多个设置时出错。

返回页首


问题5:

物理磁盘故障和重建

问题 建议的解决方案
多个磁盘同时无法访问后重建物理磁盘。 单个阵列中的多个物理磁盘错误通常表示布线或连接出现故障并且可能涉及数据丢失。您可以在无法同时访问多个物理磁盘后恢复虚拟磁盘。要恢复虚拟磁盘,请执行以下步骤。
警告:
遵循安全预防措施进行操作以避免静电释放。
1. 关闭系统电源,检查电缆连接,然后重置物理磁盘。
2. 确保所有驱动器都位于存储柜中。
3. 打开系统并转入CTRL+R公共程序,然后导入外部配置。提示时按<“F”>导入配置,或按<“C”>进入BIOS配置实用程序,然后导入或清除外部配置。如果虚拟磁盘是冗余的,并且在进入 Offline(脱机)状态之前转换到 Degraded(降级)状态,则在导入配置后自动启动重建操作。如果虚拟磁盘因电缆被拔或电源丢失直接进入Offline(脱机)状态,虚拟磁盘将以其最佳状态导入,且不会重建。您可以使用BIOS配置实用程序或Dell OpenManage Storage Management应用程序手动重建多个物理磁盘。
在其中一个物理磁盘处于故障状态后进行重建。 如果您配置了热备件,PERC H700或PERC H800控制器会自动尝试使用其中一个重建处于故障状态的物理磁盘。如果没有热备件有足够的容量来重建出现故障的物理磁盘,则需要手动重建。重建物理磁盘之前,必须将具有足够存储容量的物理磁盘插入到子系统中。您可以使用BIOS配置实用程序或Dell OpenManage Storage Management应用程序来执行单个物理磁盘的手动重建。
使用全局热备件时,虚拟磁盘在重建期间出现故障。 全局热备件将恢复为Hotspare(热备件)状态,而虚拟磁盘将变为Failed(故障)状态。
使用专用的热备件时,虚拟磁盘在重建期间出现故障。 专用热备件将变为Ready(就绪)状态,而虚拟磁盘将变为Failed(故障)状态。
具有热备用的冗余虚拟磁盘在重建过程中物理磁盘出现故障。 重建完成后,系统会自动启动无法访问的物理磁盘的重建操作。
物理磁盘的重建时间比预期的重建时间长。 处于高负载压力下时,物理磁盘所需的重建时间较长。例如,每五个主机 I/O 操作中有一个是重建 I/O 操作。
当磁盘组中的虚拟磁盘正在进行重建时,无法向该磁盘组中添加第二个虚拟磁盘。 如果虚拟磁盘组中的物理磁盘正在进行重建操作,则固件不允许您使用该磁盘组中的可用空间来创建虚拟磁盘。

返回页首


问题6:

SMART 错误

问题 建议的解决方案
冗余虚拟磁盘中的物理磁盘检测到 SMART 错误。 执行以下步骤:
1. 强制物理磁盘脱机。
注:
如果存在热备件,则强制驱动器脱机后,将使用该热备件开始重建。2. 使用同等或更高容量的新物理磁盘更换执行Replace member(更换成员)操作。Replace Member(更换成员)操作允许您将数据从虚拟磁盘的源物理磁盘复制到不属于虚拟磁盘的目标物理磁盘。
检测到非冗余虚拟磁盘中物理磁盘上的 SMART 错误。 执行以下步骤:
1. 备份数据。
2. 使用Replace Member(更换成员)或设置全局热备件来自动更换磁盘。
3. 使用相等或更高容量的新物理磁盘更换受影响的物理磁盘。
4. 从备份进行还原。
一致性检查 (CC) 期间出现 SMART 错误 指定遇到 SMART 错误时,应如何执行一致性检查操作。
有两个设置,Yes(是)和No(否)。No(否)是默认设置,当遇到第一个错误时允许 CC 继续。Yes(是)设置当遇到第一个错误时停止 CC。CC 期间遇到错误时,会在 Event Log(事件日志)中生成事件。

返回页首


问题7:

更换成员错误

问题 建议的解决方案
A Replace Member(“更换成员”)操作期间源驱动器出现故障。 如果可通过虚拟磁盘中的其他驱动器提供源数据,则会使用其他驱动器中的数据自动在目标驱动器上开始重建。
目标驱动器出现故障。 如果目标驱动器出现故障,则 Replace Member(更换成员)操作将中止。
其他驱动器出现故障。 如果目标驱动器出现故障并且 Replace Member(更换成员)操作中止,但源数据仍然可用,则应继续 Replace Member(更换成员)操作以便 Replace Member(更换成员)

返回页首


问题8.

Linux 操作系统错误

错误消息 建议的解决方案
<日期:时间> <主机名>
kernel: sdb: asking for
cache data failed
<日期:时间> <主机名>
kernel: sdb: assuming
drive cache: write
当 Linux 小型计算机系统接口 (SCSI) 中间层询问物理磁盘高速缓存设置时,将显示此错误消息。由于控制器固件以单个控制器和单个虚拟磁盘为单位来管理虚拟磁盘高速缓存设置,因此固件不对此命令做出响应。Linux SCSI midlayer假定虚拟磁盘的高速缓存策略为Write-Through(直写式)。SDB 是虚拟磁盘的设备节点。对于每个虚拟磁盘,此值会变化。除此消息外,此行为对正常操作没有影响。PERC H700和
I/O吞吐量不受此消息影响。PERC H700和
PERC H800 SAS RAID系统的高速缓存设置保持不变。
Driver does not auto-build into new kernel after customer updates.(客户更新后,驱动程序不会在新内核中自动构建。) 此错误是动态内核模块支持 (DKMS) 的通用问题,适用于所有已启用 DKMS 的驱动程序软件包。当您执行以下步骤时会出现此问题:
1. 安装启用 DKMS 的驱动程序软件包。
2. 运行 up2date 或类似的工具将内核升级为最新版本。
3. 重新引导到新内核。
新内核中运行的驱动程序是新内核中的本机驱动程序。您先前在新内核中安装的驱动程序软件包在新内核中不会生效。执行以下步骤来在新内核中自动构建驱动程序:
1. 键入:dkms build -m <模块名称> -v <模块版本> -k <内核版本>
2. 键入:dkms install -m <模块名称> -v <模块版本> -k <内核版本>
键入以下命令,检查是否已在新内核(DKMS)中成功安装驱动程序
显示以下详细信息:<驱动程序名称>, <驱动程序斑斑>, <新内核版本>: installed
smartd[smartd[2338] Device: /dev/sda, Bad IEC (SMART) mode page, err=-5, skip device 这是一个已知的问题。通过用户应用程序输入了一个不支持的命令。用户应用程序尝试将命令描述符块指向 RAID 卷。
该错误消息不影响功能性。
smartd[2338] Unable to register SCSI device /dev/sda at line 1 of file /etc/smartd.conf 控制器上的固件支持 Mode Sense/Select(模式感知/选择)命令。但是,
Linux内核daemon将命令发到虚拟磁盘,而不是驱动程序IOCTL节点。不支持此操作。

返回页首



问题9:

驱动器托盘状态 LED

物理磁盘托盘上的 LED 表示每个物理磁盘的状态。机柜中的每个驱动器托盘都有两个LED:一个活动LED(绿色)和一个状态LED(双色,绿色/琥珀色),如下所示。只要访问驱动器,活动 LED 就会闪烁。
指示灯 说明
熄灭 插槽为空,系统尚未发现驱动器
稳定绿色 驱动器处于联机状态。
呈绿色闪烁(250 毫秒 [ms]) 正在识别驱动器或正在准备删除驱动器。
闪烁绿色(亮起 400 毫秒,熄灭 100 毫秒) 驱动器正在重建或正在进行Replace Member(更换成员)操作。
呈琥珀色闪烁 (125 ms) 驱动器发生故障。
呈绿色/琥珀色闪烁(亮起绿色500毫秒/琥珀色500毫秒,熄灭1000毫秒) 驱动器报告预测性故障。
呈绿色闪烁(亮起绿色3000毫秒,熄灭3000毫秒,亮起琥珀色3000毫秒,熄灭3000毫秒) 由于用户请求或其它非故障情况,驱动器正在停止旋转。

 

发表评论