返回 Storage Management 目录页

故障排除

Dell OpenManage™ Server Administrator Storage Management 用户指南

  常见故障排除步骤

  虚拟磁盘故障排除

  具体的问题情况和解决方案

此部分包括针对常见情况和具体问题的故障排除步骤。

常见故障排除步骤

此部分介绍在故障排除过程中可以使用的命令和步骤。 涉及的主题包括:

电缆连接正确

验证电源线和适配器电缆连接是否正确。 如果系统在对特定虚拟磁盘或非 RAID 物理磁盘执行读和写操作时遇到问题(例如,如果系统挂起),则应确定连接到相应机柜或背板的电缆连接牢固。 如果连接牢固但是问题依然存在,可能需要更换电缆。 另请参阅“隔离硬件问题”

在 SAS 控制器上,应验证电缆配置有效。 请参阅 SAS 硬件说明文件了解有效电缆配置。 如果电缆配置无效,可能会收到警报“2182”“2356”。

系统要求

确保系统符合所有系统要求。 特别要验证系统上是否安装了正确级别的固件和驱动程序。 有关驱动程序和固件的详情,请参阅“驱动程序和固件”

驱动程序和固件

Storage Management 使用支持的控制器固件和驱动程序检测。 为了正常工作,控制器必须装有所需最低版本的固件和驱动程序。 最新版本可以从 Dell™ Support 站点 support.dell.com 获得

注:可以通过选择树形视图中的“Storage”(存储)对象并单击“Information/Configuration”(信息/配置)选项卡来验证安装的固件和驱动程序。 还可以检查警报日志查看是否有与不支持的固件和驱动程序版本相关的警报。

同时还建议定期获取并应用最新的 Dell PowerEdge™ 服务器系统 BIOS,以获得最新的性能提高。 请参阅 Dell PowerEdge 系统说明文件了解详情。

隔离硬件问题

如果收到与硬件设备有关的“超时”警报,或者怀疑某个连接到系统的设备出现故障,则执行以下步骤来确认是否有问题:

重新扫描以更新 SCSI 控制器上的信息

在 SCSI 控制器上,使用“Rescan”(重新扫描)控制器任务来更新控制器和所连设备的信息。 如果控制器连有多个设备,此操作可能会需要几分钟。

如果“Rescan”(重新扫描)并没有正确更新磁盘信息,则可能需要重新引导系统。

更换故障磁盘

可能需要在以下情况更换故障磁盘:

更换属于冗余虚拟磁盘的故障磁盘

如果故障磁盘是冗余虚拟磁盘的一部分,则磁盘故障不应导致数据遗失。 不过,应该立即更换故障磁盘,因为其它磁盘再发生故障就会导致数据遗失。

如果冗余虚拟磁盘有一个分配的热备份,则故障磁盘的数据会重建到热备份上。 重建之后,原来的热备份将作为普通物理磁盘工作,并且虚拟磁盘也就没有了热备份。 在这种情况下,应该更换故障磁盘并将这个更换的磁盘作为热备份。

注:如果冗余虚拟磁盘未分配热备份,则按照“更换收到 SMART 警报的物理磁盘”中所述的步骤更换故障磁盘。

更换磁盘:

  1. 卸下故障磁盘。

  2. 插入新磁盘。 确保新磁盘与所更换的磁盘容量相同或更大。 (在有些控制器上,如果插入更大的磁盘,可能无法使用多余的磁盘空间。 请参阅“PERC 3/SC、3/DCL、3/DC、3/QC、4/SC、4/DC、4e/DC、4/Di、4e/Si、4e/Di、CERC ATA100/4ch、PERC 5/E 和 PERC 5/i 以及 SAS 5/iR 控制器的虚拟磁盘注意事项”了解详情。

重建会自动启动,因为该虚拟磁盘是冗余的。

分配热备份:

如果虚拟磁盘有一个分配的热备份,则故障磁盘的数据可能已经重建到热备份上。 在这种情况下,需要分配一个新的热备份。 请参阅“分配和取消专用热备份”“分配和取消全局热备份”了解详情。

更换属于非冗余虚拟磁盘的故障物理磁盘

如果故障物理磁盘是非冗余虚拟磁盘(比如 RAID 0)的一部分,则一个物理磁盘的故障将会导致整个虚拟磁盘发生故障。 要继续运行,需要验证最后一次备份的时间,以及自从该时间以来是否有新数据写入虚拟磁盘。

如果最近进行过备份,并且磁盘上没有可能遗失的新数据,则可以从备份进行恢复。

注:如果故障磁盘连接到 PERC 3/SC、3/DCL、3/DC、3/QC、4/SC、4/DC、4e/DC、4/Di 或 CERC ATA100/4ch 控制器,则在继续以下步骤之前可以尝试使用“在所选控制器上使用物理磁盘联机命令”中的步骤来恢复磁盘数据。

执行以下操作:

  1. 删除当前处在故障状态的虚拟磁盘。

  2. 卸下故障物理磁盘。

  3. 插入新物理磁盘。

  4. 创建新虚拟磁盘。

  5. 从备份恢复。

在所选控制器上使用物理磁盘联机命令

用户控制器是否支持这种功能? 请参阅“附录:支持的功能”。

如果没有合适的备份,且故障磁盘是支持“Online”(联机)物理磁盘任务的控制器上虚拟磁盘的一部分,则可以通过从故障磁盘的下拉任务菜单选择“Online”(联机)来尝试检索数据。

“Online”(联机)命令会尝试强制故障磁盘恢复到“Online”(联机)状态。 如果可以强制磁盘恢复到“Online”(联机)状态,就有可能恢复各个文件。 可以恢复的数据量取决于磁盘损坏的程度。 只有在磁盘损坏部分较少时,文件恢复才有可能。

不能保证使用这种方法可以恢复所有数据。 强制执行的“Online”(联机)并不会修复故障磁盘。 不应再试图将新数据写入该虚拟磁盘。

从磁盘检索到任何可用的数据后,按照前面“更换属于冗余虚拟磁盘的故障磁盘”“更换属于非冗余虚拟磁盘的故障物理磁盘”中说明的步骤更换故障磁盘。

更换 CERC SATA1.5/2s 上 RAID 1 中的故障物理磁盘

在 CERC SATA1.5/2s 控制器上,当用户更换属于 RAID 1 虚拟磁盘一部分的故障物理磁盘时,重建可能不会自动开始。 在此情况下,请使用以下步骤更换故障物理磁盘并重建冗余数据。

  1. 关闭系统。

  2. 断开 RAID 1 虚拟磁盘内故障物理磁盘上的 SATA 电缆连接。

  3. 使用格式化的物理磁盘更换故障物理磁盘。 用户可以使用控制器 BIOS 中的“Disk Utilities”(磁盘公用程序)格式化物理磁盘。 (用户可能不需要格式化整个物理磁盘。 格式化 1% 的磁盘可能足够了。)

  4. 重新引导系统。 重新引导后,RAID 1 虚拟磁盘应显示失败的冗余状态。

  5. 展开树形视图中的控制器对象,然后选择“Physical Disks”(物理磁盘)对象。

  6. 为用户添加的物理磁盘执行“Rebuild”(重建)任务。

卸下错误的物理磁盘后的恢复

如果错卸的物理磁盘是具有热备份冗余虚拟磁盘的一部分,则虚拟磁盘重建会立即自动开始,或等待接收写请求。 重建完成之后,虚拟磁盘将不再有热备份,因为数据已经重建到那个以前用作热备份的磁盘上。 在这种情况下,应该分配一个新的热备份。

如果卸下的物理磁盘是没有热备份的冗余虚拟磁盘的一部分,则更换该物理磁盘并执行重建。

请参阅以下部分了解有关重建物理磁盘和分配热备份的信息:

通过闪烁准备卸下的物理磁盘的 LED 指示灯,可以避免卸下错误的物理磁盘。 请参阅“闪烁和取消闪烁”了解有关闪烁 LED 指示灯的信息。

解决 Microsoft® Windows® 升级问题

如果升级服务器上的 Microsoft Windows 操作系统,会发现 Storage Management 在升级后不再工作。 安装过程会在服务器上安装特定于操作系统的文件和注册表条目。 因此,更改操作系统会禁用 Storage Management。

为避免此问题,应在升级前卸载 Storage Management。 如果在没有卸载 Storage Management 时已经进行了升级,则应该在升级后卸载 Storage Management。

卸载 Storage Management 并完成升级后,使用 Storage Management 安装介质重新安装 Storage Management。 可以从 Dell Support 站点 support.dell.com 下载 Storage Management。

虚拟磁盘故障排除

以下部分说明了虚拟磁盘的故障排除步骤。

无法重建

在以下情况下无法重建:

带错完成重建

此部分适用于 PERC 3/SC、3/DCL、3/DC、3/QC、4/SC、4/DC、4e/DC、4/Di、4e/Si、4e/Di 和 CERC ATA100/4ch 控制器

在有些情况下,重建可能会成功完成,但同时也会报错。 在含有冗余(奇偶校验)信息的磁盘的某部分损坏时可能会出现这种情况。 重建过程可以从磁盘的正常部分而不是损坏部分恢复数据。

当重建可恢复除磁盘受损部分数据以外的所有数据时,其将指示成功完成,同时生成警报 “2163”。 重建还可能报告检测关键字错误。 在这种情况下,采取以下操作尽可能恢复最多的数据:

  1. 将降级的虚拟磁盘备份到全新的(未用的)磁带。

  2. 在已经备份到磁带的虚拟磁盘上执行“检查一致性”

  3. 从磁带将虚拟磁盘恢复到运行良好的物理磁盘。

不能创建虚拟磁盘

可能正在尝试控制器不支持的一种 RAID 配置。 检查以下方面:

最小容量虚拟磁盘在 Windows 磁盘管理中不可见

如果在 Storage Management 中使用允许的最小容量创建了一个虚拟磁盘,该虚拟磁盘有可能即使在初始化以后都无法在 Windows 磁盘管理中可见。 这是因为 Windows 磁盘管理只有在虚拟磁盘是动态时才能识别超小的虚拟磁盘。 通常建议在使用 Storage Management 时创建较大容量的虚拟磁盘。

Linux 上的虚拟磁盘故障

在有些版本的 Linux 操作系统上,虚拟磁盘的大小限制为 1TB。 如果创建超过 1TB 限制的虚拟磁盘,系统可能会遇到以下行为:

如果创建了超过 1TB 限制的虚拟磁盘,应执行以下操作:

  1. 备份数据。

  2. 删除虚拟磁盘。

  3. 创建一个或多个小于 1TB 的虚拟磁盘。

  4. 从备份恢复数据。

Linux 操作系统是否限制虚拟磁盘大小为 1TB ,具体取决于操作系统的版本,以及用户实施的任何更新或修改。 请参阅操作系统文档了解详细信息。

为冗余和非冗余虚拟磁盘使用相同物理磁盘的相关问题

创建虚拟磁盘时,应避免为冗余和非冗余虚拟磁盘使用相同的物理磁盘。 此建议适用于所有控制器。 为冗余和非冗余虚拟磁盘使用相同的物理磁盘,会导致包括数据丢失在内的不可预料情况。

注:SAS 控制器不允许在同一组物理磁盘上创建冗余和非冗余虚拟磁盘。

物理磁盘由冗余和非冗余虚拟磁盘共享时 PERC 3/Si、3/Di、CERC SATA1.5/6ch 和 CERC SATA1.5/2s 控制器的注意事项

本节介绍为冗余和非冗余虚拟磁盘使用相同的物理磁盘时 PERC 3/Si、3/Di、CERC SATA1.5/6ch 和 CERC SATA1.5/2s 控制器上可能会出现的情况。 在这种配置中,物理磁盘的故障或删除会造成以下情况:

解决方案: 出现这种情况是因为虚拟磁盘为非冗余的。 在这种情况下,单个物理磁盘的故障或删除会造成整个虚拟磁盘故障,并且只有在具有备份时才有可能恢复数据。

解决方案: 这种情况也会出现。 如果具有热备份来重建故障或删除的磁盘,数据就可以恢复。

解决方案: 执行“重新扫描控制器”。 重新扫描完成后,选择各个“Offline”(脱机)的物理磁盘并执行“卸下死段”任务。 必须先卸下死段,物理磁盘才能返回联机。 死段是由于共享物理磁盘发生故障或被删除而造成的。

注:建议避免为冗余和非冗余虚拟磁盘使用相同的物理磁盘。

具体的问题情况和解决方案

此部分包括故障排除方面的更多内容。 主题包括:

物理磁盘脱机或显示错误状况

如果物理磁盘已损坏、脱机或者是某个已经删除或初始化的虚拟磁盘的成员,就可能显示错误状况。 以下操作或许会解决这种错误情况:

在群集配置中重建时,某个磁盘被标记为故障

如果群集中的一个系统尝试重建故障磁盘,但是重建失败,则另一个系统就会接管重建工作。 在这种情况下,用户可能会注意到重建的磁盘在这两个系统上继续被标记为失败,即使第二个系统已经重建成功。 要解决这个问题,在重建成功完成后在两个系统上都执行一次重新扫描。

执行准备卸下后,PERC 4/Di 控制器上的磁盘不返回联机状态

在 PERC 4/Di 控制器所连的物理磁盘上执行“Prepare to Remove”(准备卸下)命令后,可能会发现该磁盘没有显示在 Storage Management 树形视图中,即使在执行重新扫描或重新引导后也是如此。

在这种情况下,执行以下操作以便在 Storage Management 树形视图中重新显示该磁盘:

  1. 手动卸下并随后更换物理磁盘。

  2. 重新扫描控制器或重新引导系统。

接收带有“更换”、“探测”或“介质”错误的“坏块”警报

在物理磁盘的某部分损坏后,会生成以下警报或事件:

当控制器执行某个要求扫描磁盘的操作时,就会发现损坏。 以下是会产生这些警报的操作实例:

如果在执行重建或在虚拟磁盘处于降级状态期间收到从 2146 到 2150 的警报,那么在没有从备份恢复的情况下将无法从受损磁盘恢复数据。 如果在重建以外的情况下收到从 2146 到 2150 的警报,则数据恢复是可能的。 以下将介绍各个情况。

在执行重建或在虚拟磁盘处于降级状态期间收到从 2146 到 2150 的警报

如果在执行重建或在虚拟磁盘处于降级状态期间收到从 2146 到 2150 的警报,则执行以下操作:

  1. 更换受损物理磁盘。

  2. 创建新虚拟磁盘并允许虚拟磁盘完全重新同步。 在重新同步进行期间,虚拟磁盘的状况将是“Resynching”(正在重新同步)

  3. 从备份将数据恢复到虚拟磁盘。

在执行输入/输出、一致性检查、格式化或其它操作期间收到从 2146 到 2150 的警报

如果在执行重建以外的操作时收到从 2146 到 2150 的警报,则应立即更换受损磁盘以避免数据遗失。

执行以下操作:

  1. 将降级的虚拟磁盘备份到全新的(未用的)磁带。

  2. 更换受损磁盘。

  3. 执行重建。

读写操作遇到问题

如果系统挂起、超时或遇到其它读写操作问题,则可能是控制器电缆或设备有问题。 有关详情,请参阅“电缆连接正确”“隔离硬件问题”

冗余信道失败后输入/输出停止

如果在 PERC 3/SC、3/DCL、3/DC、3/QC、4/SC、4/DC、4e/DC 或 4/Di 控制器上实现了信道冗余,一个信道发生故障会造成信道冗余配置中的其它信道停止输入/输出。 有关此问题的解决方案,请参阅“PERC 3/DCL、3/DC、3/QC、4/DC、4e/DC、4/Di 和 4e/Di 控制器上的信道冗余”

没有显示任务菜单选项

可能会注意到任务菜单并不总显示相同的任务选项。 这是因为 Storage Management 只显示那些在显示菜单时有效的任务。 某些任务只对特定类型的对象或者只在特定时候有效。 例如,“Check Consistency”(检查一致性)任务只能在冗余虚拟磁盘上执行。 同样,如果磁盘已经脱机,那么“Offline”(脱机)任务选项就不会显示。

任务不能在某些时候运行还有其它一些原因。 例如,对象上已经在运行一个任务,必须等待该任务完成后才能运行其它任务。

重新引导期间“损坏的磁盘或驱动器”信息建议运行自动检查

允许自动检查运行,但是不用担心该信息。 自动检查结束后将完成重新引导。 根据系统的大小,此过程可能需要大约十分钟。

Windows 休眠后的错误状况和错误信息

激活 Windows 休眠功能可能会造成 Storage Management 显示错误的状况信息和错误信息。 当 Windows 操作系统从休眠中恢复后,此问题可自行解决。

无法登录到远程系统

如果输入的用户名和密码与远程计算机上管理员的帐户不匹配,或者输错了登录信息,就不能进行访问。 远程系统也可能没有开机或者存在网络问题。

无法连接到远程 Windows Server™ 2003 系统

连接到远程 Windows Server 2003 系统时,必须使用一个具有管理员权限的帐户登录远程系统。 默认情况下,Windows Server 2003 不允许匿名(空)连接访问 SAM 用户帐户。 因此,如果尝试使用具有空白或“空”密码的帐户来进行连接,连接就会失败。

在 Mozilla 浏览器中重新配置虚拟磁盘显示故障

使用 Mozilla 浏览器重新配置虚拟磁盘时,可能会显示以下错误信息:

Although this page is encrypted, the information you have entered is to be sent over an unencrypted connection and could easily be read by a third party.

(尽管此页已加密,但是用户输入的信息会通过无加密连接发送并且可能很容易被第三方看到。)

可以通过更改 Mozilla 浏览器设置来禁用此错误信息。 要禁用此错误信息:

  1. 选择“Edit”(编辑)和“Preferences”(首选项)。

  2. 单击“Privacy and Security”(隐私和安全性)。

  3. 单击 SSL。

  4. 取消选中“Sending form data from an unencrypted page to an unencrypted page”(将未加密页表单数据发送到未加密页)选项。

连接器下显示的物理磁盘不是机柜树对象

Storage Management 会以一定的频率间隔轮询物理磁盘状况。 当物理磁盘位于机柜中时,Storage Management 会使用 SCSI 机柜处理器 (SEP) 报告的数据来确定物理磁盘的状况。 如果 SEP 不运作,Storage Management 仍能轮询物理磁盘的状况,但是 Storage Management 将不能识别出物理磁盘位于机柜中。 在这种情况下,Storage Management 会在树形视图中连接器对象的正下方显示物理磁盘,而不是机柜对象下。

通过重新启动 Server Administrator 服务或重新引导系统可以解决此问题。 有关重新启动 Server Administrator 服务的详情,请参阅《Dell OpenManage™ Server Administrator 用户指南》。


返回 Storage Management 目录页