购买
下载掌阅APP,畅读海量书库
立即打开
畅读海量书库
扫码下载掌阅APP

2.3 AIX系统错误处理

在进行了系统设备配置并投入使用后,用户可能会碰到操作系统级的错误——很少能有系统完整无误地连续运行若干年!为了使用户可以解决问题,AIX采用了错误日志的方式来记录错误。AIX错误日志中记录着系统硬件和软件故障,这些日志信息将方便于故障的分析和检测,以及错误修正操作。

在AIX运行状态下,会有一个错误日志守护进程errdemon,我们可以通过下列命令进行查看:

errdemon守护进程不间断地读取/dev/error文件中的新内容,收集来自相关系统组件的附加信息,形成错误日志数据。该守护进程在系统启动时自动启动。如果该进程不处于运行状态,则最好重新启动该进程:

AIX中的错误日志存储在 /var/adm/ras路径下,该目录中errlog文件即为系统错误日志。可以使用errdemon命令来查看关于错误日志文件的最大尺寸:

为了防止错误日志过大,可以设置错误日志文件的最大尺寸,例如可以设置errlog最大为 2MB:

查看错误日志可以通过errpt命令完成。该命令以错误报告的方式输出错误日志中的信息,常用的使用方式如下。

■ -a:以详细方式显示错误日志中的错误信息。

■ -j ErrorID[,ErrorID]:只显示错误标识符(ErrorID)变量指定的错误日志信息。

■ -s StartDate:显示指定日期后面的记录,其中StartDate为一个指定日期,形式为 mmddhhmmyy(月、日、小时、分、年)。

下面的示例以汇总的方式显示了完整的错误报告,使用errpt命令操作如下,结果如图2-6 所示。

图2-6 显示AIX当前的错误,硬件错误可能会导致Oracle错误

从图2-6 中可以看到系统中当前存在的错误。错误可能有如下几种情况。

◆ Class列,表示错误的一般来源。可能的错误类型如下。

■ H:硬件;

■ S:软件;

■ O:信息性消息,使用errloger命令创建;

■ U:未确定。

◆ Type列,表示发生错误的严重程度,可能的错误类型如下。

■ PEND:设备可用性下降严重;

■ PERF:设备性能已不可接受;

■ PERM:出现了不可恢复的情况,通常是最严重的错误,可能出现了硬件设备或者软件模块的故障;

■ TEMP:曾经出现了多次不成功的尝试;

■ UNKN:无法确定错误的严重程度;

■ INFO:输出信息,不是错误。

一般而言,如下情况应该被加以特别关注。

■ 错误类别为H,错误类型值为PERM,则可能说明系统碰到了硬件问题且无法对其进行恢复。

■ 错误类别为H,错误类型值为PEND,则说明系统检测到大量错误,该硬件可靠性较低。

■ 如果错误类别值为S,错误类型值为PERM,则可能说明系统碰到软件问题且不可恢复。

■ 如果错误类别值为S,错误类型值为TEMP,则说明系统碰到软件相关问题但系统能够进行恢复。

下面的示例摘要显示了系统中的错误信息,使用errpt命令操作如下:

下面的示例详细显示了系统中错误信息为 864D2CE3 的错误细节,使用errpt –aj命令操作如下:

上面的结果显示了在AIX中使用HACMP遇到的网络接口模块的错误。

下面的示例以汇总的形式显示了某个时间范围内(时间格式为mmddhhmmyy)错误信息的完整报告,使用errpt命令操作如下:

为了防止错误日志过大,AIX提供了errclear命令来删除错误日志中的信息。在下面的示例中,错误日志数据将被清除,仅保留近七天的数据: TYGUSXYceAR8WVewdgsErWirhIBiDt0DnRhteosaNUWaLTjA7yCvCWVVAHvAJIaZ

点击中间区域
呼出菜单
上一章
目录
下一章
×