如果您正在运行 Linux 服务器并且重视正常运行时间和稳定性,那么本服务器维护指南将帮助您保持正常运行。出于各种原因,最好定期进行维护和检查。作为系统管理员并发现本可以很容易地防止导致停机的问题并不有趣。
Linux 服务器维护指南
- 检查磁盘使用情况: 导致停机和问题的最常见的事情之一是文件系统填满并达到 100% 的使用率。使用 80% 通常是警告,使用 90% 是关键。为软件包、数据库、站点文件、日志等分配足够的空间非常重要。如果文件系统变得太满,您将不得不在为时已晚和服务之前争先恐后地寻找要删除的文件和日志开始挂起。要检查您的文件系统使用情况,您可以使用“df”命令,例如:df -h 将以人类可读的格式显示使用情况。
- 检查 RAID 阵列: 检查 RAID 阵列的状态很重要。如果阵列中缺少成员磁盘,则应尽快更换它。根据您的 RAID 控制器,您可以下载和使用单独的实用程序。例如:Adaptec 控制器将使用 arcconf,而 LSI 控制器可能需要 MegaCLI 或 tw_cli,具体取决于型号。最好参考制造商的文档以获取指南。
- 检查存储设备智能统计数据: 密切关注存储设备的智能统计数据可以警告您发生故障前。重新分配的、当前未决或不可纠正的部门通常会引起关注。数字越高,您应该越早更换磁盘。通电时间也可能需要寻找。我们更换了超过 40,000 通电时间的驱动器。在 Linux 服务器上,您可以使用“smartctl”命令运行测试并检查统计信息。可以在此处找到有关 smartctl 的更多信息。
- 验证备份是否正常工作: 检查备份是否正常运行是一种很好的做法。您还应该经常测试备份的恢复,并验证它们在测试环境中是否按预期工作。
- 确保应用安全补丁: 修补在您的服务器上运行的软件中的漏洞是重中之重。最好订阅您的发行版安全公告邮件列表,以便在您需要修补时收到通知。您可以使用操作系统包管理器(例如 yum 或 apt)来安装和升级新包。
- 检查远程管理: 根据您的服务器制造商,IPMI、iLO 和 iDRAC 等远程管理工具已被证明是有用的。当您需要使用它们时,您应该为它们做好准备。当无法通过 SSH 连接到服务器时,远程控制台已经保存了很多。
- 检查硬件问题:查看 syslog 和 IPMI 事件日志之类的内容可以让您知道何时出现问题。内存错误、过热和电源故障是需要快速响应的一些示例。根据损坏的硬件组件,记录的条目会有所不同。
- 检查软件错误: 应定期监控软件错误日志和系统日志。软件有时会达到配置的限制,当内存不足时会激活 OOM 杀手。有时这可能会被忽视。根据您在哪里找到这些日志的软件和配置的日志文件输出会有所不同。但是,大多数日志都可以在 /var/log 目录中找到。
- 查看访问权限: 检查哪些用户和个人应有权访问服务器并根据需要修改该访问权限。可以在这里找到您应该查看的文件的一个很好的概述。
- 使用强密码: 无论是随机生成还是使用“diceware”方法制作的强密码都是必须的。不要缩短密码并使用低熵组合。