增加服务正常运行时间监控

 原创    2024-06-05

受限于服务器的硬件性能,本博客时不时的就要被迫下线,非常有必要增加服务正常运行时间监控。当故障发生时,使我能及时收到报警信息并采取恢复措施。我需要一个接入简单、无需维护且免费的服务正常运行时间监控方案。

宕机成为常态

说出来不怕笑话,本博客因为服务器故障原因光上个月就掉线过不下五次。故障是毫无挽救可能的,全面的、彻底的瘫痪,唯有重启服务器才能解决问题。尽管我已经采取了尽我所能的一切优化手段,停掉所有不那么必须的服务,试图使这台耗费我每年 99 元钱的服务器能够避免宕机,但依旧于事无补。现在,服务器宕机已然成为常态。

目前的状态,我不可能增加一些投入来扩充服务器资源,但增加服务可用性监控还是有必要做一下的。当发生故障时,能收到报警信息,然后我手动重启下服务器,这大概是目前最优的解决办法了。

需要一个什么样的监控方案

我需要的是一个使用足够简单的服务,它应该满足以下两点:

接入简单 无需维护

服务可用性监控,其核心能力其实很简单:定时任务不断的访问服务地址,当出现访问异常的情况时发送报警。完全可以费点精力利用类似 Cloudflare Workers 这类的 SaaS 方案定制一个监控服务,但真的没必要。我需要一个拿来即用的,无需后续维护的成熟产品。

免费的

产品最好是免费的,即使收费也应该有免费的套餐可供使用。现在的情况,我已经不愿意花钱升级服务器了,当然不会在这件事上花钱。

Better Stack Uptime monitoring

这类产品真的太多了,随便一搜就有一大堆,也懒得对比了,直接选择使用了 Better Stack 的 Uptime monitoring 服务。其免费套餐可以增加 10 个监控 URL,最短监控周期为 3 分钟,发生故障时会发送报警邮件。如果需要监控更多 URL 或添加报警电话短信等服务则需要升级为付费套餐。能免费使用的功能比较少,但这对我来说已经足够了。

在添加监控 URL 后,能看到下面的监控详情页面。详情页面中展示了不同的服务节点周期访问监控 URL 的耗时信息,这些节点包括北美、欧洲、亚洲等。

Better Stack

同时还提供有 Status pages 页面,用于查看服务的整体运行情况。发生故障时,Better Stack 会向账户绑定的邮箱发送邮件,在手机邮箱客户端登录邮箱账号并开启消息通知。

以上,简单可用的监控服务就算部署完成了。

接下来,安心把精力放在重要的事情上吧,再也不用主动查看服务是否正常了。

相关文章:

Nginx 目录服务和反向代理的 web 鉴权认证
阿里云云盘扩容笔记
我卖掉了持有 7 年的域名
Linux后台任务执行
简单的反爬虫手段

发表留言

您的电子邮箱地址不会被公开,必填项已用*标注。发布的留言可能不会立即公开展示,请耐心等待审核通过。