Більшість власників бізнесу дізнаються про падіння сайту або сервера від клієнтів — через скарги в чаті, зниження продажів або дзвінок у поганий час. Це не просто незручно — це пряме репутаційне і фінансове збиток. Правильно налаштований моніторинг дозволяє отримати сповіщення раніше, ніж перший клієнт помітить проблему. Розберемо, що і як моніторити.

Що потрібно моніторити

Системні ресурси

  • CPU — поріг попередження: 70%, критичний: 90%. Постійне навантаження понад 80% сигналізує про необхідність масштабування або оптимізації.

  • RAM — поріг попередження: 75%, критичний: 90%. Пам'ять, що добирається до 100%, призводить до swap, різкого сповільнення і краша процесів.

  • Диск — поріг попередження: 75%, критичний: 85%. Повний диск — це зупинка бази даних, втрата логів і непередбачувані збої. Моніторте також IOPS і швидкість запису.

  • Мережа — пропускна здатність, кількість з'єднань, packet loss, latency. Різкий сплеск трафіку може означати DDoS-атаку або проблему з додатком.

Сервіси та застосунки

  • Доступність HTTP/HTTPS — статус 200, час відповіді

  • Стан бази даних — MySQL/PostgreSQL connections, query time, replication lag

  • Черги (Redis, RabbitMQ) — довжина черги, кількість споживачів

  • SSL-сертифікат — дата закінчення (сповіщення за 30 та 7 днів)

  • Процеси — nginx, php-fpm, mysql мають бути запущені

Бізнес-метрики

Найпросунутіший рівень — моніторинг не лише технічних метрик, а й бізнесових: кількість замовлень за останні 15 хвилин, кількість реєстрацій, обсяг транзакцій. Різке падіння цих показників може свідчити про проблему навіть при зелених технічних метриках.

Інструменти моніторингу

Zabbix: корпоративний стандарт

Zabbix — безкоштовна open-source платформа для моніторингу інфраструктури. Підтримує тисячі метрик «з коробки», має потужний механізм тригерів і сповіщень, готові шаблони для Linux, Windows, MySQL, Nginx, Apache та сотень інших систем.

  • Переваги: безкоштовний, потужний, зберігає дані локально, гнучкий

  • Мінуси: складніше у налаштуванні, потребує окремого сервера

  • Підходить для: компаній із 5+ серверами, вимогами до зберігання даних в Україні

Prometheus + Grafana: сучасний стек

Prometheus збирає метрики через pull-модель (сам опитує агентів), Grafana відображає їх у красивих дашбордах. Стандарт де-факто для хмарних і контейнеризованих середовищ (Kubernetes).

  • Переваги: відмінна інтеграція з Docker/Kubernetes, потужна мова запитів PromQL, велика спільнота

  • Мінуси: складніше зберігати довгострокові дані (потрібен Thanos або VictoriaMetrics)

  • Підходить для: DevOps-команд, мікросервісних архітектур, cloud-native проєктів

UptimeRobot / Better Uptime: зовнішній моніторинг доступності

Ці сервіси перевіряють доступність вашого сайту кожні 1–5 хвилин із різних точок світу. Головна перевага — зовнішній моніторинг: якщо ваш сервер недоступний і Zabbix теж «ліг» разом із ним, UptimeRobot все одно надішле сповіщення.

  • UptimeRobot — безкоштовний план до 50 моніторів, перевірка кожні 5 хвилин

  • Better Uptime — красивіший інтерфейс, сторінки статусу для клієнтів, on-call розклад

  • Uptime Kuma — self-hosted альтернатива, безкоштовна, розгортається на власному сервері

Алертинг: як правильно сповіщати

Канали сповіщень

Telegram — найзручніший для команди. Бот надсилає форматовані повідомлення з деталями інциденту, посиланням на графік і кнопками підтвердження. Налаштовується через Telegram Bot API прямо в Zabbix або Prometheus Alertmanager.

Email — для некритичних сповіщень і звітів. Не підходить як основний канал для P1-інцидентів — email може затриматися або потрапити в спам.

SMS / телефонний дзвінок — для критичних нічних інцидентів, коли Telegram може бути пропущений. Інструменти: PagerDuty, OpsGenie, або проста інтеграція з SMS-шлюзом.

Правила хорошого алертингу

  • Без alert fatigue — якщо сповіщень забагато, команда починає їх ігнорувати. Налаштовуйте пороги так, щоб алерт означав реальну дію

  • Ескалація — якщо черговий не відреагував за 10 хвилин, сповіщення іде до наступного в черзі

  • Контекст у сповіщенні — «Диск /var/lib/mysql 89% на db01.example.com» набагато кориснішe за «Disk alert»

  • Година тиші — придушення планових сповіщень під час технічного обслуговування

Дашборди: бачити картину цілком

Хороший дашборд дає відповідь на питання «все добре?» за 3 секунди. Мінімальний набір панелей: uptime по критичних сервісах, CPU/RAM/Disk по всіх серверах у вигляді теплової карти, час відповіді API, статистика помилок за останні 24 години.

Моніторинг — це не розкіш, а страховка. Вартість якісної системи моніторингу — 500–3 000 грн/місяць. Вартість однієї години простою e-commerce у п'ятницю ввечері — набагато більше.