Изменения: - Добавлена секция rule_files в prometheus.yml - Расширены правила алертинга с 6 до 18 алертов - Снижены пороги для более раннего обнаружения проблем: * CPU: warning 70% (было 80%), critical 85% (было 90%) * Memory: warning 80% (было 85%), critical 90% * Disk: warning 80%, critical 90% (было 90%) * ServiceDown: 30s (было 1m) - Добавлены новые алерты: * ContainerDown - падение контейнеров * ContainerHighMemory/CPU - перегрузка контейнеров * WebsiteDown/Slow - проблемы с веб-сервисами * SSLCertificateExpiring - истечение SSL сертификатов * PostgreSQLDown/Slow - проблемы с БД Результат: - 3 группы алертов: infrastructure (12), webservices (4), database (3) - Alertmanager настроен на Slack #server-status - Каждый сбой будет детектироваться в течение 30s-3m 🤖 Generated with [Claude Code](https://claude.com/claude-code) Co-Authored-By: Claude <noreply@anthropic.com> |
||
|---|---|---|
| .. | ||
| alerts | ||
| prometheus.yml | ||