feat: настроен полный алертинг Prometheus с 18 правилами
Изменения:
- Добавлена секция rule_files в prometheus.yml
- Расширены правила алертинга с 6 до 18 алертов
- Снижены пороги для более раннего обнаружения проблем:
* CPU: warning 70% (было 80%), critical 85% (было 90%)
* Memory: warning 80% (было 85%), critical 90%
* Disk: warning 80%, critical 90% (было 90%)
* ServiceDown: 30s (было 1m)
- Добавлены новые алерты:
* ContainerDown - падение контейнеров
* ContainerHighMemory/CPU - перегрузка контейнеров
* WebsiteDown/Slow - проблемы с веб-сервисами
* SSLCertificateExpiring - истечение SSL сертификатов
* PostgreSQLDown/Slow - проблемы с БД
Результат:
- 3 группы алертов: infrastructure (12), webservices (4), database (3)
- Alertmanager настроен на Slack #server-status
- Каждый сбой будет детектироваться в течение 30s-3m
🤖 Generated with [Claude Code](https://claude.com/claude-code)
Co-Authored-By: Claude <noreply@anthropic.com>