OVHserver/opt
SamoilenkoVadym 1a0001202b feat: настроен полный алертинг Prometheus с 18 правилами
Изменения:
- Добавлена секция rule_files в prometheus.yml
- Расширены правила алертинга с 6 до 18 алертов
- Снижены пороги для более раннего обнаружения проблем:
  * CPU: warning 70% (было 80%), critical 85% (было 90%)
  * Memory: warning 80% (было 85%), critical 90%
  * Disk: warning 80%, critical 90% (было 90%)
  * ServiceDown: 30s (было 1m)
- Добавлены новые алерты:
  * ContainerDown - падение контейнеров
  * ContainerHighMemory/CPU - перегрузка контейнеров
  * WebsiteDown/Slow - проблемы с веб-сервисами
  * SSLCertificateExpiring - истечение SSL сертификатов
  * PostgreSQLDown/Slow - проблемы с БД

Результат:
- 3 группы алертов: infrastructure (12), webservices (4), database (3)
- Alertmanager настроен на Slack #server-status
- Каждый сбой будет детектироваться в течение 30s-3m

🤖 Generated with [Claude Code](https://claude.com/claude-code)

Co-Authored-By: Claude <noreply@anthropic.com>
2025-11-20 21:33:12 +00:00
..
00-infrastructure fix: Loki reject_old_samples_max_age настройка для устранения ошибок Promtail 2025-11-07 14:52:02 +00:00
01-security chore: initial infrastructure setup with Syncthing, Git and documentation 2025-11-05 16:41:12 +00:00
02-core fix: убран nginx-static контейнер, n8n теперь отдаёт статику сам 2025-11-20 20:52:29 +00:00
03-business chore: initial infrastructure setup with Syncthing, Git and documentation 2025-11-05 16:41:12 +00:00
04-tools feat: настроен полный алертинг Prometheus с 18 правилами 2025-11-20 21:33:12 +00:00
05-backups feat: обеспечена 100% восстановимость инфраструктуры из бэкапов 2025-11-13 19:22:22 +00:00
infrastructure-docs fix: улучшения скриптов мониторинга и backup 2025-11-06 10:47:20 +00:00
postiz-config chore: initial infrastructure setup with Syncthing, Git and documentation 2025-11-05 16:41:12 +00:00
fix_odoo_pass.py chore: initial infrastructure setup with Syncthing, Git and documentation 2025-11-05 16:41:12 +00:00