OVHserver/opt
SamoilenkoVadym 5f0be9a504 fix: оптимизация алертинга Prometheus и Alertmanager
Исправлены критические проблемы с избыточными уведомлениями:

1. Alertmanager (config.yml):
   - group_wait: 10s → 30s (уменьшен спам повторных алертов)
   - group_interval: 10s → 5m (алерты группируются правильно)
   - repeat_interval: 1h → 4h (повторные уведомления раз в 4 часа)
   - Добавлена группировка по severity и instance
   - Исправлен шаблон Slack для отображения деталей алертов

2. Prometheus правила (alerts.yml):
   - ContainerHighMemory: порог 90% → 95%, for: 2m → 5m
   - WebsiteDown: for: 1m → 10m (синхронизировано со scrape_interval)
   - Добавлены детальные описания в alerts

Результат: количество уведомлений снижено с 90+ до минимума,
уведомления теперь содержат полную информацию о проблеме.

🤖 Generated with [Claude Code](https://claude.com/claude-code)

Co-Authored-By: Claude <noreply@anthropic.com>
2025-11-21 16:08:03 +00:00
..
00-infrastructure feat: добавлен postgres-exporter для мониторинга PostgreSQL 2025-11-20 21:39:50 +00:00
01-security chore: initial infrastructure setup with Syncthing, Git and documentation 2025-11-05 16:41:12 +00:00
02-core fix: убран nginx-static контейнер, n8n теперь отдаёт статику сам 2025-11-20 20:52:29 +00:00
03-business chore: initial infrastructure setup with Syncthing, Git and documentation 2025-11-05 16:41:12 +00:00
04-tools fix: оптимизация алертинга Prometheus и Alertmanager 2025-11-21 16:08:03 +00:00
05-backups feat: обеспечена 100% восстановимость инфраструктуры из бэкапов 2025-11-13 19:22:22 +00:00
infrastructure-docs fix: улучшения скриптов мониторинга и backup 2025-11-06 10:47:20 +00:00
postiz-config chore: initial infrastructure setup with Syncthing, Git and documentation 2025-11-05 16:41:12 +00:00
fix_odoo_pass.py chore: initial infrastructure setup with Syncthing, Git and documentation 2025-11-05 16:41:12 +00:00