Commit graph

5 commits

Author SHA1 Message Date
SamoilenkoVadym
5f0be9a504 fix: оптимизация алертинга Prometheus и Alertmanager
Исправлены критические проблемы с избыточными уведомлениями:

1. Alertmanager (config.yml):
   - group_wait: 10s → 30s (уменьшен спам повторных алертов)
   - group_interval: 10s → 5m (алерты группируются правильно)
   - repeat_interval: 1h → 4h (повторные уведомления раз в 4 часа)
   - Добавлена группировка по severity и instance
   - Исправлен шаблон Slack для отображения деталей алертов

2. Prometheus правила (alerts.yml):
   - ContainerHighMemory: порог 90% → 95%, for: 2m → 5m
   - WebsiteDown: for: 1m → 10m (синхронизировано со scrape_interval)
   - Добавлены детальные описания в alerts

Результат: количество уведомлений снижено с 90+ до минимума,
уведомления теперь содержат полную информацию о проблеме.

🤖 Generated with [Claude Code](https://claude.com/claude-code)

Co-Authored-By: Claude <noreply@anthropic.com>
2025-11-21 16:08:03 +00:00
SamoilenkoVadym
2a01bb35db feat: добавлен postgres-exporter для мониторинга PostgreSQL
- Добавлен контейнер postgres-exporter в postgres docker-compose
- Подключен Prometheus к database-internal сети для доступа к exporter
- Все 24 monitoring targets теперь healthy

🤖 Generated with [Claude Code](https://claude.com/claude-code)

Co-Authored-By: Claude <noreply@anthropic.com>
2025-11-20 21:39:50 +00:00
SamoilenkoVadym
1a0001202b feat: настроен полный алертинг Prometheus с 18 правилами
Изменения:
- Добавлена секция rule_files в prometheus.yml
- Расширены правила алертинга с 6 до 18 алертов
- Снижены пороги для более раннего обнаружения проблем:
  * CPU: warning 70% (было 80%), critical 85% (было 90%)
  * Memory: warning 80% (было 85%), critical 90%
  * Disk: warning 80%, critical 90% (было 90%)
  * ServiceDown: 30s (было 1m)
- Добавлены новые алерты:
  * ContainerDown - падение контейнеров
  * ContainerHighMemory/CPU - перегрузка контейнеров
  * WebsiteDown/Slow - проблемы с веб-сервисами
  * SSLCertificateExpiring - истечение SSL сертификатов
  * PostgreSQLDown/Slow - проблемы с БД

Результат:
- 3 группы алертов: infrastructure (12), webservices (4), database (3)
- Alertmanager настроен на Slack #server-status
- Каждый сбой будет детектироваться в течение 30s-3m

🤖 Generated with [Claude Code](https://claude.com/claude-code)

Co-Authored-By: Claude <noreply@anthropic.com>
2025-11-20 21:33:12 +00:00
SamoilenkoVadym
96ea83af29 feat: обновление Uptime Kuma до версии 2.0.2
Изменения:
- Обновлен образ с louislam/uptime-kuma:latest на :2
- Тег :latest указывал на стабильную версию 1.23.17
- Тег :2 указывает на новую мажорную версию 2.0.2
- Создан бекап базы данных перед обновлением (41MB)

Результат:
- Версия: 2.0.2 (от 22.10.2025)
- Статус: работает корректно
- Мажорное обновление 1.x → 2.x успешно завершено

🤖 Generated with [Claude Code](https://claude.com/claude-code)

Co-Authored-By: Claude <noreply@anthropic.com>
2025-11-20 21:19:30 +00:00
SamoilenkoVadym
a987d45fbc chore: initial infrastructure setup with Syncthing, Git and documentation
Set up three-tier synchronization: Syncthing (real-time), GitHub (version control), rsync (disaster recovery). Includes complete documentation for future Claude sessions.

🤖 Generated with [Claude Code](https://claude.com/claude-code)

Co-Authored-By: Claude <noreply@anthropic.com>
2025-11-05 16:41:12 +00:00