Commit Graph

8 Commits

Author SHA1 Message Date
Sergey Antropoff
c24b8af395 fix: добавить ingress для Tempo, конвертировать на values-шаблон
- Добавлены tempo_ingress_enabled/host/class/tls/cert_issuer в defaults
- Создан tempo-values.yaml.j2 (вместо inline values в задаче — проще с условиями)
- tasks/main.yml обновлён под values_files + показывает ingress-адрес в итоговом выводе
2026-04-25 11:40:01 +03:00
Sergey Antropoff
b8e15fae45 feat: добавить аддоны Loki, Promtail, Tempo, Pushgateway
Loki (grafana/loki 6.7.3):
- Монолитный режим (singleBinary) — оптимально для малых кластеров
- Хранение: filesystem по умолчанию, автоматически S3 если addon_minio=true
  (создаёт бакеты chunks/ruler/admin в MinIO через Job)
- Retention 30 дней, отключён self-monitoring (без Grafana Agent Operator)
- ServiceMonitor + Grafana datasource ConfigMap при addon_prometheus_stack=true
- Datasource включает derivedFields → Tempo если addon_tempo=true

Promtail (grafana/promtail 6.16.4):
- DaemonSet на всех нодах (tolerations: Exists)
- Отправляет логи в Loki по http://loki.loki.svc.cluster.local:3100
- ServiceMonitor при addon_prometheus_stack=true

Tempo (grafana/tempo 1.10.3):
- Монолитный режим с PVC для трейсов
- Receivers: OTLP gRPC/HTTP, Jaeger, опционально Zipkin
- Grafana datasource ConfigMap при addon_prometheus_stack=true
  (tracesToLogsV2 → Loki если addon_loki=true, serviceMap → Prometheus)
- ServiceMonitor при addon_prometheus_stack=true

Pushgateway (prometheus-community/prometheus-pushgateway 2.14.0):
- Устанавливается в monitoring namespace (рядом с Prometheus)
- ServiceMonitor при addon_prometheus_stack=true
- Опциональные persistence и ingress
2026-04-25 11:37:23 +03:00
Sergey Antropoff
dbc21150b2 feat: добавить Prometheus-метрики для nfs-server addon
- Устанавливает prometheus-node-exporter на NFS-хостах (включает NFSD-коллектор из /proc/net/rpc/nfsd)
- Открывает порт 9100 в UFW для cluster-сети
- При addon_prometheus_stack=true создаёт в k8s:
  - headless Service nfs-server-node-exporter
  - Endpoints со списком IP NFS-хостов из inventory
  - ServiceMonitor с label release: kube-prometheus-stack
2026-04-25 11:29:22 +03:00
Sergey Antropoff
51c6f4a706 feat: добавить prometheus-метрики ко всем оставшимся аддонам
- cert-manager: prometheus.enabled + servicemonitor (port 9402)
- ingress-nginx: динамический ServiceMonitor вместо захардкоженного false
- ArgoCD: metrics.enabled для всех компонентов (server, repoServer, applicationSet, notifications, controller)
- Longhorn: metrics.serviceMonitor.enabled
- Istio: ServiceMonitor для istiod (port http-monitoring), enablePrometheusMerge для sidecar-метрик, fix istio_telemetry_enabled → istio_metrics_enabled в шаблоне

Во всех случаях ServiceMonitor создаётся только при addon_prometheus_stack: true.
2026-04-25 11:26:14 +03:00
Sergey Antropoff
71a5e14ebb refactor: убрать Traefik, добавить метрики и ingress аддонам, provisioning DB/MinIO
Traefik:
- k3s-server-config.yaml.j2: traefik всегда в disable list (убрана переменная)
- group_vars/all/main.yml: убрана k3s_disable_traefik
- ingress-nginx/tasks: убраны задачи отключения Traefik (дублирование)

Prometheus метрики (по умолчанию включены):
- postgresql, mysql: metrics.enabled + serviceMonitor (при addon_prometheus_stack)
- minio: metrics.serviceMonitor (при addon_prometheus_stack)
- velero: metrics.enabled + serviceMonitor (при addon_prometheus_stack)
- crowdsec: ServiceMonitor для /metrics:6060 (при addon_prometheus_stack)
- ingress-nginx: ingress_nginx_metrics_enabled: true (было false)

Ingress:
- velero: velero_ingress_enabled (API port 8085)
- crowdsec: crowdsec_ingress_enabled (LAPI port 8080)

Databasus — provisioning shared ресурсов вместо деплоя своих:
- addon_postgresql: Job создаёт user 'databasus' + database 'databasus' в shared PG
- addon_minio: Job создаёт bucket 'databasus-backups' в shared MinIO
- vault_databasus_db_password добавлен в vault.yml.example
2026-04-25 11:19:42 +03:00
Sergey Antropoff
80dbf686b0 feat: добавить аддоны postgresql, mysql, databasus, minio, velero, crowdsec
Базы данных:
- addons/postgresql: Bitnami PostgreSQL (Helm), vault_postgresql_*
- addons/mysql: Bitnami MySQL (Helm), vault_mysql_*

Объектное хранилище и backup:
- addons/minio: Bitnami MinIO в distributed режиме (4 ноды по умолчанию)
- addons/velero: backup кластера через Velero + MinIO как S3 backend;
  bucket создаётся автоматически через mc Job; daily schedule 02:00

Безопасность:
- addons/crowdsec: CrowdSec LAPI + DaemonSet агенты, мониторит ingress-nginx;
  опциональный nginx bouncer (crowdsec_nginx_bouncer_enabled: true)

Резервное копирование БД:
- addons/databasus: OCI chart, автоматически подключается к addon_postgresql
  и addon_mysql когда те включены (shared endpoint через postgresql_external_host
  и mysql_external_host)

Общее:
- group_vars/all/addons.yml: флаги addon_* + конфиги для всех 6 аддонов;
  shared DB endpoints postgresql_external_host / mysql_external_host
- group_vars/all/vault.yml.example: примеры паролей для всех аддонов
- Makefile: targets addon-postgresql/mysql/databasus/minio/velero/crowdsec
2026-04-25 11:11:18 +03:00
Sergey Antropoff
a94039e0f1 feat: аддоны через addons.yml, внешний etcd, управление etcd нодами
## Аддоны (group_vars/all/addons.yml)

- Создан group_vars/all/addons.yml — единое место для включения/отключения
  аддонов (addon_ingress_nginx: true/false и т.д.) и их основных настроек
- Из group_vars/all/main.yml убраны все секции аддонов (NFS, CSI, ingress,
  cert-manager, etcd backup, Istio, Prometheus) — остался только core кластер
- Создан playbooks/addons.yml — комбинированный плейбук с 10 плеями,
  каждый с `when: addon_X | default(false) | bool`; запускает только включённые
- make install-full: core (site.yml) + аддоны по addons.yml
- make install-addons: только аддоны без переустановки core
- Убраны все *_enabled флаги из аддонов (cert_manager_enabled, istio_enabled,
  prometheus_stack_enabled и др.) — аддон ставится явным вызовом
- kube-vip: убран skip guard и kube_vip_enabled флаг (core, всегда ставится)
- TLS defaults в argocd/longhorn/kubernetes-dashboard: убрана зависимость
  от cert_manager_enabled, теперь просто false (задаётся явно)
- Kiali: убрана зависимость от prometheus_stack_enabled, добавлены переменные
  kiali_prometheus_enabled/url и kiali_grafana_enabled/url

## Внешний etcd кластер

- Новая переменная k3s_etcd_type: embedded|external в main.yml
- inventory/hosts.ini: добавлена группа [etcd_nodes] — любые серверы,
  не обязательно мастера
- roles/etcd/: полная роль для установки внешнего etcd кластера:
  - install.yml — скачивает бинарник, создаёт пользователя и директории
  - pki.yml — генерирует CA + server/peer/client сертификаты через openssl
    на Ansible-контроллере; раскладывает на etcd ноды и k3s мастера
  - service.yml — разворачивает etcd.env и systemd сервис, проверяет здоровье
  - etcd.env.j2 и etcd.service.j2 — шаблоны конфигурации
  - etcd_pki_local_dir: persistent путь (<project>/etcd-pki/) вместо /tmp,
    etcd-pki/ добавлен в .gitignore
- roles/k3s/templates/k3s-server-config.yaml.j2: при external режиме
  подставляет datastore-endpoint со всеми etcd нодами + пути к клиентским
  сертификатам; при embedded — прежняя логика cluster-init
- playbooks/site.yml: условный плей для etcd перед k3s (тег etcd)
- make install-etcd: отдельная команда для развёртывания etcd кластера

## Управление etcd нодами

- playbooks/add-etcd-node.yml: добавить ноду в работающий etcd кластер
  (PKI генерация → install → etcdctl member add → start с state=existing → verify)
- playbooks/remove-etcd-node.yml: безопасно удалить ноду из etcd кластера
  (проверка кворума → member remove → stop → clean up PKI)
- playbooks/add-node.yml: при k3s_etcd_type=external и наличии ноды в
  [etcd_nodes] автоматически добавляет её в etcd кластер после k3s
- playbooks/remove-node.yml: при k3s_etcd_type=external сначала удаляет
  ноду из etcd (member remove + stop), затем из k3s
- make add-etcd-node NODE=etcd04 / make remove-etcd-node NODE=etcd04
- Команды add-etcd-node / remove-etcd-node в docker/entrypoint.sh
2026-04-25 06:34:48 +03:00
Sergey Antropoff
8aa55a694c небольше фиксы 2026-04-24 21:01:26 +03:00