Trilha 5 — Implementação e Deployment

Mapa da trilha

5.1~60 min

🐳 Backends de execução

7 sandboxes: do laptop ao serverless

5.2~60 min

☁️ AWS Bedrock AgentCore

Sample oficial, Firecracker, CDK

5.3~55 min

📡 Observabilidade em produção

OTel, Grafana, SLOs, alertas

5.4~55 min

🔁 CI/CD para Hermes Agent

GitHub Actions, canary, rollback

Conteúdo detalhado

5.1~60 min

🐳 Backends de execução

Os 7 backends suportados pelo Hermes, quando usar cada um e como configurar.

O que é:

Backend padrão que executa código Python e shell diretamente no host onde o Hermes roda — sem container, VM ou rede separada.

Por que aprender:

É o backend de partida para desenvolvimento e debug. Latência zero, acesso direto a arquivos locais e GPUs.

Conceitos-chave:

--backend local, isolamento zero, risco de side-effects, ideal para protótipos e CI local.

O que é:

Cada execução de código vai para um container Docker dedicado, com FS, rede e processos isolados.

Por que aprender:

É o backend recomendado para produção self-hosted: reproduzível, descartável e bloqueia escapes triviais.

Conceitos-chave:

Dockerfile do sandbox, volumes, --network none, limites de CPU/MEM, lifecycle do container por sessão.

O que é:

Envia comandos via SSH para uma máquina remota — bare-metal, EC2, droplet ou nó HPC.

Por que aprender:

Útil quando o agente roda em um laptop mas precisa executar em servidor com GPU, ou em ambientes corporativos sem Docker.

Conceitos-chave:

Chave SSH, usuário dedicado, ~/.ssh/config, jump hosts, persistência via tmux/screen.

O que é:

Backend que despacha código para a plataforma Modal — sandboxes serverless com GPUs sob demanda.

Por que aprender:

Quando o agente precisa de A100/H100 sem manter cluster próprio. Cold-start ~2s, billing por segundo.

Conceitos-chave:

MODAL_TOKEN_ID, imagens versionadas, snapshots, quotas, billing por segundo de GPU.

O que é:

Backend que usa o Vercel Sandbox para executar código em microVMs efêmeras na edge.

Por que aprender:

Ideal para chatbots web — startup ~300ms, cobra só pelo tempo ativo, sem infra para manter.

Conceitos-chave:

VERCEL_TOKEN, runtime Node/Python, timeout 5min, sem persistência entre invocações.

O que é:

Singularity (Apptainer) roda em clusters HPC sem root; Daytona orquestra workspaces de dev reproduzíveis.

Por que aprender:

Singularity destrava clusters universitários/SLURM; Daytona dá ao agente um workspace versionado por tarefa.

Conceitos-chave:

SIF images, integração com SLURM, workspaces Daytona, devcontainer.json, snapshots.

Ver Completo

5.2~60 min

☁️ AWS Bedrock AgentCore (sample oficial)

Sample oficial AWS, CDK em 4 fases, Firecracker microVMs, Lambda router multi-canal.

O que é:

O sample expõe um único API Gateway que recebe webhooks de Telegram/Slack/Discord/Feishu, encaminha para um Lambda router e invoca o AgentCore Runtime que hospeda o main.py do Hermes.

Por que aprender:

É a referência canônica para colocar Hermes em produção AWS com TLS, IAM e observabilidade nativas.

Conceitos-chave:

API Gateway HTTP API, Lambda router, AgentCore Runtime, CloudWatch logs unificados.

O que é:

O AgentCore Runtime instancia uma microVM Firecracker dedicada por sessão de usuário, isolamento de hypervisor com cold-start em ~125ms.

Por que aprender:

É o que torna o sample seguro para multi-tenant — código gerado pelo modelo nunca toca a VM de outro user.

Conceitos-chave:

jailer Firecracker, session ID, snapshot/restore, billing por minuto-VM ativo.

O que é:

O sample divide a infra em 4 stacks CDK: NetworkStack, IamStack, AgentCoreStack, IntegrationsStack.

Por que aprender:

Stacks separados permitem destruir só as integrações sem refazer VPC ou IAM — economia de tempo em iterações.

Conceitos-chave:

cdk deploy --all, ordem de dependências, outputs cross-stack, cdk.context.json.

O que é:

Como microVMs são efêmeras, o sample persiste histórico de conversa, memórias e arquivos em um bucket S3 particionado por user_id/session_id.

Por que aprender:

É o padrão que permite agentes "lembrarem" entre mensagens sem manter VM viva — economia de 90% vs sempre-ligado.

Conceitos-chave:

S3 prefix por sessão, lifecycle policies, KMS encryption, point-in-time recovery.

O que é:

Uma Lambda única recebe payloads de Telegram, Slack, Discord e Feishu, normaliza para um schema interno e invoca o AgentCore.

Por que aprender:

Centraliza autenticação de webhooks, rate limiting e logging — adicionar canal novo = só implementar o adapter.

Conceitos-chave:

Webhook signature verification, idempotency, async invoke, dead-letter queue.

O que é:

Soma de Lambda invocations + AgentCore minutos-VM + S3 storage + API Gateway requests + CloudWatch logs.

Por que aprender:

Saber a curva real evita surpresa no fim do mês — AgentCore minutes é o item que mais escala com uso.

Conceitos-chave:

AWS Cost Explorer, budgets+alerts, tags por canal, escolha de região (us-east-1 mais barato).

Ver Completo

5.3~55 min

📡 Observabilidade em produção

OpenTelemetry, Grafana, logs estruturados, SLOs, alertas PagerDuty/ntfy. Sem isso, prod é caixa-preta.

O que é:

Os três sinais que compõem observabilidade moderna: eventos discretos (logs), séries temporais agregadas (métricas) e timeline multi-serviço (traces).

Por que aprender:

Cada turno do Hermes envolve LLM call + tool + sandbox; só os 3 juntos respondem "o que aconteceu, com que frequência, e onde está o gargalo".

Conceitos-chave:

RED (Rate/Errors/Duration), USE (Utilization/Saturation/Errors), correlation via trace_id.

O que é:

Padrão CNCF (SDK + collector) para emitir telemetria. Instrumenta uma vez, troca o backend sem mudar código.

Por que aprender:

É a maneira vendor-neutral de instrumentar o Hermes — Tempo, Jaeger, Datadog, Honeycomb falam OTLP.

Conceitos-chave:

TracerProvider, BatchSpanProcessor, OTLP gRPC, auto-instrumentação de httpx/openai.

O que é:

Frontend único com 3 datasources (Prometheus, Loki, Tempo) e dashboards de Overview, Per-User e Cost.

Por que aprender:

Dashboards prontos reduzem MTTR — quem olha 3 painéis bem desenhados resolve mais rápido que quem grep'a log.

Conceitos-chave:

PromQL para RED, heatmaps, drill-down para Tempo, templates do grafana.com (ID 20100).

O que é:

Promessa numérica (P95 < 3s, error < 1%, custo/req < $0.02) em janelas rolling com error budget definido.

Por que aprender:

Sem SLO, alertas viram ruído; com SLO, alertas atacam só quando o budget queima rápido.

Conceitos-chave:

SLI vs SLO, error budget, burn rate multi-window, Sloth/Pyrra para geração de regras.

O que é:

Roteamento por severidade (page vs ticket) via Alertmanager para ntfy, Discord webhook ou PagerDuty.

Por que aprender:

Alerta sem ação é ruído; cada alerta precisa de severidade clara, runbook e owner.

Conceitos-chave:

burn-rate alerts, repeat_interval, runbook annotation, cardinality bomb (NUNCA user_id em label).

O que é:

Árvore com timing exato de cada span: webhook → router → 3 LLM calls → sandbox → tool → S3.

Por que aprender:

Reduz MTTR de horas para minutos: heatmap mostra a tool culpada, trace confirma a root cause em segundos.

Conceitos-chave:

trace_id propagação, log↔trace correlation, Grafana Tempo, span attributes.

Ver Completo

5.4~55 min

🔁 CI/CD para Hermes Agent

GitHub Actions buildando + testando skills + deploy automático no AWS/Docker/Modal. Profissionaliza o ciclo de release.

O que é:

7 estágios canônicos: lint, unit, eval, security, build, deploy staging, deploy prod com canary.

Por que aprender:

Cada estágio é um quality gate; ordenação correta faz pipeline falhar rápido e barato.

Conceitos-chave:

Fail fast, artefato imutável, deploy declarativo, concurrency groups.

O que é:

Suite de avaliação (promptfoo/Inspect) que roda casos representativos medindo fidelidade, safety e latência.

Por que aprender:

Teste unit não pega regressão de prompt; eval bloqueia PR que degrada qualidade semântica.

Conceitos-chave:

Pass rate, regression delta, cost per eval, llm-rubric assertions.

O que é:

3 scans obrigatórios em todo PR: dependências (pip-audit), secrets (gitleaks), SAST (bandit/Semgrep).

Por que aprender:

Rápidos e baratos; o custo de não ter é uma chave AWS no histórico do git.

Conceitos-chave:

SARIF upload, ::add-mask::, OIDC para credenciais, scan no PR e no main.

O que é:

Dockerfile multi-stage (builder + runtime slim) + buildx multi-arch (amd64+arm64) + push ECR/GHCR.

Por que aprender:

Imagem menor = cold start mais rápido; arm64 destrava Graviton (~20% mais barato).

Conceitos-chave:

buildx QEMU, cache-from/to gha, provenance + SBOM, healthcheck no Dockerfile.

O que é:

Canary (5% → 25% → 100%) com SLO watch entre etapas é o default sensato; B/G é overkill para stateless.

Por que aprender:

Reduz blast radius — quando algo dá errado, só 5% dos usuários veem.

Conceitos-chave:

ECSCanary10Percent5Minutes, feature flags, healthcheck profundo, janela diurna.

O que é:

CodeDeploy/Argo/Spinnaker faz auto-revert quando alarm CloudWatch dispara (error, latência, sandbox fail).

Por que aprender:

Reverter em <2 min > diagnosticar em >30 min. Treine como game day mensal.

Conceitos-chave:

--auto-rollback-configuration, alarms compostos, deployment group, post-deploy SLO watch.

Ver Completo