Trilha 4 — Manutenção e Operação

Mapa da trilha

4.1~45 min

🩺 Diagnóstico e atualização

Doctor, update, logs, debug

4.2~45 min

💾 Backup, segurança e monitoramento

Backup, keys, incident response

4.3~50 min

💰 Custo, billing e otimização

60-80% economia mensal

4.4~45 min

🔄 Estratégia de upgrade

Channels, staging, rollback

Conteúdo detalhado

4.1~45 min

🩺 Diagnóstico e atualização

hermes doctor, update, logs, debug, perfis e rollback seguro.

O que é:

Comando que percorre Python, dependências, API keys, permissões de pastas, banco SQLite e conectividade com provedores. Imprime ✓/✗ por checagem.

Por que aprender:

90% dos bugs em produção viram triviais quando você roda doctor antes de pedir ajuda. É a primeira coisa a fazer quando algo quebra.

Conceitos-chave:

Checks bloqueantes vs avisos, exit code (0=ok, 1=warn, 2=fail), flag --verbose, integração com CI.

O que é:

Atualizador interno que respeita canais (stable/beta/nightly), faz pin de versão e migra schema do banco quando necessário.

Por que aprender:

Update mal feito apaga skills, corrompe memória ou quebra integrações. Saber escolher canal e ler changelog evita dor.

Conceitos-chave:

Canais (stable, beta, nightly), --dry-run, snapshot antes do upgrade, breaking changes no CHANGELOG.

O que é:

Hermes mantém logs estruturados (JSONL) em ~/.hermes/logs/ (Linux/Mac) ou %APPDATA%\hermes\logs\ (Windows). Rotação diária, retenção 14 dias.

Por que aprender:

Logs são o único registro do que o agente fez. Sem ler logs você fica chutando bug. Com logs, debug é metódico.

Conceitos-chave:

Níveis (DEBUG/INFO/WARN/ERROR), filtrar com jq, correlation_id por sessão, log shipping (Loki, Datadog).

O que é:

Variável HERMES_DEBUG=1 ativa logs verbose, dump de prompts, traces de chamadas a tools e exibição do raciocínio (chain-of-thought) quando disponível.

Por que aprender:

Sem debug você vê o efeito, não a causa. Com debug você vê exatamente qual prompt foi enviado, qual tool falhou e por quê.

Conceitos-chave:

Variáveis HERMES_TRACE, HERMES_PROFILE, sanitização de tokens em dumps, debug seletivo por módulo.

O que é:

Tuning de latência (provedor, modelo, streaming), gestão de janela de contexto, cache de prompt e de embeddings.

Por que aprender:

Sem performance, agente fica caro e lento. Cache certo derruba custo em 60-80%.

Conceitos-chave:

Prompt caching, p50/p95, time-to-first-token, batching, RAG eficiente.

O que é:

Mecanismo para voltar à versão anterior preservando memória e skills. Cada update grava snapshot em ~/.hermes/snapshots/.

Por que aprender:

Update ruim acontece. Saber reverter em 30 segundos é a diferença entre incidente e catástrofe.

Conceitos-chave:

hermes rollback --to LAST, snapshot ID, migração reversa de schema, retenção de snapshots.

Ver Completo

4.2~45 min

💾 Backup, segurança e monitoramento

Backup, recuperação, gestão de keys, isolamento e observabilidade.

O que é:

Empacotar ~/.hermes/ (memória SQLite + skills + configs) em um tarball cifrado.

Por que aprender:

Perder memória é perder o agente que você treinou por meses. Backup vira investimento.

Conceitos-chave:

VACUUM INTO no SQLite (backup hot), cifragem com age, frequência (diário) e teste de restore.

O que é:

Procedimento para subir Hermes do zero em outra máquina/SO usando o backup.

Por que aprender:

Backup que não foi testado não existe. Restore é o teste real.

Conceitos-chave:

Paths diferentes por SO, recompilação de venv, migração de schema, sanity check com hermes doctor.

O que é:

Tirar keys de .env e mover para password-store (pass), 1Password CLI, AWS Secrets Manager ou Vault.

Por que aprender:

Key vazada em repo público é incidente comum e caro. Rotação automática protege.

Conceitos-chave:

Princípio do menor privilégio, rotação ≤90 dias, escopo por projeto, scan de segredos (gitleaks).

O que é:

Rodar Hermes dentro de container Docker/Podman ou sandbox com firejail/bubblewrap para limitar o que tools podem ler/escrever.

Por que aprender:

Agente com shell e sem sandbox é arma carregada. Isolamento contém estrago de prompt injection.

Conceitos-chave:

Volumes read-only, seccomp, network namespaces, allowlist de domínios.

O que é:

Métricas (Prometheus/OpenTelemetry), alertas (PagerDuty, ntfy) e dashboards de custo do provedor LLM.

Por que aprender:

Sem monitor, surpresa de fatura de US$ 800 vira regra. Com monitor, vira anomalia detectada.

Conceitos-chave:

SLI/SLO, budget de tokens, taxa de erro por tool, alertas por threshold de custo diário.

O que é:

Playbook para incidentes: key vazada, fatura disparada, loop infinito, memória corrompida.

Por que aprender:

Em incidente, decisão sob pressão tende ao erro. Playbook escrito vira piloto automático.

Conceitos-chave:

Contenção, erradicação, recuperação, post-mortem blame-free, runbooks versionados.

Ver Completo

4.3~50 min

💰 Custo, billing e otimização (60-80% economia)

Dashboard OpenRouter, alertas de budget, routing por tarefa, prompt caching e fallback dinâmico.

O que é:

Painel oficial em openrouter.ai/activity com custo, tokens, cache hit e modelo por requisição.

Por que aprender:

Sem dashboard você otimiza no escuro. É a fonte da verdade para decidir o que mexer.

Conceitos-chave:

Activity, Credits, Keys com credit limit, API /credits e /generations.

O que é:

Três camadas: aviso suave (70%), aviso duro (90%) e parada total (100%) + daily_usd_limit local no Hermes.

Por que aprender:

Sem alerta, a primeira notícia é a fatura. Camadas dão tempo de investigar antes do estouro.

Conceitos-chave:

Auto-recarga desligada, runaway costs por loop infinito, max_tool_iterations.

O que é:

Routing por tipo de tarefa em config.yaml: Haiku 4.5 para classify, Sonnet 4.6 default, Opus 4.7 só para raciocínio pesado.

Por que aprender:

Opus é 15× mais caro que Haiku. Usar Opus para classify queima dinheiro sem ganho.

Conceitos-chave:

Preços OpenRouter por 1M tokens, model_routing.tasks, eval antes de trocar.

O que é:

Mecanismo Anthropic que dá ~90% de desconto em tokens de input que se repetem entre chamadas (system, tools, RAG fixo).

Por que aprender:

É a otimização mais lucrativa por linha de config. Corta facilmente 40-50% do gasto sozinha.

Conceitos-chave:

Prefixo estável, TTL de 5 min, mínimo 1024 tokens, cache_discount nas métricas.

O que é:

Cadeia primary → fallbacks no model_routing: troca para provedor barato em 429/5xx/timeout.

Por que aprender:

Mantém o agente vivo em outage e evita fatura disparada por re-tentativa em loop.

Conceitos-chave:

Trigger por rate_limit/5xx, max_retries, log de demotion, 1-shot > few-shot.

O que é:

Auditoria passo-a-passo de instalação típica: routing + caching + max_iterations + 1-shot, com números reais.

Por que aprender:

Mostra a ordem de aplicação e o impacto de cada etapa. Replicável em qualquer setup.

Conceitos-chave:

Baseline, -50% routing, -40% adicional caching, -22% adicional loops, total -76,7%.

Ver Completo

4.4~45 min

🔄 Estratégia de upgrade ao longo de meses

Channels, changelog, staging, janela, rollback e calendário anual para manter Hermes saudável por anos.

O que é:

Três canais de release: stable (mensal), beta (quinzenal), nightly (HEAD diário). Cada um com risco e cadência próprios.

Por que aprender:

Prod em nightly é convite à quebra; dev em stable atrasa em features. Escolha por máquina.

Conceitos-chave:

Pin exato (==X.Y.Z), --pre, instalação via git, hermes version --verbose.

O que é:

Hábito de ler o CHANGELOG inteiro entre versão atual e alvo antes de instalar.

Por que aprender:

90% dos incidentes pós-upgrade são causados por não ter lido. 5 min poupam horas.

Conceitos-chave:

BREAKING, Removed, Migration, Deprecated, Security. Major sempre quebra.

O que é:

Segundo Hermes em HERMES_HOME separado, com cópia de memória e key dev, para validar antes de promover.

Por que aprender:

Staging é barato (sem máquina extra) e captura 80% dos bugs antes de tocar produção.

Conceitos-chave:

pipx install --suffix, VACUUM INTO, smoke tests reais, 24-48h em paralelo.

O que é:

Bloco de tempo planejado para o upgrade, com pessoas disponíveis e baixa demanda.

Por que aprender:

Hora ruim transforma incidente recuperável em catástrofe (sexta à noite, véspera de feriado).

Conceitos-chave:

Terça/quarta manhã, evitar sexta, considerar fuso de usuários, avisar antes.

O que é:

Mecanismo do Hermes para voltar à versão anterior em < 60 segundos, com snapshot por update.

Por que aprender:

Rollback bom é rollback ensaiado. Descobrir como reverter durante incidente é tarde.

Conceitos-chave:

hermes rollback --to LAST, retenção de snapshots, sinais que pedem rollback.

O que é:

Quatro blocos de 1-3h por ano com ritmo previsível: audit completo, minor update, audit de custo+security, major window.

Por que aprender:

Manutenção saudável é ritmo, não heroísmo. Sem calendário, vira congelamento na v0.8.

Conceitos-chave:

Cadência típica Nous Research (patch 2sem, minor 2 meses, major anual), pip-audit, playbook 10 passos.

Ver Completo