Trilha 2 - Arquitetura Interna

Mapa da trilha

2.1~60 min

🏗️ Componentes Core

TUI, gateway, toolsets, MCP

2.2~60 min

🧠 Loop de Aprendizado e Memória

Skills autônomas, FTS5, Honcho

2.3~50 min

🔬 Anatomia de uma requisição

Trace end-to-end, 6 hops, latências

2.4~50 min

🛡️ Segurança e privacidade

Injection, exfiltration, supply chain

Conteúdo detalhado

2.1~60 min

🏗️ Componentes Core

TUI, gateway de mensagens, toolsets e MCP.

O que é:

Interface de terminal construída com Textual/Rich que renderiza markdown, código com syntax highlight, streaming token-a-token e suporta edição de prompts multilinha.

Por que aprender:

É o front-end primário do Hermes — entender a TUI elimina 80% do atrito diário e revela atalhos críticos como `/help`, `/clear`, `/cost`.

Conceitos-chave:

Render loop, autocomplete de slash-commands, histórico persistente em SQLite, paste detection automática, painel de tokens em tempo real.

O que é:

Camada que normaliza entrada de CLI, Discord, Slack, webhook HTTP e cron em um único `Message` interno antes de invocar o LLM.

Por que aprender:

É a peça que permite "rodar o mesmo agente no Discord e no terminal" sem duplicar lógica.

Conceitos-chave:

Adapter pattern, fila assíncrona, idempotência por message_id, rate-limit por canal, fan-out de respostas.

O que é:

Toolsets agrupam ferramentas relacionadas (filesystem, shell, web, code, memory) que podem ser habilitadas/desabilitadas via YAML.

Por que aprender:

Carregar tudo polui o contexto e degrada a qualidade. Toolsets cirúrgicos = respostas melhores.

Conceitos-chave:

Tool registry, JSON-schema dos parâmetros, permissões por toolset, lazy-load on-demand.

O que é:

Model Context Protocol — padrão aberto da Anthropic que o Hermes consome como cliente, plugando servidores stdio ou HTTP.

Por que aprender:

Permite reutilizar centenas de servidores MCP existentes (GitHub, Notion, Postgres, Playwright) sem escrever código.

Conceitos-chave:

Transport (stdio/http), tool discovery, resources, prompts, sampling reverso.

O que é:

Scheduler embutido que dispara prompts/ferramentas em cron-expressions sem depender do crontab do SO.

Por que aprender:

Habilita o agente a "trabalhar enquanto você dorme" — relatórios diários, monitoramento, recoleta de contexto.

Conceitos-chave:

APScheduler, persistência de jobs, timezone, retry com backoff, output para canal de saída.

O que é:

`config.yaml` central que define provider, modelo, toolsets, MCPs, prompts de sistema e canais — versionável no git.

Por que aprender:

Tudo-como-código: você commita a configuração e qualquer máquina reproduz o mesmo agente.

Conceitos-chave:

Override por env-var (`${VAR}`), profiles (dev/prod), validação via Pydantic, hot-reload com `/reload`.

Ver Completo

2.2~60 min

🧠 Loop de Aprendizado e Memória

Como o agente cria skills sozinho, memória curada, FTS5, Honcho, agentskills.io, providers.

O que é:

Ciclo perceive→act→reflect→save que registra cada interação e extrai padrões reutilizáveis sem intervenção manual.

Por que aprender:

É o que diferencia o Hermes de um chat: ele fica mais útil a cada uso.

Conceitos-chave:

Reflection step, threshold de salvamento, skill candidates, anti-overfitting.

O que é:

Armazenamento SQLite local com 3 camadas: conversa raw, fatos curados, skills.

Por que aprender:

Sem memória, todo dia é dia 1. Com memória, o agente lembra preferências e decisões.

Conceitos-chave:

TTL por camada, decaimento de relevância, pruning, exportação.

O que é:

Full-Text Search 5 do SQLite — índice invertido com BM25, snippet e highlighting.

Por que aprender:

Permite "lembrar" sem precisar de Pinecone/embeddings caros — funciona offline.

Conceitos-chave:

Tokenizer porter, prefix queries, ranking BM25, virtual tables.

O que é:

Agente detecta repetições, propõe uma skill (SKILL.md + scripts), você aprova ou edita.

Por que aprender:

Transforma "fiz 3x" em "agora é automático" sem você abrir editor.

Conceitos-chave:

Spec agentskills.io, frontmatter YAML, descrição trigger, isolamento por skill.

O que é:

Engine de personalização que constrói um theory-of-mind do usuário a partir das conversas.

Por que aprender:

Personalização real sem prompt eterno: o agente sabe que você prefere Python tipado e PT-BR direto.

Conceitos-chave:

Dialectic agent, user representations, app/session/user namespacing.

O que é:

Gateway HTTP que abstrai Anthropic, OpenAI, Google, Mistral, Meta, DeepSeek e modelos open-source sob a API OpenAI-compat.

Por que aprender:

Trocar Claude Sonnet por GPT-5 vira mudar 1 linha no YAML — sem reescrever código.

Conceitos-chave:

Roteamento por preço/latência, fallback automático, billing unificado, prompts caching cross-provider.

Ver Completo

2.3~50 min

🔬 Anatomia de uma requisição (trace end-to-end)

Trace passo-a-passo de uma mensagem do Telegram até a resposta, com timing real de cada hop.

O que é:

POST HTTPS do Telegram Bot API para o endpoint registrado em setWebhook, com payload JSON do update.

Por que aprender:

Único hop fora do seu controle — entender o budget de 5s do Telegram impede retry duplicado.

Conceitos-chave:

TLS keep-alive, secret_token, deduplicação por update_id, ack <5s, processamento async.

O que é:

Normalização do update em Message interno + lookup do toolset/profile do usuário no registry.

Por que aprender:

Lookup remoto aqui é anti-padrão (200ms+); RAM-first mantém o hop trivial.

Conceitos-chave:

Adapter pattern, registry warm cache, lazy-load, /reload para refresh.

O que é:

Monta o contexto para o LLM: últimas N mensagens, fatos via FTS5/BM25, user representation do Honcho, system prompts.

Por que aprender:

Hop mais variável — é onde caching, top-K e Honcho local/cloud mudam P95 em ordem de magnitude.

Conceitos-chave:

BM25 ranking, porter tokenizer, cache de user_repr (TTL 5min), prompt caching cross-provider.

O que é:

Chamada ao provider via OpenRouter; latência = TTFT + (output_tokens / tokens_per_sec).

Por que aprender:

Hop dominante; escolher Haiku vs Sonnet vs Opus por intenção corta 60-80% de custo e latência.

Conceitos-chave:

TTFT P50 vs P99, cold-start em :free, router por intenção, streaming UX.

O que é:

Quando o LLM retorna tool_calls, executor roda (em paralelo se independentes) e re-prompta o modelo com os outputs.

Por que aprender:

Cadeias de 3 tools = 10-18s reais; entender isso = não prometer "rápido" pro usuário.

Conceitos-chave:

asyncio.gather, paralelismo grátis se independente, streaming feedback intermediário.

O que é:

sendMessage para o Telegram + INSERT em SQLite (com trigger FTS5) + enqueue de reflexão assíncrona.

Por que aprender:

Memory write NUNCA deve bloquear o usuário; reflection é background.

Conceitos-chave:

WAL mode, asyncio.create_task, editMessageText para streaming, retry exponencial em 429.

Ver Completo

2.4~50 min

🛡️ Modelo de segurança e privacidade

Onde dados vivem, o que vaza, ameaças reais e hardening mínimo de produção.

O que é:

Inventário de onde cada byte do Hermes vive (disco local, env, providers, Honcho) e quem pode ler.

Por que aprender:

Sem este mapa você não sabe o que vaza ao trocar de modelo ou habilitar Honcho cloud.

Conceitos-chave:

Local-first, redação PII pré-prompt, zero-retention SKUs, secret manager vs .env.

O que é:

Catálogo priorizado: usuário malicioso, conteúdo web envenenado, skill maliciosa, provider comprometido.

Por que aprender:

Sem threat model concreto, "segurança" vira teatro — você protege o que não é alvo e ignora o alvo real.

Conceitos-chave:

Probabilidade × impacto, isolamento por session_id, rate-limit por user, allowlist por toolset.

O que é:

Instruções escondidas em conteúdo que o agente lê (HTML invisível, comentários em código, metadados).

Por que aprender:

Mesmo modelos fortes obedecem em ~20% dos casos — defesa em camadas, não confiança no LLM.

Conceitos-chave:

Tags untrusted_content, strip de HTML invisível, allowlist de domínios, scanner de exfiltration.

O que é:

Read tool pega segredo, write tool manda para fora — Tool Gateway tem que quebrar essa cadeia.

Por que aprender:

É o vetor mais explorado em 2025 contra agentes autônomos — vale mais que qualquer SAST.

Conceitos-chave:

Separation of duties, profiles read-only vs write, allowlist em web_fetch, deny em paths sensíveis.

O que é:

SKILL.md + scripts arbitrários instalados de repos externos rodam com suas permissões.

Por que aprender:

Typosquat e payloads em postinstall.sh já aconteceram — npm/pypi-style de risco no Hermes.

Conceitos-chave:

Audit manual + grep de payload, sandbox VM, pin por commit SHA, kill-switch no YAML.

O que é:

Config mínima de produção: firejail/bubblewrap, egress filtrado, audit log append-only.

Por que aprender:

Sem isso, incident response é "rezar e rotacionar tudo" — com isso, blast-radius é contível.

Conceitos-chave:

chattr +a, caps drop, seccomp, network namespace, aprovação humana para tools críticas.

Ver Completo