4.2 Construção do agente | T4

🎚️ Sonnet vs Haiku — quando usar cada

Sonnet 4.6 = raciocínio complexo, decisões com nuance, escrita longa. Haiku 4.5 = triagem, classificação, resposta rápida e barata.

Sonnet 4.6

Use para: cotação complexa, multi-step reasoning, escrita longa, casos com nuance política.

• Custo: $3/$15 por 1M tokens (in/out)

• Latência: 1-3s

• Tool use sofisticado

Haiku 4.5

Use para: triagem inicial, classificação de intent, resposta padrão, FAQ.

• Custo: $0.80/$4 por 1M tokens

• Latência: 0.5-1s

• Volume alto barato

💡 Cascata Haiku → Sonnet

Haiku classifica a mensagem. Se cair em cenário simples (FAQ), responde direto. Se cair em cenário complexo, passa pra Sonnet. Reduz custo 60-80%.

🗄️ RAG no Supabase com pgvector

Indexa FAQ, base de produtos, documentos no Supabase com pgvector. Agente busca top-K relevantes antes de responder.

⚙️ Setup mínimo

CREATE EXTENSION vector;
CREATE TABLE kb (id uuid, content text, embedding vector(1536), metadata jsonb);
CREATE INDEX ON kb USING ivfflat (embedding vector_cosine_ops);

📐 Chunking

300-500 tokens por chunk. Overlap 50 tokens. Texto + metadata (categoria, data, fonte).

🎯 Top-K

K=3-5 normalmente. K=10 se base grande. Re-rank com Cohere/Voyage opcional pra precisão.

🪞 Grounding

Passa os chunks recuperados no prompt + instrução "responda apenas com base nestes documentos". Reduz alucinação.

📊 RAG é #1 alavanca de qualidade

Bom RAG reduz alucinação em 70%+ vs prompt seco. Sem RAG, agente inventa ou diz "não sei" demais.

🧠 Memória de conversa

Buffer + resumo. Mantém últimas 10-20 mensagens em buffer. Conversas longas: gera resumo automático + buffer recente.

📥 Buffer simples

Conversas até 10-20 trocas. Tudo no contexto.

• Janela deslizante
• TTL 24h
• Apaga quando inatividade > 48h

📚 Buffer + resumo

Conversas longas (>20 trocas). Resume mensagens antigas.

• Resumo das 30 primeiras + últimas 10 cruas
• Resumo gerado por Haiku (barato)
• Reduz contexto sem perder info crítica

⚠️ Memória ilimitada explode contexto

Cliente que conversa 50x manda contexto de 10k tokens. Custo + latência sobem. Qualidade degrada (modelo perde info no meio). TTL + resumo é obrigatório.

💾 Prompt caching da Anthropic

System prompt grande (3-5k tokens) é cacheado pela Anthropic. Cada chamada subsequente paga 10% do custo do prompt. Reduz custo 90% em sistemas de produção.

🧮 Cálculo de impacto

• System prompt: 4k tokens

• 1000 conversas/mês com 5 trocas cada = 5000 chamadas

Sem cache: 5000 × 4k × $3/1M = $60/mês só de prompt

Com cache: 1 escrita + 4999 leituras de cache = ~$6/mês

Economia: 90%

📋 Como ativar

• Adiciona cache_control: {"type": "ephemeral"} no system block

• TTL: 5 minutos (atualiza com qualquer chamada que use o cache)

• Estrutura: partes estáveis primeiro (system) · variáveis depois (mensagem do user)

• Funciona com Sonnet, Haiku, Opus

🧰 Configuração no n8n

Workflow no n8n self-hosted. A cola que conecta WhatsApp, RAG, LLM, tools e response.

Trigger — WhatsApp webhook

Meta Cloud envia webhook quando mensagem chega. n8n captura, valida, normaliza.

Memory — busca buffer no Supabase

SELECT últimas mensagens dessa conversa. Compõe histórico.

RAG — busca knowledge base

Vector search no Supabase. Top-K=5. Re-rank opcional.

LLM — chamada Anthropic

System prompt cacheado + memory + RAG results + user message. Tools definidas. Modelo Sonnet ou Haiku conforme rota.

Tools — executar ferramentas

Se modelo chamou tool (buscar_produto, criar_pedido), executa, retorna resultado pro modelo continuar.

Reply — envia resposta ao WhatsApp

POST para WABA Cloud. Salva no Supabase (log + buffer). Métricas atualizadas.

📊 Observabilidade básica desde dia 1

Loga cada conversa em Supabase: input, resposta, RAG retrieved, tools chamadas, custo. Dashboard simples (Metabase ou planilha).

📋 Schema mínimo

conversations: id · client_id · timestamp · input · response · rag_chunks · tools_called · model · tokens_in · tokens_out · cost · latency_ms · override_human · escalated

📈 Métricas-chave

• Volume diário
• Taxa de override
• Taxa de escalação
• Latência p50/p95
• Custo médio

🚨 Alertas

• Erro > 5% / 1h
• Latência > 5s
• Custo > R$ X / dia
• Escalação > 30%
• Override > 40%

📊 Dashboard

• Metabase gratuito
• Conectar Supabase
• 6 widgets básicos
• Compartilha com cliente

⚠️ Sem log, sem iteração

Sem dashboard, você descobre problema 2 semanas depois. Com dashboard, vê tendência em 24h. Observabilidade é parte do que cliente compra na manutenção.

🛠️ Resumo do módulo

✓

Sonnet (raciocínio) + Haiku (volume). Cascata: Haiku triage → Sonnet só pra complexo. Reduz custo 60-80%.

✓

RAG no Supabase pgvector. Chunk 300-500 tokens. Top-K 3-5. Re-rank opcional. #1 alavanca de qualidade.

✓

Memória = buffer + resumo. TTL obrigatório. Memória ilimitada explode contexto e custo.

✓

Prompt caching da Anthropic. Reduz custo 90%. cache_control no system. TTL 5 min.

✓

n8n é a cola. 6 nodes: Trigger · Memory · RAG · LLM · Tools · Reply. Self-hosted Hetzner.

✓

Observabilidade desde dia 1. Log estruturado no Supabase + Metabase. Métricas + alertas + dashboard.

Próximo módulo:

4.3 — Bateria de testes · 50 cenários reais · execução automatizada · adversariais · LLM-as-judge · regressão.

← Módulo 4.1 Módulo 4.3 →