🎚️ Sonnet vs Haiku — quando usar cada
Sonnet 4.6 = raciocínio complexo, decisões com nuance, escrita longa. Haiku 4.5 = triagem, classificação, resposta rápida e barata.
Sonnet 4.6
Use para: cotação complexa, multi-step reasoning, escrita longa, casos com nuance política.
Haiku 4.5
Use para: triagem inicial, classificação de intent, resposta padrão, FAQ.
💡 Cascata Haiku → Sonnet
Haiku classifica a mensagem. Se cair em cenário simples (FAQ), responde direto. Se cair em cenário complexo, passa pra Sonnet. Reduz custo 60-80%.
🗄️ RAG no Supabase com pgvector
Indexa FAQ, base de produtos, documentos no Supabase com pgvector. Agente busca top-K relevantes antes de responder.
⚙️ Setup mínimo
CREATE TABLE kb (id uuid, content text, embedding vector(1536), metadata jsonb);
CREATE INDEX ON kb USING ivfflat (embedding vector_cosine_ops);
📐 Chunking
300-500 tokens por chunk. Overlap 50 tokens. Texto + metadata (categoria, data, fonte).
🎯 Top-K
K=3-5 normalmente. K=10 se base grande. Re-rank com Cohere/Voyage opcional pra precisão.
🪞 Grounding
Passa os chunks recuperados no prompt + instrução "responda apenas com base nestes documentos". Reduz alucinação.
📊 RAG é #1 alavanca de qualidade
Bom RAG reduz alucinação em 70%+ vs prompt seco. Sem RAG, agente inventa ou diz "não sei" demais.
🧠 Memória de conversa
Buffer + resumo. Mantém últimas 10-20 mensagens em buffer. Conversas longas: gera resumo automático + buffer recente.
📥 Buffer simples
Conversas até 10-20 trocas. Tudo no contexto.
- • Janela deslizante
- • TTL 24h
- • Apaga quando inatividade > 48h
📚 Buffer + resumo
Conversas longas (>20 trocas). Resume mensagens antigas.
- • Resumo das 30 primeiras + últimas 10 cruas
- • Resumo gerado por Haiku (barato)
- • Reduz contexto sem perder info crítica
⚠️ Memória ilimitada explode contexto
Cliente que conversa 50x manda contexto de 10k tokens. Custo + latência sobem. Qualidade degrada (modelo perde info no meio). TTL + resumo é obrigatório.
💾 Prompt caching da Anthropic
System prompt grande (3-5k tokens) é cacheado pela Anthropic. Cada chamada subsequente paga 10% do custo do prompt. Reduz custo 90% em sistemas de produção.
🧮 Cálculo de impacto
• System prompt: 4k tokens
• 1000 conversas/mês com 5 trocas cada = 5000 chamadas
Sem cache: 5000 × 4k × $3/1M = $60/mês só de prompt
Com cache: 1 escrita + 4999 leituras de cache = ~$6/mês
Economia: 90%
📋 Como ativar
• Adiciona cache_control: {"type": "ephemeral"} no system block
• TTL: 5 minutos (atualiza com qualquer chamada que use o cache)
• Estrutura: partes estáveis primeiro (system) · variáveis depois (mensagem do user)
• Funciona com Sonnet, Haiku, Opus
🧰 Configuração no n8n
Workflow no n8n self-hosted. A cola que conecta WhatsApp, RAG, LLM, tools e response.
Trigger — WhatsApp webhook
Meta Cloud envia webhook quando mensagem chega. n8n captura, valida, normaliza.
Memory — busca buffer no Supabase
SELECT últimas mensagens dessa conversa. Compõe histórico.
RAG — busca knowledge base
Vector search no Supabase. Top-K=5. Re-rank opcional.
LLM — chamada Anthropic
System prompt cacheado + memory + RAG results + user message. Tools definidas. Modelo Sonnet ou Haiku conforme rota.
Tools — executar ferramentas
Se modelo chamou tool (buscar_produto, criar_pedido), executa, retorna resultado pro modelo continuar.
Reply — envia resposta ao WhatsApp
POST para WABA Cloud. Salva no Supabase (log + buffer). Métricas atualizadas.
📊 Observabilidade básica desde dia 1
Loga cada conversa em Supabase: input, resposta, RAG retrieved, tools chamadas, custo. Dashboard simples (Metabase ou planilha).
📋 Schema mínimo
📈 Métricas-chave
- • Volume diário
- • Taxa de override
- • Taxa de escalação
- • Latência p50/p95
- • Custo médio
🚨 Alertas
- • Erro > 5% / 1h
- • Latência > 5s
- • Custo > R$ X / dia
- • Escalação > 30%
- • Override > 40%
📊 Dashboard
- • Metabase gratuito
- • Conectar Supabase
- • 6 widgets básicos
- • Compartilha com cliente
⚠️ Sem log, sem iteração
Sem dashboard, você descobre problema 2 semanas depois. Com dashboard, vê tendência em 24h. Observabilidade é parte do que cliente compra na manutenção.
🛠️ Resumo do módulo
Próximo módulo:
4.3 — Bateria de testes · 50 cenários reais · execução automatizada · adversariais · LLM-as-judge · regressão.