⚡ AutomationsAI|Portal de Cursos →

Verificando acesso...

MÓDULO 4.2

🛠️ Construção do agente

Stack canônica: Claude Sonnet (raciocínio) + Haiku (volume) · Supabase pgvector RAG · memória de conversa · prompt caching · workflow no n8n · observabilidade desde dia 1.

6
Tópicos
50
Minutos
Aplic.
Nível
Tech
Tipo
1

🎚️ Sonnet vs Haiku — quando usar cada

Sonnet 4.6 = raciocínio complexo, decisões com nuance, escrita longa. Haiku 4.5 = triagem, classificação, resposta rápida e barata.

Sonnet 4.6

Use para: cotação complexa, multi-step reasoning, escrita longa, casos com nuance política.

• Custo: $3/$15 por 1M tokens (in/out)
• Latência: 1-3s
• Tool use sofisticado

Haiku 4.5

Use para: triagem inicial, classificação de intent, resposta padrão, FAQ.

• Custo: $0.80/$4 por 1M tokens
• Latência: 0.5-1s
• Volume alto barato

💡 Cascata Haiku → Sonnet

Haiku classifica a mensagem. Se cair em cenário simples (FAQ), responde direto. Se cair em cenário complexo, passa pra Sonnet. Reduz custo 60-80%.

2

🗄️ RAG no Supabase com pgvector

Indexa FAQ, base de produtos, documentos no Supabase com pgvector. Agente busca top-K relevantes antes de responder.

⚙️ Setup mínimo

CREATE EXTENSION vector;
CREATE TABLE kb (id uuid, content text, embedding vector(1536), metadata jsonb);
CREATE INDEX ON kb USING ivfflat (embedding vector_cosine_ops);

📐 Chunking

300-500 tokens por chunk. Overlap 50 tokens. Texto + metadata (categoria, data, fonte).

🎯 Top-K

K=3-5 normalmente. K=10 se base grande. Re-rank com Cohere/Voyage opcional pra precisão.

🪞 Grounding

Passa os chunks recuperados no prompt + instrução "responda apenas com base nestes documentos". Reduz alucinação.

📊 RAG é #1 alavanca de qualidade

Bom RAG reduz alucinação em 70%+ vs prompt seco. Sem RAG, agente inventa ou diz "não sei" demais.

3

🧠 Memória de conversa

Buffer + resumo. Mantém últimas 10-20 mensagens em buffer. Conversas longas: gera resumo automático + buffer recente.

📥 Buffer simples

Conversas até 10-20 trocas. Tudo no contexto.

  • • Janela deslizante
  • • TTL 24h
  • • Apaga quando inatividade > 48h

📚 Buffer + resumo

Conversas longas (>20 trocas). Resume mensagens antigas.

  • • Resumo das 30 primeiras + últimas 10 cruas
  • • Resumo gerado por Haiku (barato)
  • • Reduz contexto sem perder info crítica

⚠️ Memória ilimitada explode contexto

Cliente que conversa 50x manda contexto de 10k tokens. Custo + latência sobem. Qualidade degrada (modelo perde info no meio). TTL + resumo é obrigatório.

4

💾 Prompt caching da Anthropic

System prompt grande (3-5k tokens) é cacheado pela Anthropic. Cada chamada subsequente paga 10% do custo do prompt. Reduz custo 90% em sistemas de produção.

🧮 Cálculo de impacto

• System prompt: 4k tokens

• 1000 conversas/mês com 5 trocas cada = 5000 chamadas

Sem cache: 5000 × 4k × $3/1M = $60/mês só de prompt

Com cache: 1 escrita + 4999 leituras de cache = ~$6/mês

Economia: 90%

📋 Como ativar

• Adiciona cache_control: {"type": "ephemeral"} no system block

• TTL: 5 minutos (atualiza com qualquer chamada que use o cache)

• Estrutura: partes estáveis primeiro (system) · variáveis depois (mensagem do user)

• Funciona com Sonnet, Haiku, Opus

5

🧰 Configuração no n8n

Workflow no n8n self-hosted. A cola que conecta WhatsApp, RAG, LLM, tools e response.

1

Trigger — WhatsApp webhook

Meta Cloud envia webhook quando mensagem chega. n8n captura, valida, normaliza.

2

Memory — busca buffer no Supabase

SELECT últimas mensagens dessa conversa. Compõe histórico.

3

RAG — busca knowledge base

Vector search no Supabase. Top-K=5. Re-rank opcional.

4

LLM — chamada Anthropic

System prompt cacheado + memory + RAG results + user message. Tools definidas. Modelo Sonnet ou Haiku conforme rota.

5

Tools — executar ferramentas

Se modelo chamou tool (buscar_produto, criar_pedido), executa, retorna resultado pro modelo continuar.

6

Reply — envia resposta ao WhatsApp

POST para WABA Cloud. Salva no Supabase (log + buffer). Métricas atualizadas.

6

📊 Observabilidade básica desde dia 1

Loga cada conversa em Supabase: input, resposta, RAG retrieved, tools chamadas, custo. Dashboard simples (Metabase ou planilha).

📋 Schema mínimo

conversations: id · client_id · timestamp · input · response · rag_chunks · tools_called · model · tokens_in · tokens_out · cost · latency_ms · override_human · escalated

📈 Métricas-chave

  • • Volume diário
  • • Taxa de override
  • • Taxa de escalação
  • • Latência p50/p95
  • • Custo médio

🚨 Alertas

  • • Erro > 5% / 1h
  • • Latência > 5s
  • • Custo > R$ X / dia
  • • Escalação > 30%
  • • Override > 40%

📊 Dashboard

  • • Metabase gratuito
  • • Conectar Supabase
  • • 6 widgets básicos
  • • Compartilha com cliente

⚠️ Sem log, sem iteração

Sem dashboard, você descobre problema 2 semanas depois. Com dashboard, vê tendência em 24h. Observabilidade é parte do que cliente compra na manutenção.

🛠️ Resumo do módulo

Sonnet (raciocínio) + Haiku (volume). Cascata: Haiku triage → Sonnet só pra complexo. Reduz custo 60-80%.
RAG no Supabase pgvector. Chunk 300-500 tokens. Top-K 3-5. Re-rank opcional. #1 alavanca de qualidade.
Memória = buffer + resumo. TTL obrigatório. Memória ilimitada explode contexto e custo.
Prompt caching da Anthropic. Reduz custo 90%. cache_control no system. TTL 5 min.
n8n é a cola. 6 nodes: Trigger · Memory · RAG · LLM · Tools · Reply. Self-hosted Hetzner.
Observabilidade desde dia 1. Log estruturado no Supabase + Metabase. Métricas + alertas + dashboard.

Próximo módulo:

4.3 — Bateria de testes · 50 cenários reais · execução automatizada · adversariais · LLM-as-judge · regressão.