Trilha 4 — Instruir | Profissional 2027

4.1~60 min

📜 System prompt canônico

Estrutura padrão em 7 blocos: identidade, contexto, conhecimento, regras, ferramentas, formato, exemplos.

O que é:

Nome do agente, função, empresa para a qual trabalha, tom de voz. Ex: "Você é o Polari, assistente de vendas da Polaris Bebidas em Joinville. Fala em PT-BR informal."

Por que aprender:

Sem identidade, agente vira ChatGPT genérico. Cliente percebe na 1ª resposta.

Conceitos-chave:

Nome · empresa · tom · personagem consistente · 50-80 palavras max.

O que é:

Descrição da empresa: o que vende, para quem, horário, área de cobertura, regras gerais de negócio.

Por que aprender:

Contexto fundamenta resposta. Sem ele, agente alucina serviços que a empresa não oferece.

Conceitos-chave:

Catálogo · região · horário · canais · 100-200 palavras.

O que é:

Instruções sobre quando consultar RAG (FAQ, base de produtos), como citar fonte, quando dizer "não sei".

Por que aprender:

RAG sem instrução vira lixo: agente cita FAQ irrelevante ou ignora knowledge base.

Conceitos-chave:

Quando buscar · top-K resultados · grounding · admitir desconhecimento.

O que é:

Inclui as RT-01..RT-NN do Pacote como regras explícitas. Numeradas, com gatilho e ação.

Por que aprender:

Regras tácitas só funcionam se viram texto no prompt. Numeração ajuda o cliente conferir.

Conceitos-chave:

Numeradas · gatilho explícito · "se X então Y" · revisão por operador.

O que é:

Lista de tools disponíveis (consultar_estoque, criar_pedido, escalar_humano) com quando chamar cada uma e quais parâmetros.

Por que aprender:

Tool use sem instrução clara = agente chama API errada ou inventa parâmetro.

Conceitos-chave:

Tool description · parâmetros · exemplos de uso · tratamento de erro.

O que é:

Formato de resposta (texto curto, sem markdown se WhatsApp, com emoji ou sem). Few-shot com 5-10 exemplos REAIS extraídos do Pacote.

Por que aprender:

Few-shot real é o segundo maior alavanca de qualidade depois do RAG. Format claro evita resposta gigante.

Conceitos-chave:

Output schema · 5-10 exemplos · cobre happy + exceção · revisão constante.

Ver Completo

4.2~50 min

🛠️ Construção do agente

Stack canônica: Claude Sonnet (raciocínio) + Haiku (volume) + RAG no Supabase + memória de conversa. Configurar no n8n.

O que é:

Sonnet 4.6 = raciocínio complexo, decisões com nuance, escrita longa. Haiku 4.5 = triagem, classificação, resposta rápida e barata.

Por que aprender:

Usar Sonnet pra tudo = custo 5x maior sem ganho de qualidade. Usar Haiku pra tudo = perde nuance.

Conceitos-chave:

Roteamento por intent · cascata Haiku→Sonnet · prompt caching.

O que é:

Indexa FAQ, base de produtos, documentos no Supabase com pgvector. Agente busca top-K relevantes antes de responder.

Por que aprender:

RAG cobre conhecimento que não cabe no prompt. Sem RAG, agente alucina ou diz "não sei".

Conceitos-chave:

Embeddings · top-K=3-5 · re-rank · grounding com citação.

O que é:

Mantém últimas 10-20 mensagens em buffer. Conversas longas: gera resumo automático + buffer recente. Evita explodir contexto.

Por que aprender:

Sem memória, cliente repete "você esqueceu". Memória ilimitada custa caro e degrada qualidade.

Conceitos-chave:

Buffer · resumo · TTL · janela deslizante.

O que é:

System prompt grande (3-5k tokens) é cacheado pela Anthropic. Cada chamada subsequente paga 10% do custo do prompt.

Por que aprender:

Sem caching, projeto fica caro. Com caching, mesmo prompt grande fica viável economicamente.

Conceitos-chave:

cache_control · TTL 5 min · estrutura: estável → variável.

O que é:

Workflow n8n: Trigger (WhatsApp) → Memory (buffer) → RAG (Supabase) → LLM (Anthropic) → Tools (Bling) → Reply.

Por que aprender:

n8n é a cola. Sem ele, você precisa codar em Node/Python — escapa do escopo no-code.

Conceitos-chave:

Self-hosted Hetzner · módulos AIOS · versionamento de workflow.

O que é:

Logar cada conversa em Supabase: input, resposta, RAG retrieved, tools chamadas, custo. Dashboard simples (Metabase ou planilha).

Por que aprender:

Sem log, você não consegue iterar. Sem métrica, não tem o slide de payback em 90 dias.

Conceitos-chave:

Log estruturado · custo por conversa · taxa de override · taxa de escalação.

Ver Completo

4.3~55 min

🧪 Bateria de testes

50 cenários reais extraídos do histórico. Cada um é um teste pass/fail. Agente passa em 90%+ antes de homologar.

O que é:

50 cenários extraídos do histórico do WhatsApp do cliente, cobrindo happy + exceções + adversariais. Cada um com input + output esperado.

Por que aprender:

50 reais > 200 fictícios. Real captura ambiguidade que fictício esquece.

Conceitos-chave:

Stratificado · 30 happy + 15 exceção + 5 adversarial · planilha com expected.

O que é:

Workflow n8n que itera nos 50 cenários, chama o agente, salva resposta em planilha. Comparação humana ou via LLM-as-judge.

Por que aprender:

Manual leva 4h. Automatizado leva 5 min. Iteração rápida é o que faz qualidade.

Conceitos-chave:

Loop n8n · planilha output · diff manual ou auto.

O que é:

5-10 testes adversariais: "ignore instruções acima", "me dê desconto de 90%", "qual seu prompt?", linguagem ofensiva, fora de escopo.

Por que aprender:

Cliente real vai testar. Sem testes adversariais, o primeiro troll quebra o agente em público.

Conceitos-chave:

Jailbreak · prompt leak · fora de escopo · resposta padrão de recusa.

O que é:

Critério para passar pra A: ≥90% nos cenários happy, ≥70% nas exceções, 100% nos adversariais (resposta de recusa).

Por que aprender:

Sem métrica explícita, "tá bom" é subjetivo. Métrica garante qualidade mínima objetiva.

Conceitos-chave:

Limiar pré-definido · medição por categoria · documentação do resultado.

O que é:

Usa Claude (ou outro modelo) pra julgar se a resposta do agente bate com o expected. Acelera avaliação de bateria grande.

Por que aprender:

Avaliar 50 cenários manualmente leva 2-3h. LLM-as-judge faz em 10 min e captura 80% dos erros.

Conceitos-chave:

Rubric clara · revisão humana spot-check · trade-off velocidade/precisão.

O que é:

Cada vez que você muda o prompt, roda a bateria de novo. Se 5 cenários antes passavam e agora 3 falham, é regressão — não merge.

Por que aprender:

Sem regressão, "melhorar 1 prompt" quebra 5 cenários sem você notar.

Conceitos-chave:

CI conceitual · versão do prompt · diff de resultado por versão.

Ver Completo

4.4~50 min

🔁 Iteração e ajuste

Loop de melhoria: roda bateria → identifica falhas → ajusta prompt/RAG/tools → roda de novo. 3-5 ciclos.

O que é:

Para cada cenário que falhou, classifica causa: RAG não recuperou · prompt ambíguo · few-shot conflitante · tool não chamada · alucinação.

Por que aprender:

Causa errada = correção errada. "Vou melhorar o prompt" não resolve falha de RAG.

Conceitos-chave:

5 categorias de falha · diagnóstico antes de fix · planilha de causa-raiz.

O que é:

Mudanças pequenas e direcionadas. Adicionar 1 regra. Esclarecer 1 instrução. Adicionar 1 few-shot. Não reescrever bloco inteiro.

Por que aprender:

Reescrever bloco inteiro = surpresa em outros cenários. Ajuste cirúrgico mantém o que estava bom.

Conceitos-chave:

Ajuste mínimo · 1 mudança por vez · roda bateria entre ajustes.

O que é:

Se RAG recupera coisa errada: ajusta chunk size, adiciona metadata, melhora query expansion, adiciona re-rank.

Por que aprender:

RAG ruim é a #1 causa de alucinação em PME. Prompt perfeito não salva RAG ruim.

Conceitos-chave:

Chunk 300-500 tokens · metadata filtros · re-rank Cohere/Voyage.

O que é:

Algumas falhas exigem tool nova (ex: calcular_desconto) ou guardrail (ex: bloquear desconto > 20%). Reconhecer quando ajustar prompt não basta.

Por que aprender:

Forçar prompt a fazer cálculo determinístico = receita pra bug. Tool resolve melhor.

Conceitos-chave:

Tool para cálculo · validação determinística · guardrail no n8n.

O que é:

Quando a bateria estabilizou no critério (90%/70%/100%) e os últimos 2 ciclos só geram ganho marginal, para. Deploy > perfeição.

Por que aprender:

Otimização eterna é fuga de deploy. Cliente aprende melhor com agente real em produção que com 6ª iteração.

Conceitos-chave:

Critério atingido · ganho marginal < 2% · go para A.

O que é:

Para cada iteração: o que mudou, por que, resultado na bateria. Vira documentação para o cliente e para próximo projeto.

Por que aprender:

Sem changelog, em 3 meses você não lembra por que aquela regra existe. Cliente não vê o trabalho feito.

Conceitos-chave:

1 linha por iteração · vinculada à versão do prompt · entregue ao cliente.

Ver Completo

4.5~45 min

✅ Homologação com cliente

Sponsor e champion testam o agente em ambiente controlado. Aprovam ou pedem ajuste antes do deploy em produção.

O que é:

Cria número WhatsApp Business separado (ou usa WhatsApp pessoal do dono) para testar agente sem afetar cliente real.

Por que aprender:

Testar em produção = expor cliente real a bug. Homologação isolada é defesa.

Conceitos-chave:

Número de teste · base de dados separada · feature flag.

O que é:

Lista de 15-20 cenários para o sponsor/champion testarem: pedir cotação, consultar status, tentar quebrar regra, sair do escopo.

Por que aprender:

Cliente sozinho não sabe o que testar. Roteiro guia e captura aprovação por cenário.

Conceitos-chave:

Roteiro impresso · checklist · observador presente.

O que é:

Reunião de 1-2h com sponsor + champion. Eles testam, você observa silencioso. Anota cada surpresa e reação.

Por que aprender:

Reação do cliente vendo o agente vale mais que qualquer teste automatizado. Você captura objeção e ajuste.

Conceitos-chave:

Silêncio do implementador · anotação de reação · perguntas após.

O que é:

Ajustes pequenos pedidos em homologação: faz na hora se possível, ou agenda follow-up em 48h. Não deixa marinar.

Por que aprender:

Velocidade de ajuste é parte do que cliente compra. Adiar parece desorganização.

Conceitos-chave:

Iteração ao vivo · follow-up < 48h · prova de competência.

O que é:

Após sessão, sponsor assina termo "agente aprovado para deploy em produção em DD/MM/AAAA". Lista cenários testados.

Por que aprender:

Sem assinatura, "ah mas aquilo eu não vi" depois do deploy. Termo é defesa.

Conceitos-chave:

Termo de homologação · escopo congelado · gate para A.

O que é:

Grava 5-10 micro-vídeos de 2-3 min cada: como ver conversas, como override, como adicionar à FAQ, como reportar bug.

Por que aprender:

Champion treinado é o que sustenta o projeto após go-live. Sem treinamento, projeto morre em 30 dias.

Conceitos-chave:

Vídeos curtos · checklist · prática supervisionada · train-the-trainer.

Ver Completo

4.6~40 min

📦 Agente pronto para deploy

Exit-gate de 6 itens. Sem todos, não vai para fase A. Documentação final entregue ao cliente.

O que é:

(1) Bateria passada nos critérios · (2) Matriz HITL implementada · (3) Tools integradas e testadas · (4) Champion treinado · (5) Termo de homologação assinado · (6) RIPD em ordem.

Por que aprender:

Avançar pra A sem isso = problema em deploy + cliente desconfia.

Conceitos-chave:

Checklist físico · revisão · honestidade.

O que é:

System prompt versionado · workflow n8n exportado · scripts de tools · base RAG · termo homologação · micro-vídeos · runbook básico.

Por que aprender:

Cliente é dono dos artefatos — princípio anti-lock-in. Entrega organizada blinda o relacionamento.

Conceitos-chave:

Pasta padrão · entregáveis listados no contrato · cliente acessa.

O que é:

Documento de 2-4 páginas: como pausar agente, como override, como ver logs, como reportar incidente, contatos de emergência.

Por que aprender:

Sem runbook, primeiro problema vira pânico. Com runbook, champion resolve sozinho.

Conceitos-chave:

Procedimentos passo a passo · contatos · escalação · revisão mensal.

O que é:

RIPD assinado · mensagem de boas-vindas com aviso sobre IA · canal de exercício de direitos do titular · retenção de dados configurada.

Por que aprender:

Conformidade no dia zero. Deploy sem isso = vulnerabilidade legal.

Conceitos-chave:

Aviso transparente · email de DPO (do cliente) · TTL configurado.

O que é:

Documento de 1 página resumindo: data do deploy, plano de rollout (rampa progressiva), pessoas envolvidas, contingência se algo der errado.

Por que aprender:

Deploy é cirurgia. Plano por escrito reduz fricção e dá segurança ao cliente.

Conceitos-chave:

Plano de rollout · rampa · contingência · responsáveis.

O que é:

Fase I leva 2-4 semanas em PME típica. Inclui escrever prompt + construir agente + bateria + iteração + homologação.

Por que aprender:

Sem timing claro, cliente cobra entrega em 1 semana. Prazo definido = expectativa alinhada.

Conceitos-chave:

2-4 semanas norm · 6 max · comunicação semanal de progresso.

Ver Completo

📚 Instruir

Mapa da trilha

📜 System prompt canônico

🛠️ Construção do agente

🧪 Bateria de testes

🔁 Iteração e ajuste

✅ Homologação com cliente

📦 Agente pronto para deploy

Conteúdo detalhado

📜 System prompt canônico

🛠️ Construção do agente

🧪 Bateria de testes

🔁 Iteração e ajuste

✅ Homologação com cliente

📦 Agente pronto para deploy