Não Dê Mais Prompts ao Seu Agente de Programação. Crie o Loop que os Gera Automaticamente

Você não deveria mais estar apenas dando prompts para agentes de codificação. Você deveria estar projetando loops que dão prompts aos seus agentes. Parece uma frase de efeito, mas aponta para a maior mudança na forma como bons engenheiros trabalham com IA atualmente. As pessoas que estão obtendo verdadeiro proveito dos agentes de codificação de IA pararam de tratar o agente como um parceiro de bate-papo. Elas o tratam como um trabalhador dentro de um loop que construíram.

botão

TL;DR

Um loop de agente de codificação é uma estrutura de controle que executa um agente repetidamente: gera uma mudança, a executa, verifica o resultado em relação a um sinal rígido, realimenta a falha e repete até que a verificação passe ou um limite seja atingido. O agente não é a parte difícil. O portão de verificação é. Um loop com um portão vago (“parece bom, tente novamente”) desvia e alucina “concluído”. Um loop com um portão determinístico (um teste falho, uma incompatibilidade de esquema, um contrato quebrado) converge. Para trabalho de API e backend, seu conjunto de testes automatizados e verificações de contrato são esse portão, e é por isso que o teste de API pertence ao centro de um fluxo de trabalho agêntico, e não anexado no final.

De prompts a projeto de loops

A maioria das pessoas conhece a codificação com IA através de uma caixa de chat. Você digita uma solicitação, lê a resposta, copia o que funciona e digita novamente. Isso é prompting. É bom para uma função única ou uma explicação rápida. Ele se desfaz no momento em que a tarefa exige mais de uma rodada de feedback para ser corrigida, o que é a maioria do trabalho real.

Aqui está o problema com prompts manuais. Você é o loop. Você lê a saída, identifica o bug, decide o que dizer em seguida, cola o erro de volta. Cada iteração espera por um humano. O agente pode gerar código em segundos, e então fica ocioso por minutos enquanto você alterna o contexto, rola a tela e digita. Você se torna a parte lenta de um sistema rápido.

Projetar um loop inverte isso. Em vez de ser o que lê a saída e decide o próximo prompt, você constrói uma estrutura que faz isso automaticamente. O agente escreve o código. Um script o executa. O resultado é capturado. Se falhou, a falha retorna diretamente ao agente como o próximo prompt. Nenhum humano no loop interno. Você intervém apenas nas bordas: para definir a tarefa, para aprovar o resultado, para encerrar a execução se algo der errado. O próprio artigo da Anthropic sobre construir agentes eficazes faz o mesmo ponto com outras palavras. A vitória vem do ambiente que você constrói em torno do modelo, não de um prompt único mais inteligente.

A mudança de modelo mental é pequena, mas total. Pare de perguntar “o que devo dizer ao agente?” Comece a perguntar “que loop faria o agente se dizer?”

O que realmente é um loop de agente de codificação

Tire o hype e um loop de agente de codificação tem cinco partes. Se você perder uma, o loop nunca termina ou termina errado.

Uma especificação de tarefa. Uma descrição clara e escrita do que significa "concluído". Não “faça funcionar”, mas “o endpoint POST /orders retorna 201 com o pedido criado, valida o corpo em relação ao esquema e rejeita campos ausentes com 422.”
O agente. O modelo mais suas ferramentas: ler arquivos, gravar arquivos, executar comandos de shell. Esta é a parte em que todos se fixam e a parte que você menos controla.
Uma etapa de ação. O agente faz uma mudança, então algo realmente a executa. Testes, uma compilação, uma verificação de tipo, uma solicitação contra um endpoint em produção.
Um portão de verificação. Uma verificação determinística que retorna sucesso ou falha com uma razão concreta. Este é o volante. Passaremos a maior parte deste post aqui.
Uma condição de término. Quando o loop para? O portão passa, ou você atinge uma contagem máxima de iterações, ou você excede um orçamento de custo. Um loop sem saída é um descontrole, não um fluxo de trabalho.

Em pseudocódigo, o padrão completo se encaixa em poucas linhas:

task = load_spec("orders-endpoint.md")
for attempt in range(MAX_ITERATIONS):
    agent.run(task, feedback=last_result)   # generate
    result = run_verification()             # run + check the gate
    if result.passed:
        break                               # terminate: success
    last_result = result.failures           # feed failure back
else:
    escalate_to_human(last_result)          # terminate: gave up

Esse loop é a ideia toda. O agente gera, o portão julga, a falha se torna o próximo prompt, e tudo isso roda até ficar verde ou sem tentativas. A variante que as pessoas compartilham online como a técnica “Ralph” é isso com `MAX_ITERATIONS` definido alto e a especificação escrita de forma concisa. Se você leu nossa análise da arquitetura do harness do agente, esta é a estrutura em sua forma mais simples e honesta.

Por que o prompting único falha

Um único prompt assume que o modelo acerta na primeira vez, ou que você detectará o que ele errou. Ambas as suposições falham em escala.

Modelos são fortes em gerar código plausível e fracos em saber se esse código está correto. Eles escreverão um endpoint que parece correto, compila e silenciosamente retorna o código de status errado em um caso de borda. Em um chat, você pode não perceber até que a produção o faça. O modelo não tem feedback informando que o caso de borda falhou, então ele relata sucesso com confiança. Essa lacuna entre “parece pronto” e “está pronto” é exatamente onde os loops se justificam.

Um loop fecha a lacuna recusando-se a aceitar a própria opinião do modelo sobre seu trabalho. O agente não pode dizer que terminou. O portão diz. Execute os testes; se estiverem vermelhos, a tarefa não está concluída, ponto final, e a saída vermelha é a próxima coisa que o agente lê. A confiança do modelo deixa de importar. Apenas o sinal importa.

Há também um ângulo de produtividade. O prompting manual limita sua produtividade a um agente que você está monitorando ativamente. Loops permitem que você execute vários de uma vez, cada um trabalhando em sua própria tarefa contra seu próprio portão, porque nenhum deles precisa de você no ciclo interno. Essa é a virada que nosso artigo sobre fluxos de trabalho de agentes dinâmicos e paralelos aborda: uma vez que o loop é automatizado, você escala adicionando loops, não digitando mais rápido.

A parte que todos subestimam: o portão de verificação

Aqui está a verdade incômoda. A maioria dos fluxos de trabalho de agentes que falham não falham porque o modelo era muito fraco. Eles falham porque o sinal de feedback era muito suave.

Pense no que o portão faz. A cada iteração, ele diz ao agente uma de duas coisas: você passou, pare; ou você falhou, aqui está exatamente o porquê. A qualidade de “aqui está exatamente o porquê” determina se a próxima iteração melhora ou divaga. Dê ao agente um rastreamento de pilha preciso apontando para a linha 42 e a asserção que falhou, e ele corrige a coisa certa. Dê a ele “algo parece errado, por favor, revise”, e ele adivinha, muitas vezes piorando o código enquanto parece mais confiante.

Portões determinísticos convergem. Portões difusos divagam. Esse é o jogo todo.

O que faz um bom portão?

É binário e reprodutível. Mesma entrada, mesmo veredito, sempre. Sem “depende de como o modelo se sente hoje.”
Falha ruidosamente com um motivo. Um nome de teste, uma diferença entre esperado e real, um número de linha, um código de erro. O motivo é o próximo prompt, então ele precisa ser específico.
O agente não pode editá-lo silenciosamente. Se o agente puder alterar o teste para fazê-lo passar, o portão é teatro. Proteja o portão. Trate-o como a especificação, não como código que o agente possui.
Ele executa rápido o suficiente para o loop. Um portão que leva 20 minutos limita sua velocidade de iteração. Loops curtos precisam de verificações rápidas.

Bons portões já existem em toda base de código madura. Testes unitários. Verificadores de tipo. Linters. Compiladores. Validadores de esquema. Testes de contrato. Estes são oráculos determinísticos. Eles foram construídos para dizer aos humanos “isso está errado e aqui está o porquê”, que é precisamente o sinal que um loop de agente precisa. Você não precisa inventar o portão. Você precisa apontar o loop para os portões em que você já confia e escrever novos onde a cobertura é escassa. Se você nunca formalizou essa camada, nosso guia sobre o que realmente é o teste automatizado é uma boa base antes de conectá-lo a um loop.

Para trabalho de API e backend, seu conjunto de testes é o loop

É aqui que a ideia abstrata se torna concreta para qualquer pessoa que construa serviços. Quando um agente escreve um endpoint de API, qual é a verdade fundamental que diz que funciona? Não o resumo do modelo. O comportamento real do endpoint em teste: códigos de status corretos, corpo da resposta correspondendo ao esquema, autenticação imposta, entrada inválida rejeitada, o contrato honrado.

Cada um deles é verificável, automaticamente, com um resultado determinístico. O que significa que seu conjunto de testes de API já está formatado exatamente como o portão de verificação que um loop de agente precisa. Você estava construindo o portão o tempo todo; você apenas o chamava de teste.

Um loop concreto para trabalho de endpoint se parece com isto:

O agente lê a especificação da tarefa e a definição OpenAPI, então escreve ou edita o endpoint.
A estrutura executa o conjunto de testes de API contra o serviço em execução: asserções de status, validação de esquema JSON em cada resposta, verificações de contrato contra a especificação.
As falhas retornam estruturadas. “Esperado 422 em customer_id ausente, obtido 500.” “Campo de resposta total é uma string, esquema diz número.” “Endpoint /orders/{id} na especificação não tem implementação.”
Essa falha estruturada se torna o próximo prompt do agente. Ele corrige a lacuna específica.
Repita até que o conjunto esteja verde, então entregue a um humano para revisão.

A chave é que o feedback na etapa 3 é preciso e gerado por máquina, não uma 'vibração'. É isso que mantém o loop convergindo em vez de divagando. O teste de contrato e com esquema primeiro importam mais do que nunca aqui, porque a especificação OpenAPI se torna a fonte compartilhada de verdade que tanto o agente quanto o portão leem. A divergência entre código e especificação deixa de ser um problema lento de documentação e se torna um portão vermelho instantâneo.

Este é o papel que o Apidog desempenha em um fluxo de trabalho agêntico. É uma plataforma de API completa onde o design, o esquema, o servidor mock e os testes automatizados vivem em um só lugar, o que significa que o portão e a especificação permanecem sincronizados por padrão. Você aponta o loop para um cenário de teste do Apidog, o agente recebe validação de esquema de aprovação/reprovação em cada iteração, e o servidor mock substitui dependências que ainda não foram construídas para que o agente possa trabalhar contra um alvo estável. Equipes que já executam este padrão conectam o acesso às ferramentas do agente através de algo como o depurador de agente de IA do Apidog para que o agente possa acessar e inspecionar endpoints da mesma forma que um testador humano faria. Baixe o Apidog se você quiser construir o portão visualmente em vez de criar um executor de testes manualmente.

Construa um loop de API mínimo com autocorreção hoje

Você não precisa de um framework para começar. Você precisa de uma especificação, um comando de teste e algumas linhas de código de ligação. Aqui está a menor versão que faz um trabalho real.

Etapa 1: escreva a especificação como a intenção do portão. Coloque o contrato em um arquivo OpenAPI e o comportamento em casos de teste. O agente lê ambos. Isso também serve como documentação, então não é um trabalho descartável.

Etapa 2: escolha um comando de teste que saia com código diferente de zero em caso de falha. Qualquer coisa funciona, desde que o código de saída seja honesto. Um conjunto pytest, uma execução Newman, um cenário de teste Apidog CLI. O loop só se importa com aprovação/reprovação mais a saída capturada.

# the gate, as one command
apidog run ./tests/orders-suite --reporter json > result.json

Etapa 3: conecte o loop. Execute o agente, execute o portão, ramifique com base no resultado.

MAX_ITERATIONS = 8
feedback = None
for attempt in range(MAX_ITERATIONS):
    run_agent(task="implement orders API per spec", feedback=feedback)
    gate = subprocess.run(["apidog", "run", "./tests/orders-suite",
                           "--reporter", "json"], capture_output=True)
    if gate.returncode == 0:
        print(f"green on attempt {attempt + 1}")
        break
    feedback = parse_failures(gate.stdout)   # the next prompt writes itself
else:
    print("8 attempts, still red; escalating to a human")

Etapa 4: proteja o portão. Mantenha os arquivos de teste e a especificação fora do conjunto de arquivos que o agente pode editar. Se ele puder reescrever o teste para passar, você construiu uma máquina para falsificar o progresso.

Etapa 5: limite o custo. Limite as iterações. Limite os gastos. Registre cada tentativa para que você possa ver se o loop está convergindo ou em falha. Se você está monitorando o gasto de tokens, nossas notas sobre como reduzir os custos de tokens do agente se aplicam diretamente, porque um loop que não converge queima o orçamento rapidamente.

Esse é um loop de autocorreção em funcionamento. O agente escreve, o conjunto julga, as falhas direcionam, e você obtém um endpoint verde ou uma escalada limpa em vez de uma mentira confiante.

Projetando bons loops: os erros que causam problemas

Alguns padrões separam loops que funcionam de loops que desperdiçam dinheiro silenciosamente.

Deixar o agente corrigir sua própria tarefa. Se a única verificação é “agente, você terminou?” você não tem um loop, você tem um chatbot com etapas extras. O portão deve ser externo ao agente.
Um portão muito grosseiro. “Testes passam” com três testes superficiais significa que o agente satisfaz três testes e envia bugs em tudo o que não foi coberto. A qualidade do loop é limitada pela cobertura do portão. Testes superficiais, resultados superficiais.
Sem guarda de término. Loops sem uma contagem máxima de iterações e um teto de custo podem girar para sempre em uma tarefa que o modelo não consegue resolver. Sempre defina uma saída e sempre escale para um humano quando isso acontecer.
Portões lentos. Um conjunto de integração de 15 minutos é uma boa verificação noturna e um péssimo loop interno. Mantenha um portão rápido para o loop e um portão completo para a fusão. Simule dependências externas para que o loop não espere por um terceiro instável.
Especificações mutáveis. Se o agente edita o arquivo OpenAPI para corresponder ao seu código com bugs, o teste de contrato fica verde pelo motivo errado. A especificação é a constituição. O agente trabalha sob ela, não sobre ela.
Uma tarefa gigante. Um loop que "constrói todo o serviço" raramente converge. Decomponha em tarefas do tamanho de um endpoint, cada uma com seu próprio portão. Loops pequenos terminam; os grandes falham.

A maioria desses pontos se resume à mesma disciplina: invista no sinal, não no prompt. Os padrões de conexão e os modos de falha aqui se alinham com o que abordamos em cabeamento de ferramentas para fluxo de trabalho agêntico, e eles se mantêm, seja seu agente Claude Code, Cursor, Codex, ou algo que você mesmo construiu.

Para onde isso está indo

A frase “pare de dar prompts, comece a usar loops” é um instantâneo de uma tendência maior. A habilidade que está se tornando valiosa não é a criação de prompts. É a criação de loops: escrever especificações claras, construir portões determinísticos, escolher condições de término e decidir o que o agente pode e não pode tocar. Isso está mais próximo do design de sistemas do que da engenharia de prompts, e recompensa engenheiros que já pensam em termos de testes, contratos e CI.

Isso também muda o valor de uma boa infraestrutura de testes. Por anos, os testes automatizados eram um seguro que você esperava nunca precisar. Em um fluxo de trabalho agêntico, eles se tornam o mecanismo de direção, o que transforma um gerador rápido, mas não confiável, em um sistema que converge para o correto. Equipes que já possuem forte cobertura de testes automatizados e contratos limpos são aquelas que conectam agentes e obtêm alavancagem imediatamente. Equipes sem isso obtêm uma maneira rápida de gerar código confiante, mas não testado.

Então, o movimento prático não é buscar um modelo melhor ou um prompt mais inteligente. É construir o portão. Aperte suas especificações. Torne seus testes de API determinísticos e rápidos. Mantenha seu esquema como a fonte da verdade. Em seguida, envolva-o em um loop e deixe o agente dar voltas até que o portão fique verde.

A conclusão

A mudança é simples de afirmar e difícil de internalizar. Não melhore em dar prompts ao seu agente de codificação. Melhore em projetar o loop que o aciona e no sinal de feedback em que esse loop se baseia. O agente é um gerador rápido sem um senso confiável de se está certo. O loop, através de um portão determinístico, fornece esse senso. Para qualquer pessoa que esteja construindo APIs, você já possui o portão. Seu conjunto de testes, seu esquema e seus contratos são a verdade fundamental que transforma um gerador ansioso em um sistema que converge para o correto.

Comece pequeno. Escreva uma especificação concisa, aponte um loop para um conjunto rápido de testes de API, proteja o portão, limite as iterações e observe um agente transformar um endpoint vermelho em verde sem você no loop interno. Em seguida, construa o próximo loop. Se você quiser que o portão seja visual, consciente do esquema e compartilhável em toda a sua equipe, o Apidog oferece o design, mocking e testes automatizados em um único espaço de trabalho; baixe-o e faça de seus testes o que impulsiona seus agentes.

botão