24 de maio de 2026 3 min read Any AI Studio

Ramifica o perdedor, fica com o vencedor: A/B de modelos dentro de uma só thread

Trocar de modelo a meio da conversa não é um truque. É a forma mais rápida de descobrir qual modelo frontier é realmente o melhor para a tua tarefa específica — sem reescrever o prompt nem perder o contexto.

funcionalidades
fluxo de trabalho

A funcionalidade mais usada do studio não é a geração de imagens nem o vídeo nem a pesquisa web. É o pequeno ícone por baixo de cada mensagem que te permite voltar a executá-la noutro modelo. As pessoas descobrem-no por acidente, e depois deixam de ler benchmarks de modelos, porque podem simplesmente verificar.

O problema com «qual é o melhor modelo»

É a pergunta errada. Não há um melhor modelo — há um melhor modelo para este prompt, hoje. O GPT-5.5 escreve prosa de primeiro rascunho mais limpa. O Claude Opus 4.7 segura um argumento longo sem perder o fio. O Gemini 3.1 Pro é absurdamente bom a extrair estrutura de um documento desorganizado. O Grok é mais rápido e mais engraçado e erra mais vezes. O ranking inverte-se consoante o que estás a fazer nos próximos cinco minutos.

A forma honesta de saber é passar o mesmo prompt por dois ou três deles e ler os resultados lado a lado. A forma desonesta é ler um leaderboard de há seis semanas. Construímos o produto à volta da forma honesta.

Como funciona a ramificação

Cada mensagem tem uma ação de ramificação. Carrega nela, escolhe outro modelo, e o studio volta a executar essa mensagem com todo o contexto da conversa intacto — instruções de sistema, turnos anteriores, ficheiros anexados, tudo. Não reescreves nada. Obténs uma ramificação paralela que podes comparar com a original.

Fica com o vencedor e a conversa continua por esse caminho. As ramificações perdedoras ficam na árvore, colapsadas, caso queiras voltar. Nada é destruído; a thread torna-se um pequeno registo de experiências.

Um fluxo de trabalho que realmente compensa

Este é o padrão que converte os céticos, tirado do uso real:

Rascunho num modelo rápido. Começa um texto num modelo rápido e barato para lhe dar forma. Créditos baratos, resposta veloz.
Ramifica o turno difícil para um modelo de raciocínio. Quando chegas à parte que é realmente difícil — o argumento que tem de se aguentar, o código que tem de estar correto — ramifica só essa mensagem para o Opus ou o GPT-5.5. Pagas o extra apenas onde importa.
Compara, não adivinhes. Quando dois modelos discordam sobre algo factual, essa discordância é informação. Ramifica um terceiro modelo como desempate, ou manda-lhe pesquisa web a seguir.

O resultado é que o teu custo médio por conversa baixa, porque não estás a pagar preços frontier pelos 80% fáceis — e a tua qualidade nos 20% difíceis sobe, porque os estás a encaminhar para o modelo que é realmente bom nisso.

Porque é que uma só subscrição importa aqui

A ramificação só funciona se os modelos estiverem todos num só sítio, sobre um mesmo pool de créditos partilhado. Assim que estás a fazer malabarismo com três subscrições separadas e três separadores separados, a fricção mata o hábito — deixas de comparar e usas o separador que já tens aberto. É assim que acabas preso a um único provedor por inércia e não por escolha.

Dentro do studio, trocar de modelo é um clique e os mesmos créditos. O custo de verificar é quase zero, por isso as pessoas verificam. Ao longo de algumas semanas isso transforma-se num sentido real e ganho de a que modelo recorrer — o que vale mais do que qualquer benchmark que pudéssemos publicar.

Experimenta no teu próximo prompt difícil

Da próxima vez que receberes uma resposta que está quase certa, não voltes a lançar o mesmo prompt ao mesmo modelo à espera de sorte. Ramifica-o para outro. Metade das vezes o segundo modelo simplesmente acerta — e terás aprendido algo duradouro sobre os dois que nenhum artigo de análise te teria contado.

Achou um erro ou quer discordar? Escreva para nós .