24 maggio 2026 3 min read Any AI Studio

Ramifica il perdente, tieni il vincitore: A/B di modelli dentro un thread

Cambiare modello a metà conversazione non è un trucchetto. È il modo più rapido per scoprire quale modello di frontiera è davvero il migliore per il tuo task specifico — senza ridigitare il prompt né perdere il contesto.

funzionalità
workflow

La funzionalità più usata in assoluto nello studio non è la generazione di immagini, né il video, né la ricerca web. È la piccola icona sotto ogni messaggio che ti permette di rieseguirlo su un modello diverso. La gente la scopre per caso, e poi smette di leggere i benchmark dei modelli, perché può semplicemente verificare.

Il problema del «qual è il modello migliore»

È la domanda sbagliata. Non esiste un modello migliore — esiste un modello migliore per questo prompt, oggi. GPT-5.5 scrive prima bozze di prosa più pulite. Claude Opus 4.7 tiene insieme una lunga argomentazione senza perdere il filo. Gemini 3.1 Pro è irragionevolmente bravo a tirare fuori una struttura da un documento disordinato. Grok è più veloce, più divertente e sbaglia più spesso. La classifica si ribalta a seconda di cosa stai facendo nei prossimi cinque minuti.

Il modo onesto di saperlo è far girare lo stesso prompt attraverso due o tre di loro e leggere gli output fianco a fianco. Il modo disonesto è leggere una leaderboard di sei settimane fa. Abbiamo costruito il prodotto attorno al modo onesto.

Come funziona la ramificazione

Ogni messaggio ha un’azione di ramificazione. Premila, scegli un modello diverso, e lo studio riesegue quel messaggio con l’intero contesto della conversazione intatto — istruzioni di sistema, turni precedenti, file allegati, tutto. Non ridigiti nulla. Ottieni un ramo parallelo che puoi confrontare con l’originale.

Tieni il vincitore e la conversazione prosegue lungo quel percorso. I rami perdenti restano nell’albero, collassati, nel caso tu voglia tornarci. Niente viene distrutto; il thread diventa un piccolo registro di esperimenti.

Un workflow che ripaga davvero

Ecco lo schema che converte gli scettici, preso dall’uso reale:

Bozza su un modello veloce. Inizia un testo su un modello rapido ed economico per dargli la forma. Crediti economici, ritorno veloce.
Ramifica il turno difficile verso un modello di ragionamento. Quando arrivi alla parte davvero difficile — l’argomentazione che deve reggere, il codice che deve essere corretto — ramifica solo quel messaggio verso Opus o GPT-5.5. Paghi il premium solo dove conta.
Confronta, non tirare a indovinare. Quando due modelli sono in disaccordo su qualcosa di fattuale, quel disaccordo è informazione. Ramifica un terzo modello come spareggio, oppure mandagli dietro la ricerca web.

Il risultato è che il tuo costo medio per conversazione cala, perché non paghi prezzi di frontiera per l’80% facile — e la tua qualità sul 20% difficile sale, perché lo stai instradando verso il modello che ci è davvero bravo.

Perché un solo abbonamento conta qui

La ramificazione funziona solo se i modelli sono tutti in un unico posto, su un’unica riserva di crediti condivisa. Nel momento in cui giostri tre abbonamenti separati e tre schede separate, l’attrito uccide l’abitudine — smetti di confrontare e usi semplicemente qualunque scheda sia già aperta. È così che finisci bloccato in un singolo provider per inerzia anziché per scelta.

Dentro lo studio, cambiare modello è un click e gli stessi crediti. Il costo di verificare è quasi zero, quindi la gente verifica. Nel giro di qualche settimana questo si trasforma in un senso reale e guadagnato di quale modello scegliere — che vale più di qualsiasi benchmark che potremmo pubblicare.

Provalo sul tuo prossimo prompt difficile

La prossima volta che ricevi una risposta quasi giusta, non riproporre lo stesso modello sperando in bene. Ramificalo verso uno diverso. Metà delle volte il secondo modello la azzecca e basta — e avrai imparato qualcosa di duraturo su entrambi che nessun articolo di recensione ti avrebbe detto.

Hai trovato un refuso o vuoi dissentire? Scrivici .