Token Inflation: Il costo nascosto di Claude Sonnet 5

Claude Sonnet 5 costa più di quanto sembri: il nuovo tokenizer produce il 30% in più di token a parità di prezzo. E non è l'unico costo nascosto.

Token Inflation: Il costo nascosto di Claude Sonnet 5

Il prezzo è lo stesso. Il conto no.

Anthropic ha rilasciato Claude Sonnet 5, presentandolo come "il modello Sonnet più agentico di sempre" con performance vicine a Opus 4.8 ma a prezzi più bassi. La documentazione ufficiale lo definisce un drop-in upgrade per Sonnet 4.6, cambi il model ID e tutto funziona come prima.

Ma c'è un dettaglio che trasforma questa notizia da "upgrade" a "aumento di prezzo implicito": il nuovo tokenizer produce circa il 30% in più di token per lo stesso identico testo.

La pagina "What's new" per sviluppatori lo scrive senza giri di parole: «lo stesso testo in input produce approssimativamente il 30% in più di token rispetto a Claude Sonnet 4.6» . Il prezzo per milione di token è invariato, $3 per input, $15 per output, ma se ogni richiesta consuma il 30% in più di token, il costo reale sale della stessa percentuale. È un aumento di prezzo che non appare su nessun listino.

Il prezzo per token non cambia. Ma la stessa frase ora vale più token. Il conto mensile sale del 30% senza che Anthropic abbia toccato una sola cifra della pagina pricing.

Tre token non fanno più un carattere

Simon Willison ha testato il nuovo tokenizer con il suo Claude Token Counter su quattro diversi tipi di contenuto. I risultati raccontano una storia più sfumata di quel "30%" generico:

ContenutoSonnet 4.6Sonnet 5Aumento
Dichiarazione Universale (inglese)2.3563.3411.42×
Dichiarazione Universale (spagnolo)3.5724.7471.33×
Dichiarazione Universale (cinese)3.3343.3601.01×
File Python (4.279 righe)44.01456.1131.27×

L'aumento non è uniforme. Per l'inglese, la lingua dominante nell'uso API, il costo aumenta del 42%. Per il codice Python, del 27%. Solo il cinese resta quasi invariato.

Anthropic, nel suo annuncio ufficiale, riconosce il problema in una nota a piè di pagina, non nel corpo del testo, e lo presenta come un tradeoff: «il compromesso è che lo stesso input può mappare su più token, da 1.0 a 1.35× a seconda del tipo di contenuto». La stessa nota aggiunge che il prezzo di lancio scontato ($2/$10 invece di $3/$15) è stato fissato proprio «per rendere la transizione a Sonnet 5 approssimativamente neutrale in termini di costo».

Peccato che lo sconto scada il 31 agosto 2026. Da settembre, il costo reale per la stessa richiesta salirà tra il 27% e il 42%.

Il context window resta a 1 milione di token. Ma siccome ogni token ora copre meno testo, quel milione di token contiene meno informazioni. La documentazione per sviluppatori lo dice esplicitamente: «la stessa finestra contiene meno testo rispetto a Claude Sonnet 4.6».

Non è solo un aumento di prezzo: il prodotto stesso si è ridotto.

Il modello decide. Tu paghi.

La token inflation è il cambiamento più misurabile, ma Sonnet 5 introduce altre due modifiche che spostano il controllo, e il costo, dal developer al modello.

Adaptive thinking sempre attivo. Su Sonnet 4.6, se non specificavi il parametro thinking, il modello rispondeva senza ragionamento interno. Su Sonnet 5, lo stesso comportamento produce adaptive thinking automatico: il modello decide da solo se e quanto "pensare" prima di rispondere. Puoi disabilitarlo con thinking: {type: "disabled"}, ma l'impostazione predefinita è attiva.

Questo significa che anche per richieste banali, come un completamento di frase, una traduzione o una formattazione, il modello può decidere di consumare token di ragionamento che non hai chiesto, che non vedi nell'output, e che paghi comunque.

Parametri di sampling rimossi. Temperature, top_p e top_k non sono più accettati. Impostarli a un valore non-default restituisce un errore 400. La documentazione suggerisce di usare «istruzioni nel system prompt per guidare il comportamento del modello», ma è un sostituto qualitativamente diverso: la temperatura è un parametro matematico deterministico, le istruzioni testuali sono probabilistiche.

Questa non è una semplificazione dell'API. È la rimozione di una leva di controllo che gli sviluppatori usano da anni per bilanciare creatività e prevedibilità.

Anthropic sta togliendo all'utente la capacità di decidere come il modello risponde, e la sta delegando al modello stesso. Che, incidentalmente, fattura a consumo.

La strategia del prezzo invisibile

Queste tre modifiche compongono una strategia coerente, un riposizionamento del rapporto tra chi sviluppa, chi paga e chi decide.

Il tokenizer più aggressivo fa costare di più ogni richiesta. L'adaptive thinking predefinito consuma token anche quando non servirebbe. La rimozione dei parametri di sampling impedisce allo sviluppatore di ottimizzare il comportamento per ridurre output verbosi o catene di ragionamento superflue.

Anthropic ha anche ritoccato i grafici costo-performance dell'annuncio poche ore dopo, sostituendo la metodologia BrowseComp — il changelog riconosce che «la versione originale sottostimava le performance di Sonnet 5». Succede.

Il prezzo di lancio scontato crea una finestra di due mesi in cui il passaggio a Sonnet 5 è "neutrale". Abbastanza perché team e aziende migrino i loro workload, aggiornino le integrazioni, ricalibrino i budget. A settembre, quando il prezzo pieno scatterà, la migrazione sarà già fatta, e tornare indietro avrà un costo di re-implementazione.

Lo stesso meccanismo si applica ai piani consumer: Sonnet 5 è il modello predefinito per i piani Free e Pro. Stesso abbonamento, meno capacità effettiva perché ogni interazione consuma più token del limite.

Cosa significa per chi sviluppa

Se usi l'API Claude in produzione, ci sono azioni concrete da intraprendere prima che lo sconto scada.

  1. Misura, non assumere. La documentazione ufficiale è esplicita: «non riutilizzare conteggi misurati su modelli precedenti; riconta con Claude Sonnet 5». Usa l'endpoint messages/count_tokens con il model ID claude-sonnet-5 sul tuo traffico reale. Il +30% è una media. Il tuo caso specifico dipende dalla lingua e dal tipo di contenuto.
  2. Disabilita il thinking dove non serve. Se hai workload deterministici — estrazione dati, classificazione, traduzione, formattazione — valuta thinking: {type: "disabled"}. Non c'è motivo di pagare token di ragionamento per un task la cui risposta corretta non dipende da un processo deliberativo.
  3. Rivedi i limiti di max_tokens. Se i tuoi limiti erano calibrati su Sonnet 4.6, lo stesso output testuale ora potrebbe essere troncato perché ogni risposta consuma più token. La documentazione avverte: «un limite di output calibrato per Claude Sonnet 4.6 potrebbe troncare output equivalente su Claude Sonnet 5».
  4. Prepara il budget per settembre. Il costo reale post-sconto sarà del 27-42% più alto a parità di richieste, più l'overhead dell'adaptive thinking. Se non hai ancora migrato, fai i conti prima di cambiare model ID.
Misura il tuo traffico reale con l'endpoint `messages/count_tokens` e model ID `claude-sonnet-5`. È l'unico modo per sapere se il tuo caso specifico è al +15% o al +42%. La differenza decide se puoi assorbire il costo o devi ripensare l'architettura.
Approfondimenti

Continua l'esplorazione

Una selezione di percorsi, profilo professionale e possibilità di confronto collegati ai temi trattati nel sito.

Contattami Profilo
Adriano Amalfi
Autore

Adriano Amalfi

Digital Transformation & Innovation in Financial Services