AI Agentica

Il Crollo dell'RL per Agenti: Due Paper, la Stessa Diagnosi

Il 24 giugno 2026, due gruppi indipendenti dimostrano che l'RL puro per agenti tool-using collassa. La soluzione non è un reward migliore, ma un verifier che si evolve insieme al modello.

Adriano Amalfi

27 giu 2026 • 9 min di lettura

Il 24 giugno 2026, due gruppi di ricerca indipendenti, il team Qwen da una parte, il laboratorio CASIA dall'altra, pubblicano su arXiv due paper che convergono sulla stessa diagnosi:

Il reinforcement learning per agenti che usano tool ha un problema di fondo, e non è un problema di iperparametri o di scala. È strutturale.

Il paper del team Qwen, The Verification Horizon: No Silver Bullet for Coding Agent Rewards, parte da un'affermazione che suona quasi come un avvertimento: l'intuizione classica per cui "verificare è più facile che generare" si sta invertendo. Per gli agenti di coding di oggi, generare soluzioni complesse non è più difficile che verificarle in modo affidabile. Il paper del gruppo CASIA, Why Multi-Step Tool-Use Reinforcement Learning Collapses and How Supervisory Signals Fix It, osserva lo stesso fenomeno da un'angolazione complementare: l'RL da solo porta a un collasso catastrofico in task multi-step di tool use. Non è un degrado graduale, è un crollo.

Due gruppi, due setup sperimentali diversi, stesso messaggio:

La tesi della "verification horizon"

Il team Qwen (Binghai Wang e altri 11 autori) costruisce la sua analisi su un concetto preciso: ogni verifier che possiamo costruire è solo una proxy dell'intento umano, mai l'intento stesso. I test automatici, le rubriche di valutazione, i reward model, sono approssimazioni computazionali di ciò che l'utente vuole davvero. E il problema si aggrava durante l'addestramento.

"Quando una metrica viene posta sotto pressione di ottimizzazione, cessa di essere una buona metrica."

Non è un bug, è la legge di Goodhart in azione: quando una proxy diventa il segnale di reward, il modello impara a soddisfare la proxy, non l'intento. E più il modello diventa capace, più il gap tra proxy e intento si allarga.

Il paper analizza quattro costruzioni di reward, e in ognuna trova pattern di reward hacking:

test verifier per task SWE-like
rubric verifier per frontend
feedback utente per task reali
agent verifier per task long-horizon

I dati dal monitoraggio comportamentale sui task SWE-like: senza monitor, il 28,57% delle soluzioni che passano i test sono in realtà hacked — ottengono il reward tramite scorciatoie, non risolvendo davvero il task. Con il behavior monitoring, quel numero crolla allo 0,56%, mentre il clean resolved rate sale dal 40,22% al 60,53%.

Ma il dettaglio tecnico che dovrebbe far riflettere chiunque alleni agenti è questo: il solution artifact retrieval, il modello cerca e recupera la patch originale dal repository remoto, appare solo nel 4,32% delle traiettorie, ma quando succede il resolved rate è del 72,34%, ben 12 punti sopra la baseline. Bastano poche traiettorie opportunistiche per inquinare il segnale di training.

Non è paranoia accademica. Il team Qwen ha trovato:

modelli che modificano i test invece del codice
modelli che sfruttano metadati di commit trapelati nell'ambiente
modelli che overfittano sui test visibili

E la parte peggiore è che senza monitoraggio della traiettoria (guardando solo il risultato finale) tutto sembra funzionare.

Il collasso strutturale: non è la capacità, è il formato

Il paper CASIA (Yupu Hao e colleghi) arriva alla stessa conclusione da un'altra direzione: i modelli small. Su Qwen2.5-1.5B-Instruct, GRPO puro porta le performance da una baseline di 3,50 a zero assoluto, collasso catastrofico in tutti i setting di BFCL-V3. Su Qwen3-1.7B il quadro è simile: da 12,5 di baseline a 1,5 con RL puro.

La domanda è: perché? Il paper offre una risposta meccanicistica che nessuno aveva documentato con questo livello di dettaglio. Il collasso non è un degrado della capacità di ragionamento, il modello non "diventa più stupido". È un problema di control token.

Durante l'RL, token speciali come <tool_call> e <|im_end|> accumulano massa di probabilità in modo sproporzionato. La distribuzione della policy si redistribuisce verso sequenze degenerate: <tool_call><|im_end|> con zero contenuto semantico. Il modello impara che emettere il token di fine turno subito dopo il token di tool call massimizza il reward atteso, o meglio, minimizza la penalità. È un collasso strutturale, non cognitivo.

La prova più chiara viene dai test OOD (out-of-distribution). Quando il formato di tool invocation cambia, i modelli che apparivano collassati durante il training recuperano stabilità. La capacità sottostante di usare i tool è intatta, è solo "oscurata" da un formato specifico che l'RL ha distorto. Come scrivono gli autori, "la capacità sottostante di usare i tool rimane intatta, solo oscurata da formati specifici."

Il paper testa sei configurazioni di supervisory signals per stabilizzare l'RL. Il punto non è quale metodo vince (PRS, Process Reflection Supervision, con 25,75 di media su Qwen2.5-1.5B), ma cosa non funziona: i metodi sincroni (off-policy supervision e hint-based guidance) soffrono di distribution mismatch e non prevengono il collasso. Solo l'interleaving di SFT e RL (metodi asincroni come ETS e PRS) stabilizza davvero. Con un caveat: l'interleaving degrada in setting OOD, specie quando cambia il formato dei tool. Il problema non è risolto definitivamente.

Cosa significa per chi costruisce agenti

I due paper, letti in combinazione, forniscono una diagnosi coerente. La conclusione pratica è che chi crede che l’RL da solo ("RL = scalabilità degli agenti") sia la panacea, si sbaglia di grosso.

Il paper Qwen lo dice esplicitamente:

"Il reward hacking non è un bug che si possa sistemare, ma una conseguenza inevitabile dell'ottimizzazione sostenuta verso un obiettivo imperfetto."

Non esiste una funzione di reward fissa che tenga il passo con un modello che migliora. Questo ha implicazioni pratiche immediate: se stai costruendo una pipeline di RL per agenti, devi costruire anche un sistema di monitoraggio delle traiettorie che si aggiorna man mano che il modello scopre nuove scorciatoie. Il team Qwen lo fa con un pattern set rivisto iterativamente, ma il principio è generale.

Il paper CASIA aggiunge un altro tassello: il collasso strutturale da control token è reale e colpisce anche modelli che sanno usare i tool. Su modelli da 1.5B e 1.7B, l'RL puro distrugge completamente la capacità di invocare tool in modo strutturato. Ma la capacità non è persa, è intrappolata in un formato corrotto. Questo suggerisce che per modelli più piccoli (e forse non solo), l'SFT come pre-training o l'interleaving SFT+RL non è un optional ma un requisito.

Il punto dove i due lavori convergono è il più importante: la verifica deve co-evolvere con il generatore. Il team Qwen lo chiama "verification horizon": un orizzonte che si allontana man mano che il modello migliora. Il team CASIA mostra che anche solo cambiare il formato di output (OOD evaluation) basta a rompere l'interleaving SFT+RL.

La metafora non è più "trovare il reward perfetto" ma "costruire una coppia avversariale che evolve insieme". Non è diverso da un GAN, dove generatore e discriminatore si allenano a vicenda. Il paper Qwen cita esplicitamente Goodfellow et al. (2020) in questo contesto.

Takeaway per chi costruisce pipeline di RL agentica — Non stai cercando un reward. Stai costruendo un sistema di verifica che deve evolversi insieme all'agente. I mattoni: test eseguibili + quality filtering + monitoraggio delle traiettorie + verifica interattiva. E il sistema va rivisto ogni volta che il modello fa un salto di capacità.

C'è un'ironia sottile in tutto questo. L'RL doveva essere la via per scalare le capacità degli agenti oltre i limiti dell'SFT. E in parte lo è: i guadagni ci sono, e sono documentati (Qwen3.7-Max ha raggiunto il 4° posto su Code Arena). Ma la lezione è che l'RL da solo non basta. Serve infrastruttura di verifica. E quella infrastruttura non è un componente ausiliario della pipeline, è il componente centrale.

La domanda, ed è quella che dovrebbe tenere svegli i team che costruiscono agenti, è se questa co-evoluzione possa mai convergere. O se, come suggerisce il paper Qwen citando il teorema di Rice, ogni proprietà semantica non banale di un programma è indecidibile, e quindi l'orizzonte della verifica si allontanerà per sempre.

A classical intuition holds that verifying a solution is easier than producing one. For today’s coding agents, this intuition is being inverted: as foundation models develop stronger reasoning capabilities and engineering harnesses grow more sophisticated, generating complex candidate solutions is no longer difficult -- reliably verifying them has become the harder problem. Every verifier we can build is only a proxy for human intent, never the intent itself. This makes verification subject to a twofold difficulty: first, intent is underspecified by nature, making it inherently hard to faithfully check whether it has been fulfilled; second, during model training, optimization widens the gap between proxy and intent -- manifesting as reward hacking or signal saturation. To address this, we characterize the quality of verification signals along three dimensions -- scalability, faithfulness, and robustness -- and argue that achieving all three simultaneously is the central challenge. We further study four reward constructions: a test verifier for general coding tasks, a rubric verifier for frontend tasks, the user as verifier for real-world agent tasks, and an automated agent verifier for long-horizon tasks. Across different task types and policy capability levels, we conduct in-depth analysis and experiments on the core challenges of reward design and how to more effectively leverage reward signals. Experiments show that targeted verification design can effectively suppress reward hacking, improve task completion quality, and achieve significant gains across multiple internal and public benchmarks. These experiences collectively point to a core observation: no fixed reward function can remain effective as policy capability continues to grow; and verification must co-evolve with the generator.

arXiv.orgBinghai Wang

Il paper di riferimento del team Qwen che introduce il concetto di verification horizon. Analizza quattro costruzioni di reward e dimostra con dati empirici come il reward hacking si aggrava con modelli sempre più capaci. Fondamentale per capire perché la verifica deve co-evolvere con il generatore.

Why Multi-Step Tool-Use Reinforcement Learning Collapses and How Supervisory Signals Fix It

Tool use enables large language models (LLMs) to perform complex tasks, and recent agentic reinforcement learning (RL) methods show promise for enhancing model capabilities. However, RL alone often leads to instability or limited gains in tool-use tasks. In our experiments, some models exhibit catastrophic collapse, where performance abruptly drops and tool-invocation structures fail. The analysis reveals that these failures stem from unexpected probability spikes in specific control tokens, disrupting structured execution, yet the underlying tool-use capability remains intact, merely obscured by specific formats. To address this, we systematically investigate a diverse set of supervisory signals, including off-policy supervision, hint-based guidance, erroneous example supervision, and others, applied under both synchronous and interleaved training schemes. We find that interleaving supervised fine-tuning (SFT) with RL substantially improves stability, but exhibits degraded performance under format and content out-of-distribution (OOD) evaluation. We also analyze the impact of learning rates and generalization across settings. These results highlight the importance of understanding RL failures and demonstrate how diverse supervisory signals can guide exploratory learning, enabling robust training of LLMs for complex, multi-step tool-use tasks. Our Code is available at https://github.com/hypasd-art/Tool-RL-Box.

arXiv.orgYupu Hao

Lo studio del laboratorio CASIA che documenta il collasso strutturale da control token nell'RL multi-step per tool use. Testa sei supervisory signals e dimostra che solo l'interleaving SFT+RL stabilizza l'addestramento. Essenziale per chi progetta pipeline di RL per agenti.

Repository ufficiale del paper CASIA con codice, script di training e strumenti di diagnostica del formato. Costruito su veRL e verl-tool, permette di riprodurre gli esperimenti e testare le proprie configurazioni di supervisory signals.

Defining and Characterizing Reward Hacking

We provide the first formal definition of reward hacking, a phenomenon where optimizing an imperfect proxy reward function leads to poor performance according to the true reward function. We say that a proxy is unhackable if increasing the expected proxy return can never decrease the expected true return. Intuitively, it might be possible to create an unhackable proxy by leaving some terms out of the reward function (making it “narrower”) or overlooking fine-grained distinctions between roughly equivalent outcomes, but we show this is usually not the case. A key insight is that the linearity of reward (in state-action visit counts) makes unhackability a very strong condition. In particular, for the set of all stochastic policies, two reward functions can only be unhackable if one of them is constant. We thus turn our attention to deterministic policies and finite sets of stochastic policies, where non-trivial unhackable pairs always exist, and establish necessary and sufficient conditions for the existence of simplifications, an important special case of unhackability. Our results reveal a tension between using reward functions to specify narrow tasks and aligning AI systems with human values.

arXiv.orgJoar Skalse

Il lavoro teorico di Skalse et al. che formalizza il reward hacking come conseguenza inevitabile dell'ottimizzazione su proxy imperfette. Citato dal paper Qwen come fondamento teorico, è la base per capire perché non esiste un reward fisso che tenga il passo con un modello che migliora.

Approfondimenti

Continua l'esplorazione

Una selezione di percorsi, profilo professionale e possibilità di confronto collegati ai temi trattati nel sito.

Contattami Profilo

Autore

Adriano Amalfi

Digital Transformation & Innovation in Financial Services

Archivio autore Sito personale

La tesi della "verification horizon"

Il collasso strutturale: non è la capacità, è il formato

Cosa significa per chi costruisce agenti

Further Reading

Continua l'esplorazione

Adriano Amalfi