Ciò che la distillazione non cattura

I modelli piccoli eguagliano i giganti. Ma la distillazione concentra il valore, non lo diffonde.

Ciò che la distillazione non cattura

C'è qualcosa di quasi ipnotico nel vedere un modello che gira su un laptop eguagliare il ragionamento di sistemi costati centinaia di milioni. Succede ogni pochi mesi. Qwen 3.6, Mistral, Llama.

Ogni trimestre porta un nuovo candidato, e ogni volta la stessa storia: la democratizzazione vince, i monopoli crollano, l'intelligenza diventa merce.

È una storia che regge finché non guardi il meccanismo.

Il meccanismo e la sua ombra

La tecnica si chiama knowledge distillation. Prendi un modello di frontiera, Claude, GPT o Gemini, e lo usi per generare dati di addestramento per un modello più piccolo.

Il grande «insegna» al piccolo. La conoscenza fluisce verso il basso, raccontata come efficienza. Ma il meccanismo reale è più strano, e molto più rilevante economicamente.

La distillazione non trasferisce conoscenza. Trasferisce l'ombra della conoscenza.

Ciò che passa dal grande al piccolo è l'output, il prodotto finito del ragionamento, non il ragionamento stesso. La scelta interna del modello di frontiera, la calibrazione tra risposte alternative, l'incertezza, il giudizio su cosa non dire: nulla di tutto questo sopravvive alla transazione.

Lo studente impara a riprodurre i pattern di superficie, la firma statistica dell'intelligenza. Ma la profondità, il processo, l'epistemologia restano indietro.

È come studiare un pittore copiando fotografie delle sue tele. Puoi diventare bravissimo a riprodurre. Non hai imparato a dipingere.

La distillazione cattura il cosa: la risposta, lo stile, il pattern statistico. Perde il come e il perché: il percorso di ragionamento, la valutazione delle alternative, il momento di esitazione prima della scelta. È conoscenza senza epistemologia.

Questa perdita sarebbe gestibile se accadesse una volta sola. Ma l'economia dell'ecosistema garantisce che si accumuli.

Un modello distillato, una volta rilasciato, diventa la base per il ciclo successivo: un modello ancora più piccolo addestrato sugli output di un modello che era già stato addestrato sugli output di un sistema di frontiera. A ogni passaggio, un po' di fedeltà si perde.

Le code della distribuzione (la conoscenza rara, i casi limite, le connessioni sorprendenti che producono vera intuizione) sono le prime a svanire. Dopo tre o quattro generazioni, ciò che resta è un modello fluente ma vuoto. Suona come intelligenza. Ha imparato a recitare la parte.

Ma la sostanza è stata progressivamente diluita.

Lo vediamo nella ricerca sul model collapse: quando i modelli si addestrano sui propri output, la distribuzione si restringe, gli eventi rari scompaiono e ciò che sopravvive è una caricatura. La distillazione a cascata nell'ecosistema segue la stessa traiettoria del model collapse, solo più lenta e più difficile da vedere. Stesso meccanismo di degradazione cumulativa, applicato su più organizzazioni e generazioni di modelli.

L'impatto economico

Le implicazioni economiche rovesciano la storia della democratizzazione. Se ogni modello open-weight beve dal pozzo della frontiera, e se ogni sorso successivo è più diluito, allora la proliferazione di modelli non sta distribuendo valore, lo sta estraendo e concentrando.

Ogni pipeline di distillazione è una pipeline di valore, e il flusso è prevalentemente unidirezionale: dalla periferia verso il centro. Più modelli esistono, più dipendono dalla frontiera per generare il prossimo strato di dati di addestramento. La periferia cresce, ma cresce nutrendosi del centro, mentre il centro accumula ciò che non può essere distillato.

Più modelli aperti esistono, più valore si concentra in chi possiede la fonte originale. Non è un fallimento dell'open-source. È la fisica economica di un ecosistema dove la conoscenza si degrada a ogni trasferimento.

Dove sopravvive il valore, in questo processo?

Ovvio: alla fonte. Il laboratorio di frontiera che genera la conoscenza originale, controlla l'infrastruttura di addestramento, possiede i dati proprietari. Qui il valore si accumula come una rendita: ogni nuovo modello è una nuova sorgente da cui l'intero ecosistema attingerà.

Claude Sonnet 5 compete sulla qualità, non sul prezzo. Qwen 3.6 27B porta performance su hardware consumer. Non sono strategie in contraddizione. Sono risposte naturali alla stessa dinamica di fondo.

Una scommette sull'essere la fonte, l'altra sull'essere la migliore distillazione possibile. Entrambe possono funzionare, ma operano in campi gravitazionali completamente diversi.

Il conto in sospeso

La domanda è se questo sia sostenibile. Se l'intero ecosistema dei modelli aperti funziona a valore estratto da una manciata di laboratori, cosa succede quando quei laboratori decideranno che l'accordo non li avvantaggia più?

Cosa succede quando la perdita cumulativa attraverso le generazioni di distillazione raggiungerà un punto in cui i modelli distillati non sono più abbastanza utili da giustificare la loro esistenza?

L'ecosistema si è costruito su un sussidio: il sussidio implicito dei laboratori di frontiera che generano dati di addestramento gratuitamente verso la valle.

I sussidi possono essere ritirati.

La vera value proposition non è la capacità di calcolo. È la capacità di generare dati di addestramento di qualità, e quella resta saldamente nelle mani di chi costruisce il livello successivo.

Ogni output pubblico è un trasferimento di valore non contabilizzato. Prima o poi, qualcuno presenterà il conto.

Fino ad allora, l'ecosistema continuerà a moltiplicare ombre. Ma un'ombra, per quanto nitida, non è mai la cosa stessa.

Approfondimenti

Continua l'esplorazione

Una selezione di percorsi, profilo professionale e possibilità di confronto collegati ai temi trattati nel sito.

Contattami Profilo
Adriano Amalfi
Autore

Adriano Amalfi

Digital Transformation & Innovation in Financial Services