Per anni "local AI" ha significato una cosa sola: modelli piccoli, lenti, utili per sperimentare ma non per lavorare. Chi voleva qualità parlava con le API di Anthropic o OpenAI. A metà 2026, quella separazione non regge più.
Ci sono tre fattori in gioco:
- Hardware: ha raggiunto un punto di prezzo-prestazioni che rende praticabile eseguire modelli SOTA su macchine consumer di fascia alta.
- Inference speed: migliorata drasticamente grazie a framework come DSpark di DeepSeek.
- Ecosistema di tooling: dai coding agent self-hosted ai movimenti di advocacy politica, ha raggiunto una maturità che lo rende utilizzabile e non solo interessante sulla carta.
Non serve comprarsi quattro GPU domani. Ma chi liquida il local AI come «roba da hobbisti» guarda una fotografia di dodici mesi fa.
Il momento hardware
Due NVIDIA RTX PRO 6000 Blackwell, 96 GB ciascuna, 192 GB totali di VRAM. Su questa configurazione DeepSeek V4 Flash — un modello MoE da 284 miliardi di parametri totali e 13 miliardi attivi per token — gira stabilmente.
I benchmark reali riportano:
- 190 token/s in decode a concorrenza singola
- 375 t/s a quattro richieste concorrenti
- 980 t/s a sedici richieste concorrenti
Con tecniche di quantizzazione W4A16+FP8 e speculative decoding MTP, la stessa configurazione raggiunge 85 token/s a 524mila token di contesto e circa 111 token/s a 128mila, un throughput che consente sessioni di coding agent reali senza attese frustranti LordNeel su Hugging Face.
Le due GPU hanno un prezzo complessivo di circa $17.000 (ogni RTX PRO 6000 Blackwell costa circa $8.500). Non è poco, ma è nell'ordine di grandezza di una workstation professionale, non di un datacenter.
James O'Beirne, nel suo repository local-llm pubblicato a luglio 2026, documenta come costruire una macchina con 4x RTX PRO 6000 (384 GB VRAM) per circa $46.000 di GPU più $5.600 di sistema base, inclusi switch PCIe custom, configurazioni BIOS e accorgimenti per far funzionare tutto su un circuito a 110V jamesob/local-llm su GitHub.
Nella sua guida O'Beirne traccia una progressione: con circa $2.000 si può eseguire Qwen3.6-27B con speech-to-text locale, con circa $40.000 si ottiene una qualità vicina a Claude Opus. La guida non è teorica. Include docker-compose pronti per GLM-5.2-594B, configurazioni vLLM con tensor parallelism, e una struttura per far lavorare OpenCode in sandbox su issue Gitea. È il tipo di documentazione che esiste solo quando una tecnologia ha superato la fase «funziona sul mio computer».
DSpark: l'inference non è più il collo di bottiglia
DeepSeek ha rilasciato DSpark, un framework di speculative decoding open source con licenza MIT. I numeri che contano: dal 60 all'85% più veloce nella generazione per utente su V4 Flash, e dal 57 al 78% su V4 Pro, rispetto al baseline MTP-1 già in produzione DeepSeek V4-Pro DSpark su Hugging Face.
Il meccanismo è semplice: invece di generare un token alla volta, DSpark usa un draft model leggero per proporre blocchi di token candidati, che il modello principale verifica in parallelo. La novità sta in due innovazioni: la generazione semi-autoregressiva (che combina drafting parallelo con una testa sequenziale per mantenere coerenza tra token adiacenti) e la verifica a confidenza programmata, che adatta dinamicamente quanti token verificare in base al carico del sistema.
Non è un paper accademico. DeepSeek ha già deployato DSpark sul traffico reale di V4 Flash e V4 Pro. I checkpoint sono pubblici su Hugging Face. Il codice di training, DeepSpec, è su GitHub. E, dettaglio cruciale, DSpark funziona anche su Qwen e Gemma, non solo sui modelli DeepSeek analisi di VentureBeat.
Lo sviluppatore Rafael Caricio ha documentato un'implementazione funzionante su DeepSeek V4 Flash. I benchmark mostrano:
- 26,33 t/s senza speculative decoding
- 39,88 t/s con MTP-1
- ~60 t/s con DSpark
Un guadagno di 2,3x rispetto al decoding standard benchmark di Caricio su GitHub.
In pratica: un modello che già girava su hardware consumer ora produce risposte in poco più di un terzo del tempo. Per un coding agent che deve iterare su file, eseguire test e rifattorizzare, questa differenza trasforma l'esperienza da «tollerabile» a «fluida».
L'ecosistema tooling: coding agent che funzionano offline
Contano anche gli strumenti. Nel 2026 c'è stata una proliferazione di coding agent pensati per funzionare in locale, spesso scritti in Rust per minimizzare l'ingombro.
- Tabby (tabbyml/tabby): server di code completion self-hosted, Apache 2.0, scritto in Rust. Opera completamente offline dopo il download iniziale del modello.
- Pi Agent Rust (Dicklesworthstone/pi_agent_rust): CLI ad alte prestazioni in Rust puro, con zero
unsafecode, pensato per ambienti locali e sandbox. - Ante (antigma.ai): runtime per agent in Rust, licenza MIT, cloud-native ma local-first per design.
Il trend è verso strumenti leggeri, compilati, senza dipendenze da servizi cloud, ottimizzati per funzionare con endpoint OpenAI-compatibili, che possono benissimo essere un'istanza vLLM in esecuzione sul proprio hardware.
Il setup descritto da O'Beirne è emblematico: una VM sandboxata esegue OpenCode, collegato via API HTTP alla macchina di inference. L'agente può navigare il web (con SearXNG self-hosted), comunicare via Telegram, lavorare su repository Gitea privati, e creare pull request, il tutto senza che una singola riga di codice lasci la rete locale.
La dimensione politica: il diritto all'intelligenza locale
C'è un terzo elemento, meno tecnico ma altrettanto significativo. Right to Intelligence è un movimento nato per difendere il diritto di eseguire AI localmente, in un momento in cui le restrizioni governative sui modelli di frontiera si moltiplicano.
Non è un dettaglio marginale. A giugno 2026, Anthropic ha bloccato l'accesso pubblico a Claude Fable 5 e Mythos 5 su ordine del governo USA, e OpenAI ha reso GPT-5.6 accessibile solo a partner selezionati analisi di VentureBeat. Oggi la capacità di eseguire modelli aperti su hardware proprio non è più una preferenza ideologica: è una necessità operativa per chiunque voglia evitare che l'accesso all'AI dipenda dalle decisioni di tre aziende e due governi.
DeepSeek, con i rilasci MIT e DSpark open source, si posiziona qui: modelli di frontiera che chiunque può scaricare, modificare ed eseguire senza chiedere permesso a nessuno.
Cosa significa in pratica
La domanda non è più se il local AI funziona, ma per chi ha senso oggi.
| Scenario | Budget indicativo | Cosa ottieni |
|---|---|---|
| Developer individuale | ~$2.000 (2x RTX 3090 usate) | Qwen3.6-27B, STT locale, coding agent base |
| Power user / piccolo team | ~$17.000 (2x RTX PRO 6000) | DeepSeek V4 Flash a 190 t/s, coding agent avanzato, 1M contesto |
| Sostituto di Opus/GPT-5 | ~$46.000 (4x RTX PRO 6000) | GLM-5.2-594B o simili, qualità near-SOTA, indipendenza totale |
Ci sono delle avvertenze. Il setup non è plug-and-play. Richiede dimestichezza con BIOS, driver NVIDIA, vLLM, Docker, e occasionalmente la voglia di litigare con switch PCIe custom. Ma è il tipo di complessità che un sistemista competente gestisce in un weekend — non in un progetto di sei mesi.
Per la prima volta, il rapporto qualità-prezzo dell'AI locale compete con le API cloud per workload reali, non solo per demo. Con DSpark che accelera l'inference e modelli come DeepSeek V4 Flash che girano su due GPU workstation, il gap con Claude e GPT si è ridotto a tal punto che per molti use case (coding, analisi dati, automazione) la scelta di mandare tutto in cloud è diventata una decisione da giustificare, non un default.