Vitalik Buterin dettaglia la sua configurazione LLM locale e autonoma

Il cofondatore di Ethereum ha abbandonato i servizi cloud AI per un'infrastruttura self-sovereign, mettendo in guardia sui rischi di sicurezza degli agenti AI.

Contenuto

Vitalik Buterin dettaglia la sua configurazione LLM locale e autonoma

Scopri anche

Vitalik Buterin dettaglia la sua configurazione LLM locale e autonoma

Vitalik Buterin dettaglia la sua configurazione LLM locale e autonoma

In questo articolo:

Vitalik Buterin, cofondatore di Ethereum, ha pubblicato un post intitolato "My self-sovereign / local / private / secure LLM setup" in cui descrive la sua transizione completa dai servizi cloud AI a un'infrastruttura interamente locale. La scelta nasce da preoccupazioni sui fallimenti critici in materia di sicurezza e privacy che Buterin osserva diffondersi nel settore degli agenti AI.

Buterin cita ricerche che dimostrano come circa il 15% delle capacità degli agenti, o plug-in, contenga istruzioni malevole. La società di sicurezza HiddenLayer ha dimostrato che il parsing di una singola pagina web malevola può compromettere completamente un'istanza OpenClaw, consentendo il download e l'esecuzione di script shell senza che l'utente ne sia consapevole.

L'evoluzione del rischio negli agenti AI

⬆ Torna su

Secondo Buterin, l'intelligenza artificiale si è evoluta oltre le interfacce conversazionali di base. I sistemi contemporanei funzionano come agenti indipendenti capaci di eseguire operazioni complesse e multi-step utilizzando estese librerie di strumenti. Questa evoluzione amplifica i rischi legati a violazioni dei dati e operazioni di sistema non autorizzate.

Buterin fa notare che molti modelli definiti open-source forniscono in realtà solo accesso agli open-weights. L'architettura completa rimane oscurata, creando potenziali vulnerabilità di sicurezza non dichiarate. Alcuni agenti possiedono capacità di modificare autonomamente le configurazioni di sistema o manipolare i prompt operativi senza autorizzazione esplicita dell'utente.

"Vengo da una posizione di profonda paura di consegnare l'intera nostra vita personale alle AI cloud", ha scritto Buterin. Ha espresso preoccupazione per il fatto che, proprio mentre si facevano passi avanti nella privacy con la diffusione della crittografia end-to-end, si rischia di fare dieci passi indietro.

Hardware e performance

⬆ Torna su

Per la sua configurazione, Buterin utilizza un laptop con GPU Nvidia 5090 dotata di 24 GB di memoria video. Eseguendo il modello open-weights Qwen3.5:35B di Alibaba tramite llama-server, l'hardware raggiunge 90 token al secondo, una soglia che Buterin definisce l'obiettivo per un utilizzo quotidiano confortevole.

Ha testato anche l'AMD Ryzen AI Max Pro con 128 GB di memoria unificata, che ha raggiunto 51 token al secondo, e il DGX Spark, commercializzato come supercomputer AI desktop, che ha registrato 60 token al secondo. Buterin ha giudicato il DGX Spark non all'altezza delle aspettative considerando il costo e la velocità inferiore rispetto a una buona GPU per laptop.

Secondo i suoi benchmark, le prestazioni inferiori a 50 token al secondo diventano impraticabili per le operazioni quotidiane. I suoi test hanno concluso che le configurazioni laptop ad alte prestazioni superano le alternative hardware specializzate. Per chi ha vincoli di budget, Buterin ha proposto il pooling collaborativo di risorse: gruppi potrebbero investire collettivamente in infrastrutture di calcolo condivise e GPU accessibili tramite connessioni remote.

Stack software: NixOS e llama-server

⬆ Torna su

Per il sistema operativo, Buterin è passato da Arch Linux a NixOS. Questa distribuzione permette agli utenti di definire l'intera configurazione di sistema in un singolo file dichiarativo, simile a JSON, facile da condividere e da ripristinare se qualcosa va storto.

Ha abbandonato Ollama dopo aver scoperto che llama-server riusciva a eseguire Qwen3.5:35B sulla GPU dove Ollama falliva. llama-server funziona come demone in background su localhost, espone una porta HTTP e fornisce un'interfaccia web. Qualsiasi software compatibile con le API di OpenAI o Anthropic può puntare al demone locale.

Claude Code, ha notato Buterin, può essere indirizzato verso un'istanza locale llama-server invece che verso i server di Anthropic. Per i servizi di modelli remoti, il suo protocollo impiega un filtro preliminare con modello locale per rimuovere i dati sensibili prima della trasmissione esterna.

Il modello di sandboxing con bubblewrap

⬆ Torna su

Il sandboxing è centrale nel modello di sicurezza di Buterin. Utilizza bubblewrap per creare ambienti isolati da qualsiasi directory con un singolo comando. I processi in esecuzione all'interno di queste sandbox possono accedere solo ai file esplicitamente autorizzati e alle porte di rete controllate. Lo strumento permette il controllo completo su porte, accesso audio e altre risorse.

È stato citato anche Hermes di Nous Research, che utilizza il monitoraggio in tempo reale per rilevare attività malevole, come possibile complemento alla strategia di isolamento.

Tool open-source rilasciati

⬆ Torna su

Buterin ha reso open-source un demone di messaggistica su github.com/vbuterin/messaging-daemon che integra signal-cli e posta elettronica. Il demone può leggere liberamente i messaggi e inviare messaggi a se stesso senza conferma. Qualsiasi messaggio in uscita verso terzi richiede approvazione umana esplicita. Buterin ha definito questo approccio il modello "human + LLM 2-of-2".

Ha pubblicato anche un demone locale per la trascrizione audio su github.com/vbuterin/stt-daemon. Lo strumento funziona senza GPU per utilizzi basilari e invia l'output al LLM per correzione e sintesi.

Per quanto riguarda lo strumento Local Deep Research, Buterin lo ha trovato deludente: difficile da configurare, con risposte banali. In un test comparativo, un sistema con la skill base di SearXNG lo ha superato.

L'integrazione con Ethereum e la logica 2-of-2

⬆ Torna su

La divulgazione più rilevante per il mondo crypto riguarda come Buterin connette l'AI al suo wallet Ethereum e agli account di messaggistica. Ha consigliato ai team che costruiscono strumenti wallet connessi all'AI di adottare la stessa architettura: transazioni autonome limitate a 100 dollari al giorno e qualsiasi importo superiore che richiede conferma umana.

Per l'integrazione con Ethereum, Buterin ha affermato che gli agenti AI non dovrebbero mai detenere accesso illimitato al wallet. Ha raccomandato di trattare l'umano e il LLM come due fattori di conferma distinti, ciascuno in grado di intercettare diversi modi di fallimento.

L'approccio è coerente con come Buterin gestisce già le sue holdings crypto: mantiene il 90% dei fondi in un wallet multisig Safe, distribuendo le chiavi tra contatti fidati in modo che nessuna singola persona diventi un punto di fallimento. Le salvaguardie AI appaiono come un'estensione della stessa filosofia in un contesto agentico.

La tesi dell'AI self-sovereign

⬆ Torna su

L'architettura descritta da Buterin poggia su tre pilastri: inferenza locale quando possibile, dati memorizzati sul dispositivo dell'utente, isolamento tramite sandboxing per ridurre il rischio di leak, abusi o interazioni non controllate con informazioni private.

Il ragionamento non è estraneo all'ecosistema crypto. L'industria ha costruito la sua identità sulla self-custody, la resistenza alla censura e la sfiducia negli intermediari centralizzati. Buterin estende questa logica all'AI: se i LLM diventano l'interfaccia primaria della vita digitale, allora il controllo locale su questi modelli conta tanto quanto la self-custody conta per il denaro.

L'industria AI si è mossa nella direzione opposta: maggiore dipendenza dal cloud, più lock-in basato su abbonamenti, maggiore visibilità dei provider sull'utilizzo, incentivi più forti a concentrare l'intelligenza in poche piattaforme dominanti. La proposta di Buterin funziona come contrappeso diretto a questa tendenza.

Buterin ha concluso specificando che il post descrive un punto di partenza, non un prodotto finito, e ha messo in guardia i lettori dal copiare esattamente i suoi tool assumendo che siano sicuri. Ha tracciato un parallelo tra sistemi AI e smart contract, notandone l'utilità ma sottolineando la necessità di uno scetticismo cauto.

Questo articolo è una sintesi basata esclusivamente sulle fonti elencate.

Implicazioni e scenari

⬆ Torna su

L'approccio self-sovereign descritto da Buterin estende la filosofia della self-custody all'infrastruttura AI, proponendo un modello che potrebbe influenzare sia la comunità crypto che quella della sicurezza informatica.

  • Scenario 1: Se le vulnerabilità degli agenti AI continueranno a crescere, sandboxing e approccio 2-of-2 potrebbero diventare prassi standard per integrazioni con wallet o sistemi sensibili.
  • Scenario 2: La distinzione tra open-weights e vero open-source potrebbe spingere verso maggiore trasparenza nelle architetture, con impatti sulle pratiche di audit.
  • Scenario 3: Il pooling collaborativo di risorse GPU potrebbe emergere come soluzione per chi vuole infrastruttura locale senza investimenti individuali proibitivi.

Cosa monitorare

⬆ Torna su
  • L'adozione di llama-server rispetto a alternative come Ollama per esecuzioni GPU più stabili.
  • La diffusione di pattern di sandboxing in contesti AI enterprise.
  • L'evoluzione degli standard di sicurezza per agenti AI con accesso a risorse critiche.

Nota editoriale: questa sezione propone una lettura analitica dei temi trattati, senza introdurre dati fattuali non presenti nelle fonti.

Fonti

⬆ Torna su

In breve

  • llm
  • nvidia
  • linux
  • opensource

Link utili

Apri l'articolo su DeafNews