OpenAI lancia Codex Security: validazione comportamentale invece di report SAST tradizionali

L'agente di sicurezza applicativa di OpenAI parte dall'architettura del repository e valida le vulnerabilità in ambienti sandbox, producendo findings confermat…

Contenuto

OpenAI lancia Codex Security: validazione comportamentale invece di report SAST tradizionali

Scopri anche

OpenAI unifica ChatGPT, Codex e Atlas in una super app desktop: la risposta a Anthropic
Apple rilascia iOS 26.4 e le Release Candidate di watchOS 26.4, tvOS 26.4 e visionOS 26.4
I bias cognitivi nei Large Language Models: un'analisi delle distorsioni strutturali
Patch Management e Vulnerability Management: differenze, integrazione e il caso NetScaler
OpenAI unifica ChatGPT, Codex e Atlas in una super app desktop
L'IA entra nei programmi dei licei: le nuove indicazioni nazionali
DarkSword: catena di exploit sfrutta sei vulnerabilità per compromettere iPhone
Omogeneizzazione del pensiero e specchio cognitivo: l'IA mette alla prova la mente umana
Intelligenza artificiale: storia, modelli generativi e confronto sull'affidabilità
NVIDIA rilascia Nemotron-Cascade 2: modello MoE da 30B con soli 3B parametri attivi per reasoning avanzato
Apple invita ad aggiornare iOS: exploit kit DarkSword e Coruna minacciano milioni di dispositivi
MiniMax M2: architettura MoE, benchmark competitivi e la sfida cinese ai modelli occidentali
L'intelligenza artificiale nel mercato del lavoro: adozione aziendale, competenze e governance
Chatbot sanitari e diagnosi: i rischi dell'affidarsi all'intelligenza artificiale per la salute
Sony rilascia il firmware 4.93 per PlayStation 3 a quasi vent'anni dal lancio
Il conflitto tra etica e potere nell'era dell'intelligenza artificiale
Nvidia supera le aspettative con 68 miliardi di ricavi trimestrali, ma il mercato reagisce con prudenza
PlayStation 3 riceve il firmware 4.93 a quasi vent'anni dal lancio: aggiornate le chiavi Blu-ray
Corea del Sud lancia la "AI Squid Game" per competere con USA e Cina
Vulnerabilità iOS: exploit Coruna e DarkSword mettono a rischio milioni di iPhone

OpenAI lancia Codex Security: validazione comportamentale invece di report SAST tradizionali

Codex Security: OpenAI reimposta il processo di vulnerability scanning

In questo articolo:

OpenAI ha lanciato il 6 marzo 2026 Codex Security, un agente di sicurezza applicativa che adotta un approccio diverso rispetto agli strumenti SAST (Static Application Security Testing) tradizionali. Il sistema non genera un report partendo da pattern matching, ma costruisce un modello di minaccia specifico per il progetto, identifica potenziali vulnerabilità e le valida in ambienti sandbox prima di proporre correzioni. Durante la fase di beta privata, durata circa cinque mesi sotto il nome interno Aardvark, lo strumento ha analizzato oltre 1,2 milioni di commit su repository esterni, identificando 792 findings critici e 10.561 vulnerabilità ad alta severità, con assegnazione di 14 CVE in progetti come OpenSSH, GnuTLS, GOGS, Thorium, libssh, PHP e Chromium.

Perché OpenAI ha escluso il report SAST come punto di partenza

⬆ Torna su

In un post di follow-up pubblicato il 16 marzo 2026, OpenAI ha spiegato la scelta architetturale di non far partire Codex Security da un report SAST. La decisione, secondo l'azienda, si basa su tre modalità di fallimento che emergono quando un agente di ragionamento inizia il proprio lavoro da findings pre-generati.

Il primo problema è il restringimento prematuro dell'ambito di indagine. Un report SAST è una mappa di dove uno strumento ha già guardato, usando determinate astrazioni. Iniziare da lì biasa l'agente verso le stesse regioni, con gli stessi vincoli concettuali, rischiando di perdere intere classi di problemi che non rientrano nella visione del tool precedente.

Il secondo problema riguarda i giudizi impliciti difficili da scindere. Molti finding SAST codificano assunzioni su sanitizzazione, validazione o trust boundaries. Se queste assunzioni sono incomplete o errate, inserirle nel ciclo di ragionamento sposta l'agente dalla modalità "indaga" alla modalità "conferma o scarta", compromettendo l'analisi indipendente.

Il terzo problema è la difficoltà di valutare il sistema stesso. Se la pipeline inizia con output SAST, diventa impossibile separare ciò che l'agente ha scoperto attraverso analisi indipendente da ciò che ha ereditato da un altro strumento, un prerequisito necessario affinché il sistema migliori nel tempo.

La differenza tra dataflow tracing e validazione comportamentale

⬆ Torna su

Gli strumenti SAST tradizionali operano seguendo un modello concettualmente elegante: identificano una sorgente di input non fidato, tracciano i dati attraverso il programma e segnalano i casi in cui quei dati raggiungono un sink sensibile senza sanitizzazione. Questo approccio copre una vasta classe di bug reali e rimane efficace per far rispettare standard di coding sicuro su larga scala.

Tuttavia, OpenAI sottolinea che SAST deve effettuare approssimazioni per rimanere computazionalmente trattabile su codebase reali con indirezione, dispatch dinamico, callback, reflection e control flow pesantemente framework-dipendente. Queste approssimazioni non sono un difetto di design SAST, ma un vincolo intrinseco del ragionamento sul codice senza eseguirlo.

Il punto centrale dell'argomento di OpenAI va oltre la copertura del dataflow. Anche quando uno strumento SAST traccia correttamente l'input attraverso multiple funzioni e layer, deve ancora rispondere alla domanda che determina se una vulnerabilità esiste realmente: la difesa ha funzionato?

OpenAI cita CVE-2024-29041 come esempio concreto. La vulnerabilità open redirect in Express.js derivava dal fatto che URL malformati bypassavano le validazioni allowlist a causa dell'ordine delle operazioni: la regex di validazione avveniva prima della decodifica URL. Il dataflow appariva pulito nel report SAST, ma il vincolo falliva nella pratica perché la trasformazione successiva invalidava il controllo precedente.

Codex Security: architettura a tre stadi

⬆ Torna su

Codex Security opera attraverso tre fasi distinte. Nella prima, analizza il repository per comprendere la struttura security-relevant del sistema e genera un modello di minaccia modificabile che cattura cosa fa l'applicazione e dove è più esposta. Nella seconda fase, utilizza questo contesto per identificare vulnerabilità e classificare i finding in base al loro impatto real-world. I problemi segnalati vengono poi sottoposti a pressure-testing in un ambiente sandbox per validazione.

La terza fase prevede la proposta di fix che si allineano al comportamento del sistema, riducendo le regressioni e facilitando revisione e deploy. OpenAI precisa che un finding raggiunge la coda dello sviluppatore solo dopo successful reproduction, riducendo l'alert fatigue rispetto all'output SAST non validato.

Durante la beta, OpenAI riporta una riduzione dei falsi positivi superiore al 50% su tutti i repository e una riduzione superiore al 90% nei casi di severità sovrastimata. Il tempo di risoluzione delle vulnerabilità è diminuito del 40% nei pilot del research preview.

Il confronto con Claude Code Security di Anthropic

⬆ Torna su

Il lancio di Codex Security arriva 14 giorni dopo quello di Claude Code Security, lo strumento di Anthropic rilasciato il 20 febbraio 2026 come limited research preview. Claude Code Security sfrutta le capacità di ragionamento di Claude Opus 4.6, che secondo Anthropic ha identificato oltre 500 vulnerabilità ad alta severità precedentemente sconosciute in codebase open-source, sopravvissute a decenni di revisione esperta e milioni di ore di fuzzing.

Entrambi gli strumenti si basano sul ragionamento LLM anziché sul pattern matching, e entrambi hanno dimostrato di trovare classi di bug che SAST non era strutturalmente progettato per rilevare. La competizione tra due laboratori con una valutazione combinata di mercato privato superiore a 1,1 trilioni di dollari implica che la qualità del detection migliorerà più velocemente di quanto qualsiasi singolo vendor possa garantire da solo.

Dal punto di vista metodologico, Claude Code Security ragiona sul codice in modo contestuale, traccia i data flow e utilizza self-verification multi-stage. Codex Security costruisce un threat model specifico del progetto prima della scansione e valida i finding in ambienti sandbox. Nessuno dei due sostituisce lo stack di sicurezza esistente: modificano permanentemente il calcolo di procurement.

I limiti evidenziati dagli studi indipendenti

⬆ Torna su

Uno studio condotto da DryRun Security nel marzo 2026 e riportato da Help Net Security ha testato Claude Code (Sonnet 4.6), OpenAI Codex (GPT-5.2) e Google Gemini (2.5 Pro) su 38 scansioni relative a 30 pull request. I tre agenti hanno prodotto 143 problemi di sicurezza, con il 26 di quei 30 PR contenente almeno una vulnerabilità, pari all'87%.

I pattern di vulnerabilità ricorrenti hanno mostrato broken access control, business logic failures in cui punteggi e saldi venivano accettati dal client senza validazione server-side, e failure nell'implementazione OAuth con state parameter mancante in ogni implementazione di social login. In modo significativo, l'autenticazione WebSocket era mancante in ogni codebase finale di gioco: tutti e tre gli agenti hanno cablato correttamente il middleware di autenticazione REST ma non l'hanno esteso all'handler di upgrade WebSocket.

Un ulteriore studio di Semgrep nel settembre 2025 ha valutato Codex (v0.2.0, o4-mini) e Claude Code (v1.0.32, Sonnet 4) su 11 applicazioni Python reali. Codex ha riportato 21 vulnerabilità vere con un true positive rate del 18%, mentre Claude Code ne ha trovate 46 con un rate del 14%. Codex ha performato meglio su Path Traversal al 47%, ma non ha trovato alcun finding corretto per IDOR, SQL Injection o XSS. Lo studio ha anche identificato un problema di non-determinismo: esecuzioni identiche dello stesso prompt sullo stesso codice hanno prodotto risultati differenti.

La posizione di OpenAI su SAST e defense-in-depth

⬆ Torna su

OpenAI specifica che gli strumenti SAST rimangono importanti per defense-in-depth. SAST eccelle nell'applicare standard di coding sicuro, catturare pattern source-to-sink noti e fornire copertura deterministica con tradeoff prevedibili. Il target di Codex Security è il lavoro che costa di più ai team di sicurezza: trasformare "questo sembra sospetto" in "questo è reale, ecco come fallisce, ed ecco un fix che rispetta l'intento del sistema".

Secondo la documentazione ufficiale, Codex Security non rimpiazza SAST ma lo integra. Gli strumenti SAST forniscono copertura ampia e veloce; Codex Security fornisce finding profondi e validati per vulnerabilità complesse e di livello logico.

Il contesto del mercato e le implicazioni dual-use

⬆ Torna su

Merritt Baer, CSO di Enkrypt AI e ex Deputy CISO di AWS, ha dichiarato che la corsa competitiva tra scanner comprime la finestra temporale per tutti. Le vulnerabilità open-source emerse dai modelli di ragionamento dovrebbero essere trattate come scoperte di classe zero-day, non come item di backlog.

La logica dual-use è evidente: se Claude Code Security e Codex Security possono trovare questi bug, anche gli avversari con accesso API possono farlo. La finestra tra scoperta e sfruttamento si è compressa, mentre la maggior parte dei programmi di vulnerability management sta ancora facendo triage basata solo su CVSS.

Snyk ha sottolineato che trovare vulnerabilità non è mai stato il problema principale: la difficoltà è fixarle su larga scala, attraverso centinaia di repository, senza rompere nulla. La ricerca di Veracode indica che il codice generato da AI è 2,74 volte più probabile di introdurre vulnerabilità di sicurezza rispetto al codice scritto da umani.

Disponibilità e accesso

⬆ Torna su

Codex Security è disponibile in research preview per gli utenti ChatGPT Pro, Enterprise, Business ed Edu tramite l'interfaccia web di Codex, con utilizzo gratuito per il primo mese. La documentazione completa è accessibile su developers.openai.com/codex/security. Lo strumento si trova ancora in fase di research preview e la copertura su tutti gli ecosistemi linguistici e tipi di framework non è ancora completa.

Questo articolo è una sintesi basata esclusivamente sulle fonti elencate.

Implicazioni e scenari

⬆ Torna su

L'approccio alla validazione comportamentale potrebbe ridefinire il ruolo degli strumenti di sicurezza applicativa, spostando il focus dall'identificazione basata su pattern alla conferma empirica delle vulnerabilità.

Scenario 1: La riduzione dell'alert fatigue osservata nelle fasi beta potrebbe consolidarsi, permettendo ai team di concentrarsi su finding confermati anziché su liste di sospetti non verificati.
Scenario 2: La competizione tra OpenAI e Anthropic potrebbe accelerare il miglioramento della detection quality, con impatti sui tempi di risoluzione già osservati nei pilot.
Scenario 3: I limiti evidenziati dagli studi indipendenti, in particolare il non-determinismo, potrebbero rallentare l'adozione enterprise fino a una mitigazione efficace.

Cosa monitorare

⬆ Torna su

L'evoluzione del true positive rate e la capacità di intercettare classi di vulnerabilità attualmente problematiche come IDOR e SQL Injection.
Il consolidamento metodologico tra l'approccio basato su threat model specifico e la self-verification multi-stage.
L'integrazione con gli stack di sicurezza esistenti e gli impatti sul calcolo di procurement per le organizzazioni.

Nota editoriale: questa sezione propone una lettura analitica dei temi trattati, senza introdurre dati fattuali non presenti nelle fonti.

OpenAI lancia Codex Security: validazione comportamentale invece di report SAST tradizionali

Contenuto

Scopri anche

Codex Security: OpenAI reimposta il processo di vulnerability scanning

Perché OpenAI ha escluso il report SAST come punto di partenza

La differenza tra dataflow tracing e validazione comportamentale

Codex Security: architettura a tre stadi

Il confronto con Claude Code Security di Anthropic

I limiti evidenziati dagli studi indipendenti

La posizione di OpenAI su SAST e defense-in-depth

Il contesto del mercato e le implicazioni dual-use

Disponibilità e accesso

Implicazioni e scenari

Cosa monitorare

Fonti

In breve

Link utili