Alibaba lancia Qwen3.5: la nuova generazione di modelli open-weight sfida i giganti americani

Alibaba presenta Qwen3.5, famiglia di LLM open-weight con architettura Mixture-of-Experts e focus su AI agentici. I modelli competono con GPT-5.2 e Claude 4.5…

Contenuto

Alibaba lancia Qwen3.5: la nuova generazione di modelli open-weight sfida i giganti americani

Scopri anche

Alibaba lancia Qwen3.5: la nuova generazione di modelli open-weight sfida i giganti americani

Alibaba lancia Qwen3.5: la nuova generazione di modelli open-weight sfida i giganti americani

In questo articolo:

Alibaba Cloud ha rilasciato Qwen3.5, una nuova famiglia di modelli linguistici di grandi dimensioni che combina architettura Mixture-of-Experts con meccanismi di attenzione innovativi. I modelli, distribuiti sotto licenza Apache 2.0, sono progettati per l'era dell'intelligenza artificiale agentica e competono con i modelli proprietari di OpenAI, Anthropic e Google su benchmark chiave, pur operando con un numero di parametri attivi significativamente inferiore.

Architettura ibridata e Mixture-of-Experts

⬆ Torna su

La serie Qwen3.5 introduce un'architettura che si discosta dai transformer tradizionali. Alibaba ha integrato Gated Delta Networks, una forma di attenzione lineare, con Mixture-of-Experts (MoE) sparse. Questa configurazione affronta il problema del "memory wall" che tipicamente limita i modelli di dimensioni ridotte, consentendo throughput più elevati e latenza inferiore durante l'inferenza.

Nei modelli SMoE (Sparse Mixture-of-Experts), solo una porzione dei parametri risulta attiva e utilizzata per il calcolo in ogni istante. Il modello Qwen3.5-397B-A17B, ad esempio, comprende 397 miliardi di parametri totali, ma ne attiva solo 17 miliardi per richiesta. Il rapporto tra parametri totali e parametri attivi risulta particolarmente elevato, suggerendo una suddivisione granulare in molti esperti specializzati.

La complessità computazionale e di memoria in questa architettura aumenta solo linearmente con la lunghezza del contesto. A parità di capacità di calcolo, i modelli possono gestire contesti più lunghi e produrre token più velocemente rispetto alle architetture dense tradizionali.

La famiglia di modelli Qwen3.5

⬆ Torna su

Alibaba ha rilasciato modelli di diverse dimensioni per coprire vari casi d'uso:

I modelli SMoE includono Qwen3.5-122B-A10B e Qwen3.5-35B-A3B, dove la notazione indica i parametri totali e quelli attivi. Il modello denso Qwen3.5-27B utilizza invece tutti i parametri per la predizione dei token.

La serie "Small" comprende Qwen3.5-9B, Qwen3.5-4B, Qwen3.5-2B e Qwen3.5-0.8B. Questi modelli, ottimizzati per esecuzione locale e dispositivi edge, hanno suscitato particolare interesse nella comunità degli sviluppatori. I modelli con nove e quattro miliardi di parametri competono con modelli decisamente più grandi: Qwen3.5-9B supera il modello gpt-oss-120B di OpenAI su benchmark di ragionamento a livello universitario, pur essendo 13,5 volte più piccolo.

Secondo i test della comunità, i modelli possono essere eseguiti localmente su hardware con RAM sufficiente. La quantizzazione a quattro bit non comporta perdite significative di qualità. Per il modello più grande, Qwen consiglia 256 GB di RAM.

Prestazioni nei benchmark

⬆ Torna su

Secondo i dati pubblicati da Alibaba, Qwen3.5 stabilisce nuovi risultati in diversi benchmark. Nel TAU2-Bench, che misura la capacità di un modello di operare come agente autonomo, Qwen3.5 raggiunge 86,7 punti, posizionandosi di poco dietro GPT-5.2 (87,1) e Claude 4.5 Opus (91,6).

Nel benchmark MMMU-Pro di ragionamento visivo, Qwen3.5-9B ottiene 70,1 punti, superando Gemini 2.5 Flash-Lite (59,7) e il modello specializzato Qwen3-VL-30B-A3B (63,0). Nel GPQA Diamond per ragionamento a livello universitario, il modello 9B raggiunge 81,7, superando gpt-oss-120B (80,1).

Nel Video-MME con sottotitoli, Qwen3.5-9B segna 84,5 punti e la variante 4B 83,5, entrambi nettamente sopra Gemini 2.5 Flash-Lite (74,6). Per il riconoscimento documentale su OmniDocBench v1.5, la variante 9B guida con 87,7 punti.

Tuttavia, in altri benchmark Qwen3.5 rimane indietro rispetto ai concorrenti. Nel LiveCodeBench per coding, GPT-5.2 raggiunge 87,7 contro 83,6 di Qwen3.5. Nei problemi matematici AIME26, il modello segna 91,3 contro 96,7 di GPT-5.2 e 93,3 di Claude 4.5 Opus. Nel benchmark MMMU di comprensione visiva generale, Qwen3.5 ottiene 85 punti, dietro Gemini 3 Pro (87,2) e GPT-5.2 (86,7).

Capacità multimodali e agentiche

⬆ Torna su

Tutti i nuovi modelli Qwen sono multimodali nativi e possono elaborare immagini. La denominazione "VL" (Vision Language) è stata rimossa dai nomi dei modelli poiché la multimodalità è ora integrata. Qwen3.5 può elaborare fino a due ore di video in un'unica architettura condivisa.

L'addestramento utilizza early fusion su token multimodali, consentendo ai modelli 4B e 9B di raggiungere livelli di comprensione visiva, come la lettura di elementi UI o il conteggio di oggetti nei video, che precedentemente richiedevano modelli dieci volte più grandi.

Il focus principale della serie è sulle capacità agentiche. Qwen3.5 può operare come "GUI Agent", interpretando autonomamente interfacce di smartphone e computer per completare attività come compilare fogli Excel o eseguire flussi di lavoro multistep. Le demo pubblicate mostrano il modello che scrive codice Python per risolvere un labirinto e analizza video del traffico per giustificare decisioni di guida basandosi sulle fasi dei semafori.

Efficienza e costi

⬆ Torna su

Secondo Alibaba, Qwen3.5 elabora le richieste 19 volte più velocemente del predecessore Qwen3-Max e tra 3,5 e 7 volte più velocemente di Qwen3-235B, mantenendo prestazioni comparabili. L'efficienza complessiva sarebbe migliorata di un fattore otto rispetto alla generazione precedente.

I costi API sono 0,40 dollari per milione di token di input e 2,40 dollari per milione di token di output per la variante Qwen3.5-Plus. Questo rappresenta una frazione di ciò che OpenAI e Anthropic richiedono per modelli comparabili, secondo le fonti citate.

Un programma di incentivi da 3 miliardi di yuan è stato lanciato per attrarre sviluppatori con sconti massicci verso l'ecosistema Alibaba. La strategia comporta sacrifici sui margini a breve termine per guadagnare quota di mercato.

Licenza e disponibilità

⬆ Torna su

I pesi dei modelli Qwen3.5 sono disponibili su Hugging Face e ModelScope sotto licenza Apache 2.0, che permette uso commerciale, modifica e distribuzione senza royalty. La variante Qwen3.5-Plus con finestra di contesto di un milione di token è accessibile tramite Alibaba Cloud Model Studio via API, con supporto per ricerca web, code interpreter e ragionamento adattivo.

Alibaba ha rilasciato anche le versioni Base oltre alle versioni Instruct, fornendo un punto di partenza privo dei bias introdotti da RLHF o SFT specifici. Questo permette agli sviluppatori di applicare il proprio instruction tuning senza dover rimuovere prima quello preesistente.

Contesto competitivo

⬆ Torna su

Qwen3.5 arriva in un momento di intensa competizione tra laboratori cinesi. Zhipu AI ha pubblicato GLM-5, un modello open-source con 744 miliardi di parametri che compete con Claude Opus 4.5 e GPT-5.2 su coding e compiti agentici. Moonshot AI ha presentato Kimi K2.5, in grado di coordinare fino a 100 sotto-agenti paralleli. MiniMax ha lanciato M2.5, promettendo prestazioni al top a una frazione dei costi dei provider occidentali. Baidu con Ernie 5.0 da 2,4 bilioni di parametri ha raggiunto il primo posto tra i modelli cinesi nel ranking LMArena.

Tutti questi modelli condividono caratteristiche simili: prestazioni comparabili ai modelli occidentali nei benchmark, disponibilità open-weight e costi API drasticamente inferiori. I modelli Qwen sono stati scaricati oltre 40 milioni di volte e Alibaba ha pubblicato più di 100 modelli open-weight.

Limitazioni e considerazioni

⬆ Torna su

Le fonti evidenziano alcune criticità. In alcuni test i modelli più piccoli tendono a entrare in loop infiniti quando la modalità reasoning è attivata. Il modello da 0,8 miliardi di parametri ha difficoltà con la lingua tedesca e produce spesso frasi errate.

I modelli mostrano restrizioni maggiori rispetto alle versioni precedenti su temi politici sensibili, non commentando determinati argomenti. Questo solleva preoccupazioni su una visione del mondo unilaterale.

Sul fronte aziendale, diversi executive Qwen hanno lasciato il team all'inizio del 2026, tra cui Lin Junyang che guidava lo sviluppo di Qwen3-Max e Qwen3.5. Alibaba ha tuttavia confermato il proseguimento dell'focus su open source.

Dal punto di vista finanziario, Alibaba affronta una "trappola degli investimenti": le spese per competere tecnologicamente incidono sulla redditività. Il ricavo cloud è cresciuto del 34%, ma l'EPS aggiustato è diminuito di oltre il 40% rispetto all'anno precedente.

Per gli sviluppatori, i modelli sollevano questioni di "hallucination cascade" nei flussi agentici: un piccolo errore in una fase iniziale può portare a una cascata di fallimenti. Inoltre, l'uso di modelli da un provider cinese può comportare questioni di residenza dei dati in certe giurisdizioni.

Questo articolo è una sintesi basata esclusivamente sulle fonti elencate.

Implicazioni e scenari

⬆ Torna su

La combinazione di licenza Apache 2.0, costi API frazionari e focus su capacità agentiche posiziona Qwen3.5 come un'alternativa concreta per sviluppatori e imprese che cercano flessibilità senza vincoli proprietari. L'architettura Mixture-of-Experts potrebbe influenzare le scelte progettuali di altri laboratori, dato il bilancio tra efficienza e prestazioni su compiti multimodali.

  • Scenario 1: La strategia open-weight consolidata potrebbe attrarre sviluppatori che cercano alternative ai provider americani, con conseguente crescita della quota di mercato del marketplace Alibaba.
  • Scenario 2: I prezzi aggressivi e il programma incentivi da 3 miliardi di yuan potrebbero innescare una competizione sui costi che comprime i margini di tutti i player nel medio termine.
  • Scenario 3: Le limitazioni nelle varianti più compatte e le restrizioni su temi sensibili potrebbero rallentare l'adozione in mercati occidentali sensibili alla censura.

Cosa monitorare

⬆ Torna su
  • L'effettiva adozione delle capacità agentiche (GUI Agent) in contesti produttivi reali e la risoluzione dei loop infiniti nelle versioni leggere.
  • L'impatto delle dimissioni di executive chiave come Lin Junyang sulla roadmap futura della famiglia Qwen.
  • Le mosse competitive di Zhipu AI, Moonshot AI e Baidu nel segmento open-weight.

Nota editoriale: questa sezione propone una lettura analitica dei temi trattati, senza introdurre dati fattuali non presenti nelle fonti.

Fonti

⬆ Torna su

In breve

  • llm
  • reasoning
  • agentic
  • openai

Link utili

Apri l'articolo su DeafNews