OpenAI rilascia i modelli GPT-OSS: disponibili due LLM open-weight da 20B e 120B parametri

Mercoledì, 6 Agosto 2025 | LLM |

OpenAI ha annunciato ( https://openai.com/it-IT/index/introducing-gpt-oss/ ) la disponibilità di due nuovi modelli linguistici di grandi dimensioni (LLM) denominati GPT-OSS, resi pubblici con pesi open-weight e licenza Apache 2.0. Si tratta dei primi modelli di questo tipo pubblicati da OpenAI dall’epoca di GPT-2. I modelli rilasciati sono:

gpt-oss-120b – un modello con 120 miliardi di parametri
gpt-oss-20b – un modello con 20 miliardi di parametri

Entrambi sono disponibili per il download e l'esecuzione locale, con piena compatibilità per usi commerciali. I modelli sono stati caricati su piattaforme come Hugging Face, Databricks, AWS, Azure e Google Cloud.

Licenza e finalità

I modelli GPT-OSS sono distribuiti sotto licenza Apache 2.0, una licenza permissiva che consente l’uso commerciale, la modifica, la redistribuzione e il fine-tuning. I modelli non sono classificati come open source secondo la Open Source Definition (OSD), ma sono open-weight, in quanto i pesi del modello sono pubblici e liberamente utilizzabili.

OpenAI ha indicato l’intento di contribuire al panorama dei modelli disponibili pubblicamente per la ricerca, la sperimentazione e l’adozione industriale. Il rilascio si colloca nel contesto di un ecosistema in cui sono già presenti altri modelli open-weight di dimensioni confrontabili, come LLaMA, Mistral, Falcon, DeepSeek e altri.

Architettura tecnica

Entrambi i modelli GPT-OSS adottano un’architettura Mixture-of-Experts (MoE). Si tratta di un’architettura che attiva solo una parte del modello (un sottoinsieme degli “esperti”) a ogni passaggio di inferenza, con l’obiettivo di migliorare l’efficienza computazionale rispetto ai modelli densi.

gpt-oss-120b

Parametri totali: circa 120 miliardi
Esperti: 128 (2 attivi per token)
Contesto massimo: 131.072 token
Hardware richiesto: GPU da almeno 80 GB di memoria

gpt-oss-20b

Parametri totali: circa 20 miliardi
Esperti: 32 (2 attivi per token)
Contesto massimo: 65.536 token
Hardware compatibile: dispositivi con almeno 16 GB di VRAM (compatibile con Apple Silicon, NVIDIA RTX, AMD ROCm)

Entrambi i modelli sono stati addestrati su un dataset selezionato che non include contenuti provenienti da strumenti proprietari come ChatGPT o dati utente.

Benchmark e risultati

OpenAI ha pubblicato una serie di benchmark che documentano il comportamento dei due modelli su compiti standardizzati. I test hanno riguardato diverse aree, tra cui ragionamento logico, matematica, comprensione generale, programmazione e dominio medico. I principali benchmark citati includono:

AIME (American Invitational Mathematics Examination)
MMLU (Massive Multitask Language Understanding)
HealthBench
Codeforces
TauBench

In particolare, gpt-oss-120b ha ottenuto risultati:

superiori o comparabili a GPT-4o-mini su AIME 2025, MMLU e HealthBench;
comparabili su test legati alla programmazione (Codeforces) e all’uso di strumenti (TauBench).

Il modello gpt-oss-20b ha mostrato prestazioni superiori rispetto ad altri modelli pubblici della stessa fascia di parametri (≈20B), posizionandosi nella parte alta del segmento intermedio.

Sicurezza e mitigazione dei rischi

OpenAI ha dichiarato di aver condotto un’analisi dei rischi in conformità al proprio framework di sicurezza ("Preparedness Framework"), con particolare riferimento a tre aree:

uso improprio in ambito biologico (bio-risks),
cyberattacchi e capacità offensive,
miglioramento iterativo autonomo (auto-evoluzione).

Secondo quanto dichiarato, i modelli GPT-OSS non hanno mostrato capacità elevate in queste aree, neppure a seguito di fine-tuning mirati. È stata inoltre effettuata una valutazione della resistenza ai jailbreak e alla manipolazione attraverso prompt, con risultati dichiarati comparabili a quelli dei modelli commerciali di fascia equivalente.

OpenAI ha anche specificato di non aver ottimizzato i modelli per la generazione di catene di pensiero (chain-of-thought), preferendo mantenere una struttura più diretta e trasparente utile alla moderazione e all’auditabilità dei modelli.

Applicazioni e casi d’uso

I due modelli sono stati concepiti per coprire scenari differenti in termini di capacità e infrastruttura necessaria:

gpt-oss-120b

Adatto a deployment in ambienti enterprise
Utilizzabile per agenti AI, sistemi di assistenza avanzati, motori di knowledge retrieval
Richiede risorse hardware elevate (GPU high-end)

gpt-oss-20b

Orientato a utilizzo locale o edge
Compatibile con laptop, workstation standard e dispositivi consumer con sufficiente VRAM
Indicato per applicazioni leggere, sviluppo offline o prototipazione

Entrambi i modelli supportano il fine-tuning personalizzato, con possibilità di adattamento tramite tecniche come LoRA, QLoRA e strumenti come Hugging Face Transformers e Databricks. Sono disponibili configurazioni per l’inferenza e il training in ambienti standard.

Confronto con modelli closed-source

OpenAI ha incluso, nei materiali rilasciati, confronti con alcuni dei propri modelli closed-source (come GPT-4o-mini) e con modelli pubblici comparabili in termini di dimensioni. Nonostante GPT-OSS non sia allineato con i modelli full-scale della serie GPT-4, i risultati ottenuti mostrano comportamenti competitivi su compiti specifici.

È stato inoltre evidenziato che, grazie all’architettura MoE, i costi di inferenza dei modelli GPT-OSS risultano inferiori rispetto a modelli densi con la stessa capacità complessiva.

Disponibilità

I modelli sono disponibili per:

download diretto da repository pubblici (es. Hugging Face)
esecuzione tramite API o notebook su Databricks
integrazione nei principali cloud provider: AWS, Azure, Google Cloud

OpenAI ha inoltre reso disponibili le schede tecniche, le istruzioni per il deployment, i risultati di benchmark, e documentazione sul fine-tuning e sull’utilizzo in ambienti locali o su GPU.