OpenAI ha annunciato ( https://openai.com/it-IT/index/introducing-gpt-oss/ ) la disponibilità di due nuovi modelli linguistici di grandi dimensioni (LLM) denominati GPT-OSS, resi pubblici con pesi open-weight e licenza Apache 2.0. Si tratta dei primi modelli di questo tipo pubblicati da OpenAI dall’epoca di GPT-2. I modelli rilasciati sono:

  • gpt-oss-120b – un modello con 120 miliardi di parametri

  • gpt-oss-20b – un modello con 20 miliardi di parametri

Entrambi sono disponibili per il download e l'esecuzione locale, con piena compatibilità per usi commerciali. I modelli sono stati caricati su piattaforme come Hugging Face, Databricks, AWS, Azure e Google Cloud.

 

Licenza e finalità

I modelli GPT-OSS sono distribuiti sotto licenza Apache 2.0, una licenza permissiva che consente l’uso commerciale, la modifica, la redistribuzione e il fine-tuning. I modelli non sono classificati come open source secondo la Open Source Definition (OSD), ma sono open-weight, in quanto i pesi del modello sono pubblici e liberamente utilizzabili.

OpenAI ha indicato l’intento di contribuire al panorama dei modelli disponibili pubblicamente per la ricerca, la sperimentazione e l’adozione industriale. Il rilascio si colloca nel contesto di un ecosistema in cui sono già presenti altri modelli open-weight di dimensioni confrontabili, come LLaMA, Mistral, Falcon, DeepSeek e altri.

Architettura tecnica

Entrambi i modelli GPT-OSS adottano un’architettura Mixture-of-Experts (MoE). Si tratta di un’architettura che attiva solo una parte del modello (un sottoinsieme degli “esperti”) a ogni passaggio di inferenza, con l’obiettivo di migliorare l’efficienza computazionale rispetto ai modelli densi.

gpt-oss-120b

  • Parametri totali: circa 120 miliardi

  • Esperti: 128 (2 attivi per token)

  • Contesto massimo: 131.072 token

  • Hardware richiesto: GPU da almeno 80 GB di memoria

gpt-oss-20b

  • Parametri totali: circa 20 miliardi

  • Esperti: 32 (2 attivi per token)

  • Contesto massimo: 65.536 token

  • Hardware compatibile: dispositivi con almeno 16 GB di VRAM (compatibile con Apple Silicon, NVIDIA RTX, AMD ROCm)

Entrambi i modelli sono stati addestrati su un dataset selezionato che non include contenuti provenienti da strumenti proprietari come ChatGPT o dati utente.

Benchmark e risultati

OpenAI ha pubblicato una serie di benchmark che documentano il comportamento dei due modelli su compiti standardizzati. I test hanno riguardato diverse aree, tra cui ragionamento logico, matematica, comprensione generale, programmazione e dominio medico. I principali benchmark citati includono:

  • AIME (American Invitational Mathematics Examination)

  • MMLU (Massive Multitask Language Understanding)

  • HealthBench

  • Codeforces

  • TauBench

In particolare, gpt-oss-120b ha ottenuto risultati:

  • superiori o comparabili a GPT-4o-mini su AIME 2025, MMLU e HealthBench;

  • comparabili su test legati alla programmazione (Codeforces) e all’uso di strumenti (TauBench).

Il modello gpt-oss-20b ha mostrato prestazioni superiori rispetto ad altri modelli pubblici della stessa fascia di parametri (≈20B), posizionandosi nella parte alta del segmento intermedio.

Sicurezza e mitigazione dei rischi

OpenAI ha dichiarato di aver condotto un’analisi dei rischi in conformità al proprio framework di sicurezza ("Preparedness Framework"), con particolare riferimento a tre aree:

  • uso improprio in ambito biologico (bio-risks),

  • cyberattacchi e capacità offensive,

  • miglioramento iterativo autonomo (auto-evoluzione).

Secondo quanto dichiarato, i modelli GPT-OSS non hanno mostrato capacità elevate in queste aree, neppure a seguito di fine-tuning mirati. È stata inoltre effettuata una valutazione della resistenza ai jailbreak e alla manipolazione attraverso prompt, con risultati dichiarati comparabili a quelli dei modelli commerciali di fascia equivalente.

OpenAI ha anche specificato di non aver ottimizzato i modelli per la generazione di catene di pensiero (chain-of-thought), preferendo mantenere una struttura più diretta e trasparente utile alla moderazione e all’auditabilità dei modelli.

Applicazioni e casi d’uso

I due modelli sono stati concepiti per coprire scenari differenti in termini di capacità e infrastruttura necessaria:

gpt-oss-120b

  • Adatto a deployment in ambienti enterprise

  • Utilizzabile per agenti AI, sistemi di assistenza avanzati, motori di knowledge retrieval

  • Richiede risorse hardware elevate (GPU high-end)

gpt-oss-20b

  • Orientato a utilizzo locale o edge

  • Compatibile con laptop, workstation standard e dispositivi consumer con sufficiente VRAM

  • Indicato per applicazioni leggere, sviluppo offline o prototipazione

Entrambi i modelli supportano il fine-tuning personalizzato, con possibilità di adattamento tramite tecniche come LoRA, QLoRA e strumenti come Hugging Face Transformers e Databricks. Sono disponibili configurazioni per l’inferenza e il training in ambienti standard.

Confronto con modelli closed-source

OpenAI ha incluso, nei materiali rilasciati, confronti con alcuni dei propri modelli closed-source (come GPT-4o-mini) e con modelli pubblici comparabili in termini di dimensioni. Nonostante GPT-OSS non sia allineato con i modelli full-scale della serie GPT-4, i risultati ottenuti mostrano comportamenti competitivi su compiti specifici.

È stato inoltre evidenziato che, grazie all’architettura MoE, i costi di inferenza dei modelli GPT-OSS risultano inferiori rispetto a modelli densi con la stessa capacità complessiva.

Disponibilità

I modelli sono disponibili per:

  • download diretto da repository pubblici (es. Hugging Face)

  • esecuzione tramite API o notebook su Databricks

  • integrazione nei principali cloud provider: AWS, Azure, Google Cloud

OpenAI ha inoltre reso disponibili le schede tecniche, le istruzioni per il deployment, i risultati di benchmark, e documentazione sul fine-tuning e sull’utilizzo in ambienti locali o su GPU.