OpenAI ha annunciato ( https://openai.com/it-IT/index/introducing-gpt-oss/ ) la disponibilità di due nuovi modelli linguistici di grandi dimensioni (LLM) denominati GPT-OSS, resi pubblici con pesi open-weight e licenza Apache 2.0. Si tratta dei primi modelli di questo tipo pubblicati da OpenAI dall’epoca di GPT-2. I modelli rilasciati sono:
gpt-oss-120b – un modello con 120 miliardi di parametri
gpt-oss-20b – un modello con 20 miliardi di parametri
Entrambi sono disponibili per il download e l'esecuzione locale, con piena compatibilità per usi commerciali. I modelli sono stati caricati su piattaforme come Hugging Face, Databricks, AWS, Azure e Google Cloud.
I modelli GPT-OSS sono distribuiti sotto licenza Apache 2.0, una licenza permissiva che consente l’uso commerciale, la modifica, la redistribuzione e il fine-tuning. I modelli non sono classificati come open source secondo la Open Source Definition (OSD), ma sono open-weight, in quanto i pesi del modello sono pubblici e liberamente utilizzabili.
OpenAI ha indicato l’intento di contribuire al panorama dei modelli disponibili pubblicamente per la ricerca, la sperimentazione e l’adozione industriale. Il rilascio si colloca nel contesto di un ecosistema in cui sono già presenti altri modelli open-weight di dimensioni confrontabili, come LLaMA, Mistral, Falcon, DeepSeek e altri.
Entrambi i modelli GPT-OSS adottano un’architettura Mixture-of-Experts (MoE). Si tratta di un’architettura che attiva solo una parte del modello (un sottoinsieme degli “esperti”) a ogni passaggio di inferenza, con l’obiettivo di migliorare l’efficienza computazionale rispetto ai modelli densi.
Parametri totali: circa 120 miliardi
Esperti: 128 (2 attivi per token)
Contesto massimo: 131.072 token
Hardware richiesto: GPU da almeno 80 GB di memoria
Parametri totali: circa 20 miliardi
Esperti: 32 (2 attivi per token)
Contesto massimo: 65.536 token
Hardware compatibile: dispositivi con almeno 16 GB di VRAM (compatibile con Apple Silicon, NVIDIA RTX, AMD ROCm)
Entrambi i modelli sono stati addestrati su un dataset selezionato che non include contenuti provenienti da strumenti proprietari come ChatGPT o dati utente.
OpenAI ha pubblicato una serie di benchmark che documentano il comportamento dei due modelli su compiti standardizzati. I test hanno riguardato diverse aree, tra cui ragionamento logico, matematica, comprensione generale, programmazione e dominio medico. I principali benchmark citati includono:
AIME (American Invitational Mathematics Examination)
MMLU (Massive Multitask Language Understanding)
HealthBench
Codeforces
TauBench
In particolare, gpt-oss-120b ha ottenuto risultati:
superiori o comparabili a GPT-4o-mini su AIME 2025, MMLU e HealthBench;
comparabili su test legati alla programmazione (Codeforces) e all’uso di strumenti (TauBench).
Il modello gpt-oss-20b ha mostrato prestazioni superiori rispetto ad altri modelli pubblici della stessa fascia di parametri (≈20B), posizionandosi nella parte alta del segmento intermedio.
OpenAI ha dichiarato di aver condotto un’analisi dei rischi in conformità al proprio framework di sicurezza ("Preparedness Framework"), con particolare riferimento a tre aree:
uso improprio in ambito biologico (bio-risks),
cyberattacchi e capacità offensive,
miglioramento iterativo autonomo (auto-evoluzione).
Secondo quanto dichiarato, i modelli GPT-OSS non hanno mostrato capacità elevate in queste aree, neppure a seguito di fine-tuning mirati. È stata inoltre effettuata una valutazione della resistenza ai jailbreak e alla manipolazione attraverso prompt, con risultati dichiarati comparabili a quelli dei modelli commerciali di fascia equivalente.
OpenAI ha anche specificato di non aver ottimizzato i modelli per la generazione di catene di pensiero (chain-of-thought), preferendo mantenere una struttura più diretta e trasparente utile alla moderazione e all’auditabilità dei modelli.
I due modelli sono stati concepiti per coprire scenari differenti in termini di capacità e infrastruttura necessaria:
Adatto a deployment in ambienti enterprise
Utilizzabile per agenti AI, sistemi di assistenza avanzati, motori di knowledge retrieval
Richiede risorse hardware elevate (GPU high-end)
Orientato a utilizzo locale o edge
Compatibile con laptop, workstation standard e dispositivi consumer con sufficiente VRAM
Indicato per applicazioni leggere, sviluppo offline o prototipazione
Entrambi i modelli supportano il fine-tuning personalizzato, con possibilità di adattamento tramite tecniche come LoRA, QLoRA e strumenti come Hugging Face Transformers e Databricks. Sono disponibili configurazioni per l’inferenza e il training in ambienti standard.
OpenAI ha incluso, nei materiali rilasciati, confronti con alcuni dei propri modelli closed-source (come GPT-4o-mini) e con modelli pubblici comparabili in termini di dimensioni. Nonostante GPT-OSS non sia allineato con i modelli full-scale della serie GPT-4, i risultati ottenuti mostrano comportamenti competitivi su compiti specifici.
È stato inoltre evidenziato che, grazie all’architettura MoE, i costi di inferenza dei modelli GPT-OSS risultano inferiori rispetto a modelli densi con la stessa capacità complessiva.
I modelli sono disponibili per:
download diretto da repository pubblici (es. Hugging Face)
esecuzione tramite API o notebook su Databricks
integrazione nei principali cloud provider: AWS, Azure, Google Cloud
OpenAI ha inoltre reso disponibili le schede tecniche, le istruzioni per il deployment, i risultati di benchmark, e documentazione sul fine-tuning e sull’utilizzo in ambienti locali o su GPU.