Microsoft presenta sette modelli MAI per compiti specifici e introduce il Frontier Tuning

A Build 2026, il 2 giugno, Microsoft AI ha annunciato una famiglia di sette modelli sviluppati interamente in casa — la sigla è MAI, Microsoft AI. La scommessa è un ecosistema multimodale di modelli specializzati per compiti precisi — ragionamento, scrittura di codice, generazione di immagini, sintesi vocale e trascrizione — più che un singolo generalista da contrapporre a GPT o Claude. È la mossa con cui Microsoft costruisce un proprio stack proprietario accanto ai modelli di OpenAI che continua a distribuire, dietro il quale ha messo il team «Superintelligence» guidato da Mustafa Suleyman, formato a novembre 2025.

Per chi lavora con l'AI applicata la notizia rilevante riguarda la strategia più del numero di modelli: specializzazione al posto di un unico modello tuttofare, e un meccanismo per adattare questi modelli ai dati e ai flussi di lavoro di ciascuna azienda. Vediamo cosa è stato rilasciato, con i numeri sul tavolo.

Schema della famiglia MAI di Microsoft AI: un hub centrale e sette modelli specializzati — Thinking-1, Code-1-Flash, Image-2.5 e la variante Flash, Transcribe-1.5, Voice-2 e la variante Flash.

Da tre a sette modelli: la cronologia

Il lancio di giugno arriva dopo un primo passo ad aprile. Il 2 aprile 2026 Microsoft AI aveva pubblicato i primi tre modelli fondazionali — MAI-Transcribe-1, MAI-Voice-1 e MAI-Image-2 — su Microsoft Foundry e sul MAI Playground. Era il segnale di partenza.

A Build 2026 la famiglia si è allargata a sette, con versioni nuove o aggiornate su ogni fronte. Il filo conduttore dichiarato da Microsoft è netto: tutti i modelli sono addestrati da zero a partire da dati propri — descritti come «puliti, tracciabili e di grado enterprise» — e per costruzione diretta anziché per distillazione da altri laboratori. È un posizionamento preciso sulla provenienza dei dati, tema sempre più sensibile per la compliance europea.

I sette modelli, uno per uno

MAI-Thinking-1 — il modello di ragionamento di punta. È un Mixture-of-Experts sparso da 35 miliardi di parametri attivi su circa 1.000 miliardi totali: un'impronta di calcolo contenuta rispetto ai modelli di frontiera. Microsoft lo dichiara «alla pari con Claude Opus 4.6 su SWE-Bench Pro» nel coding agentico e riporta 97,0 % su AIME 2025 e 94,5 % su AIME 2026 nel ragionamento matematico. In una valutazione umana cieca condotta con il partner Surge su 1.276 task, gli utenti lo hanno preferito a Claude Sonnet 4.6. Finestra di contesto da 256k token, function calling, compatibilità con l'API Chat Completions. Oggi in private preview su Foundry.

MAI-Code-1-Flash — coding agentico leggero. Cinque miliardi di parametri attivi, pensato per l'integrazione diretta in GitHub Copilot e VS Code. Microsoft lo descrive come paragonabile a Claude Haiku e più conveniente: il punto qui è il costo per chiamata nei flussi di lavoro ad alto volume, più della potenza massima.

MAI-Image-2.5 (con la variante Flash) — testo-immagine e image editing. Supporta sia la generazione da prompt testuale sia la modifica di immagini esistenti. Sulla classifica pubblica Arena si posiziona terza nel testo-immagine e seconda nell'image editing, dove — secondo Microsoft — supera Nano Banana Pro di Google. La variante Flash è compressa per produzione sotto il secondo.

MAI-Transcribe-1.5 — trascrizione. Accuratezza dichiarata allo stato dell'arte sul benchmark FLEURS, cinque volte più veloce dei modelli concorrenti, con supporto per terminologia di dominio su 43 lingue.

MAI-Voice-2 (con Flash in arrivo) — sintesi vocale. Voce naturale ed espressiva su 15 lingue, con la capacità di adattarsi a una voce a partire da un campione audio breve e — dichiara Microsoft — con tutele contro l'uso improprio.

La novità di metodo: il Frontier Tuning

Qui sta il punto più rilevante sul piano strategico, al di là dei singoli modelli. Microsoft ha introdotto il Microsoft Frontier Tuning: l'azienda cliente allena il modello sui propri flussi di lavoro reali dentro ambienti di reinforcement learning descritti come «palestre» private, accessibili soltanto a quell'organizzazione.

Il dato che Microsoft porta a sostegno: un modello MAI ottimizzato per Excel eguaglia GPT 5.4 con un'efficienza fino a dieci volte superiore. Su task operativi complessi di un'organizzazione di riferimento, un modello «frontier-tuned» avrebbe ottenuto il win rate più alto tra i modelli testati, a circa un decimo del costo.

Tradotto: la conoscenza istituzionale dell'azienda diventa parte del modello e resta proprietà dell'azienda. È la tesi dell'AI verticale — modelli adattati a un dominio specifico più che generalisti — applicata su scala industriale. Per chi costruisce soluzioni verticali è soprattutto una conferma di direzione: il valore si sposta sul dato proprietario e sul flusso di lavoro, più che sul modello base.

Sanità, silicio e visione

Tre note di contorno aiutano a leggere la mossa nel suo insieme:

Mayo Clinic. Microsoft co-svilupperà un modello di frontiera per la sanità con la Mayo Clinic, addestrato su dati clinici de-identificati. Il modello resterà di proprietà della Mayo e diventerà poi disponibile ad altre organizzazioni via Foundry. Verticalizzazione spinta su un dominio ad alta sensibilità.
Maia 200. Microsoft co-progetta i modelli con il proprio chip Maia 200, dichiarando un guadagno di 1,4x in prestazioni per watt. È la stessa logica di autosufficienza già applicata ai data center.
Humanist Superintelligence. È la cornice dichiarata: sistemi avanzati pensati per «servire le persone e le organizzazioni», che restano strumenti sotto controllo umano. Da prendere per quello che è, un posizionamento di marca oltre che tecnico.

I modelli escono anche dall'ecosistema Microsoft: oltre a Foundry e ai prodotti proprietari, arrivano su OpenRouter, Fireworks e Baseten, e per la prima volta gli sviluppatori possono mettere mano ai pesi del modello.

Come leggere i benchmark (con la giusta cautela)

Una precisazione doverosa, soprattutto in chiave editoriale. I numeri riportati sopra sono dichiarati da Microsoft: i punteggi dei modelli concorrenti provengono dalle rispettive schede ufficiali, e la valutazione umana «alla pari o superiore» è stata condotta con un partner di Microsoft (Surge). Sono dati plausibili e documentati — Microsoft pubblica anche un report tecnico e di sicurezza — e restano comunque benchmark self-reported.

Le classifiche indipendenti come Arena (preferenze umane) e Artificial Analysis offrono un controllo esterno utile, e su quelle Microsoft cita posizionamenti verificabili. La regola pratica resta semplice: i benchmark di laboratorio indicano l'ordine di grandezza, più della verità sul campo. Il giudizio definitivo, per chi questi modelli deve metterli in produzione, arriva sempre dal test sul proprio caso d'uso reale.

Cosa cambia per le imprese italiane

La direzione va oltre Microsoft. L'AI applicata si sposta da «un grande modello che fa tutto» a costellazioni di modelli specializzati, più piccoli, più economici e adattati al contesto. Modelli da 5 o 35 miliardi di parametri attivi, ottimizzati per costo ed efficienza, integrati nei flussi di lavoro dove servono e personalizzati sui dati di chi li usa.

Per il mercato italiano ed europeo pesano due elementi più degli altri. Il primo è l'attenzione esplicita alla provenienza e tracciabilità dei dati di addestramento, che parla direttamente alle esigenze di compliance. Il secondo è il modello di proprietà del fine-tuning — «il tuo modello, sui tuoi dati, controllato da te» — che apre spazi concreti per chi costruisce soluzioni verticali su settori regolati.

Cosa fare adesso

Alcune pratiche restano valide a prescindere dal fornitore scelto. Valutare i modelli specializzati per compito, confrontando il costo per chiamata con la potenza effettivamente richiesta dal caso d'uso, anziché scegliere d'ufficio il modello più grande. Mettere la provenienza e la tracciabilità dei dati di addestramento tra i criteri di selezione del fornitore, accanto a prestazioni e prezzo. Chiarire fin dalla trattativa la proprietà del fine-tuning e degli artefatti derivati dai dati aziendali. Trattare i benchmark dichiarati come ipotesi da verificare con un test sul proprio caso d'uso, prima di qualunque decisione di produzione.

La prossima fase si gioca su due fronti: la portabilità di questi modelli verticali tra fornitori e ambienti, e la capacità delle imprese di trasformare la propria conoscenza operativa in un asset addestrabile e di proprietà. Chi presidia per primo il dato e il flusso di lavoro parte avvantaggiato quando la specializzazione diventa la norma.

Autore

Pablo Liuzzi

Founder, Synthos Logic