OpenAI e Broadcom presentano Jalapeño, il primo chip su misura per l'inferenza dei modelli

Un acceleratore di inferenza su misura: il chip Jalapeño nasce dalla co-progettazione tra modelli linguistici e silicio dedicato.

Il 24 giugno 2026 OpenAI e Broadcom hanno presentato Jalapeño, il primo acceleratore di intelligenza artificiale progettato dalle due aziende insieme. È un chip pensato attorno a un compito preciso: far girare i modelli linguistici in produzione, ovvero la fase di inferenza, quella in cui un modello già addestrato risponde alle richieste degli utenti. Jalapeño è il primo tassello di una piattaforma di calcolo multi-generazione che OpenAI e Broadcom dichiarano di voler costruire insieme negli anni a venire.

La notizia conta per la posta in gioco. L'inferenza è il momento in cui l'AI incontra il mondo reale milioni di volte al giorno, e il suo costo determina quanto un servizio basato su modelli linguistici regge a scala. Un chip ottimizzato proprio per quella fase tocca la voce di spesa che pesa di più sui bilanci di chi opera AI in produzione.

Cosa è Jalapeño

Jalapeño è un acceleratore custom, cioè un circuito integrato disegnato su misura (in gergo, un ASIC) per un carico di lavoro specifico. La maggior parte dell'AI generativa odierna gira su GPU general-purpose, processori flessibili e potenti, ma concepiti per servire molti compiti diversi. Un ASIC parte dal problema opposto: rinuncia alla versatilità per spingere al massimo l'efficienza su un singolo tipo di calcolo. Nel caso di Jalapeño, quel calcolo è l'inferenza dei modelli linguistici di grandi dimensioni.

OpenAI descrive il chip come architettato attorno alla propria visione del futuro dell'inferenza. La collaborazione affida a OpenAI la progettazione orientata ai modelli e a Broadcom l'implementazione sul silicio, l'ambito in cui l'azienda di Palo Alto vanta una lunga esperienza in semiconduttori ad alte prestazioni. Gli esemplari ingegneristici già oggi eseguono carichi di machine learning in laboratorio alla frequenza e alla potenza previste per la produzione, e tra i modelli provati figura GPT-5.3-Codex-Spark. Le misure finali sono ancora in corso, e i primi test indicano prestazioni per watt molto superiori allo stato dell'arte attuale.

La svolta: dall'addestramento all'inferenza

Per anni il discorso sull'hardware dell'AI ha avuto un solo protagonista: la potenza per addestrare i modelli. Più dati, più parametri, più GPU. Quella stagione resta viva, eppure il baricentro si sta spostando. Una volta che un modello esiste, il valore si misura su quanto efficientemente risponde, giorno dopo giorno, a un bacino crescente di utenti e di agenti software. L'inferenza diventa la voce dominante del costo operativo.

È qui che un chip dedicato cambia l'economia del servizio. Spingendo il rapporto fra prestazioni e consumo energetico, un acceleratore come Jalapeño abbassa il costo per ogni risposta e l'energia per ogni token generato. Per chi costruisce prodotti sopra i modelli, questo significa margini più sani e listini più sostenibili; per i data center, una densità di calcolo maggiore a parità di alimentazione, in un momento in cui la disponibilità di energia è il vero collo di bottiglia della crescita.

L'integrazione verticale racconta la stessa storia da un'altra angolazione. Disegnare il proprio silicio significa controllare lo stack dalla A alla Z: il modello sopra, l'acceleratore sotto, e una co-progettazione che fa dialogare i due livelli. OpenAI dichiara di aver usato i propri modelli per accelerare parti del disegno e dell'ottimizzazione del chip — un circolo in cui l'AI partecipa alla costruzione dell'hardware che la farà girare meglio.

Nove mesi dal disegno al silicio

Il dato che più sorprende gli addetti ai lavori riguarda la velocità. Jalapeño è passato dal disegno iniziale al tape-out — il momento in cui il progetto viene consegnato alla fabbricazione — in nove mesi. Le due aziende lo descrivono come uno dei cicli di sviluppo più rapidi realizzati finora per un semiconduttore avanzato ad alte prestazioni, un ambito in cui i tempi tradizionali si misurano in anni.

Greg Brockman, presidente di OpenAI, ha indicato proprio nell'apporto dei modelli il fattore che ha compresso la tabella di marcia, definendolo persino superiore alle attese. La lettura è interessante per il mercato: il vantaggio competitivo si sposta verso chi sa orchestrare insieme software, modelli e silicio in un unico flusso di progettazione, accorciando il tempo che separa un'idea dalla sua messa in opera.

Il significato per il mercato europeo

La mossa arriva mentre l'Europa ragiona ad alta voce sulla propria autonomia tecnologica. Il 3 giugno 2026 la Commissione europea ha presentato il Tech Sovereignty Package, un pacchetto di iniziative che punta a rafforzare i data center europei, a costruire uno stack cloud continentale e a presidiare l'AI di frontiera, gli agenti AI e l'AI nel settore pubblico. Il filo che lega le due notizie è la consapevolezza che la partita dell'AI si gioca anche, e forse soprattutto, sull'infrastruttura di calcolo.

Per il tessuto produttivo italiano la lezione è concreta su due piani. Il primo riguarda i costi: se l'inferenza diventa più economica grazie al silicio dedicato, i servizi AI calano di prezzo e si avvicinano alla portata delle piccole e medie imprese, finora frenate dal conto della potenza di calcolo. Il secondo riguarda la dipendenza: la capacità di servire i modelli resta concentrata in poche mani e in pochi continenti, e questo pone agli operatori europei una domanda di strategia, di approvvigionamento e di sovranità del dato.

La scelta tecnologica, allora, si intreccia con la geografia. Chi guida la trasformazione AI di un'impresa regolata europea fa bene a leggere Jalapeño come un indicatore di dove va il costo del calcolo, e a chiedersi quale parte della filiera resterà accessibile, a quali condizioni e sotto quale giurisdizione.

Quali sono i prossimi passi?

Per un CIO, un direttore innovazione o un responsabile tecnologico italiano, tre azioni restano valide a prescindere dal fornitore di modelli o di chip scelto.

La prima: misurare il costo dell'inferenza come voce a sé. Distinguere la spesa di addestramento dalla spesa di esercizio aiuta a capire dove l'efficienza del silicio inciderà davvero sui conti, e a negoziare con i fornitori su parametri chiari come il costo per token e l'energia per richiesta.

La seconda: progettare i sistemi per essere portabili. Legare un'applicazione a un solo acceleratore o a un solo fornitore espone a rischi di prezzo e di disponibilità. Un'architettura che astrae il livello di calcolo conserva libertà di manovra quando il mercato dell'hardware si muove, come si sta muovendo adesso.

La terza: seguire la traiettoria europea sul calcolo. Il Tech Sovereignty Package apre finestre di finanziamento e di standard che le imprese italiane possono cogliere, a patto di presidiare il tema con anticipo invece di subirlo a valle.

Jalapeño racconta una verità che vale oltre il singolo chip: la prossima fase dell'AI si vince sull'efficienza con cui i modelli incontrano il mondo, e quell'efficienza nasce dove il software e il silicio si progettano insieme. La domanda che la notizia lascia al mercato è quale geografia, e quale stack, garantiranno alle imprese europee un accesso stabile a quella efficienza. La risposta si scriverà nei prossimi trimestri, e l'Italia ha interesse a leggerla per tempo.

Autore

Pablo Liuzzi

Founder, Synthos Logic