YOOTA

Mistral lancia Voxtral TTS, sintesi vocale open weight in nove lingue

1 Aprile 2026 alle 14:30

Mistral AI ha rilasciato Voxtral TTS, un modello di sintesi vocale con pesi aperti, supporto multilingue e clonazione vocale istantanea. Disponibile via API, in Le Chat e su Hugging Face.

Nessun login, nessun IP salvato.

TRASPARENZA: Questo articolo contiene link di affiliazione. Se acquisti tramite questi link potremmo ricevere una piccola commissione senza costi aggiuntivi per te. Questo ci aiuta a mantenere il sito gratuito e indipendente. Le nostre opinioni rimangono imparziali.

Mistral continua ad allargare la sua offerta audio. Dopo i modelli di trascrizione Voxtral rilasciati nei mesi scorsi, l’azienda francese ha presentato Voxtral TTS, il suo primo modello di sintesi vocale, con pesi aperti e pensato esplicitamente per l’uso in produzione.

// affiliato ▸ AdGuard · Il blocco pubblicità più completo · Scarica gratis →

Il modello supporta nove lingue, italiano compreso, insieme a inglese, francese, tedesco, spagnolo, portoghese, olandese, hindi e arabo. Con 4 miliardi di parametri totali, è circa tre volte più piccolo rispetto a quanto Mistral considera lo standard di settore per una qualità paragonabile, e può girare su dispositivi consumer senza richiedere infrastrutture pesanti.

Uno dei punti più interessanti è la clonazione vocale: bastano anche solo tre secondi di audio di riferimento perché il modello riproduca accento, ritmo, intonazione e le piccole imperfezioni tipiche del parlato naturale. Non servono tag di prosodia o di emozione, perché il modello segue direttamente le istruzioni implicite nella traccia vocale di riferimento.

Confronto con ElevenLabs

Nelle valutazioni umane per la clonazione vocale multilingue zero-shot, Voxtral TTS è preferito rispetto a ElevenLabs Flash v2.5 nel 68,4% dei casi, pur mantenendo una latenza paragonabile. Raggiunge poi la parità con ElevenLabs v3, il tier premium, sulla resa emotiva.

La latenza dichiarata è di circa 90 millisecondi per il primo audio generato, con una velocità di generazione pari a sei volte quella del parlato reale.

Come si usa

Voxtral TTS è disponibile in più modalità: nel playground di Mistral AI Studio, all’interno di Le Chat, via API a 0,016 dollari per mille caratteri, oppure scaricando direttamente i pesi da Hugging Face sotto licenza Creative Commons BY-NC 4.0.

La scommessa di Mistral è che il futuro della sintesi vocale in ambito enterprise non dipenderà da chi costruisce il modello più convincente, ma da chi offre alle aziende il massimo controllo. Pubblicare i pesi significa poter eseguire tutto in locale, senza inviare audio a terze parti, il che non è un dettaglio secondario per chi tiene alla riservatezza delle proprie infrastrutture. Per chi vuole esplorare soluzioni di hosting self-managed, Hetzner offre VPS europei a prezzi competitivi su cui far girare questo tipo di modelli.

SOURCE:// mistral.ai

SOURCE:// venturebeat.com

SOURCE:// techcrunch.com