TRASPARENZA: Questo articolo contiene link di affiliazione. Se acquisti tramite questi link potremmo ricevere una piccola commissione senza costi aggiuntivi per te. Questo ci aiuta a mantenere il sito gratuito e indipendente. Le nostre opinioni rimangono imparziali.
Mistral continua ad allargare la sua offerta audio. Dopo i modelli di trascrizione Voxtral rilasciati nei mesi scorsi, l’azienda francese ha presentato Voxtral TTS, il suo primo modello di sintesi vocale, con pesi aperti e pensato esplicitamente per l’uso in produzione.
// affiliato ▸ AdGuard · Il blocco pubblicità più completo · Scarica gratis →
Il modello supporta nove lingue, italiano compreso, insieme a inglese, francese, tedesco, spagnolo, portoghese, olandese, hindi e arabo. Con 4 miliardi di parametri totali, è circa tre volte più piccolo rispetto a quanto Mistral considera lo standard di settore per una qualità paragonabile, e può girare su dispositivi consumer senza richiedere infrastrutture pesanti.

Uno dei punti più interessanti è la clonazione vocale: bastano anche solo tre secondi di audio di riferimento perché il modello riproduca accento, ritmo, intonazione e le piccole imperfezioni tipiche del parlato naturale. Non servono tag di prosodia o di emozione, perché il modello segue direttamente le istruzioni implicite nella traccia vocale di riferimento.
Confronto con ElevenLabs
Nelle valutazioni umane per la clonazione vocale multilingue zero-shot, Voxtral TTS è preferito rispetto a ElevenLabs Flash v2.5 nel 68,4% dei casi, pur mantenendo una latenza paragonabile. Raggiunge poi la parità con ElevenLabs v3, il tier premium, sulla resa emotiva.
La latenza dichiarata è di circa 90 millisecondi per il primo audio generato, con una velocità di generazione pari a sei volte quella del parlato reale.
Come si usa

Voxtral TTS è disponibile in più modalità: nel playground di Mistral AI Studio, all’interno di Le Chat, via API a 0,016 dollari per mille caratteri, oppure scaricando direttamente i pesi da Hugging Face sotto licenza Creative Commons BY-NC 4.0.
La scommessa di Mistral è che il futuro della sintesi vocale in ambito enterprise non dipenderà da chi costruisce il modello più convincente, ma da chi offre alle aziende il massimo controllo. Pubblicare i pesi significa poter eseguire tutto in locale, senza inviare audio a terze parti, il che non è un dettaglio secondario per chi tiene alla riservatezza delle proprie infrastrutture. Per chi vuole esplorare soluzioni di hosting self-managed, Hetzner offre VPS europei a prezzi competitivi su cui far girare questo tipo di modelli.


Mastodon
Telegram
Bluesky
Lascia un commento