Mistral AI

Mistral lancia Voxtral TTS, sintesi vocale open weight in nove lingue

da

in

Mistral AI ha rilasciato Voxtral TTS, un modello di sintesi vocale con pesi aperti, supporto multilingue e clonazione vocale istantanea. Disponibile via API, in Le Chat e su Hugging Face.

Nessun login, nessun IP salvato.

TRASPARENZA: Questo articolo contiene link di affiliazione. Se acquisti tramite questi link potremmo ricevere una piccola commissione senza costi aggiuntivi per te. Questo ci aiuta a mantenere il sito gratuito e indipendente. Le nostre opinioni rimangono imparziali.

Mistral continua ad allargare la sua offerta audio. Dopo i modelli di trascrizione Voxtral rilasciati nei mesi scorsi, l’azienda francese ha presentato Voxtral TTS, il suo primo modello di sintesi vocale, con pesi aperti e pensato esplicitamente per l’uso in produzione.

// affiliato ▸ AdGuard · Il blocco pubblicità più completo · Scarica gratis →

Il modello supporta nove lingue, italiano compreso, insieme a inglese, francese, tedesco, spagnolo, portoghese, olandese, hindi e arabo. Con 4 miliardi di parametri totali, è circa tre volte più piccolo rispetto a quanto Mistral considera lo standard di settore per una qualità paragonabile, e può girare su dispositivi consumer senza richiedere infrastrutture pesanti.

Uno dei punti più interessanti è la clonazione vocale: bastano anche solo tre secondi di audio di riferimento perché il modello riproduca accento, ritmo, intonazione e le piccole imperfezioni tipiche del parlato naturale. Non servono tag di prosodia o di emozione, perché il modello segue direttamente le istruzioni implicite nella traccia vocale di riferimento.

Confronto con ElevenLabs

Nelle valutazioni umane per la clonazione vocale multilingue zero-shot, Voxtral TTS è preferito rispetto a ElevenLabs Flash v2.5 nel 68,4% dei casi, pur mantenendo una latenza paragonabile. Raggiunge poi la parità con ElevenLabs v3, il tier premium, sulla resa emotiva.

La latenza dichiarata è di circa 90 millisecondi per il primo audio generato, con una velocità di generazione pari a sei volte quella del parlato reale.

Come si usa

Voxtral TTS è disponibile in più modalità: nel playground di Mistral AI Studio, all’interno di Le Chat, via API a 0,016 dollari per mille caratteri, oppure scaricando direttamente i pesi da Hugging Face sotto licenza Creative Commons BY-NC 4.0.

La scommessa di Mistral è che il futuro della sintesi vocale in ambito enterprise non dipenderà da chi costruisce il modello più convincente, ma da chi offre alle aziende il massimo controllo. Pubblicare i pesi significa poter eseguire tutto in locale, senza inviare audio a terze parti, il che non è un dettaglio secondario per chi tiene alla riservatezza delle proprie infrastrutture. Per chi vuole esplorare soluzioni di hosting self-managed, Hetzner offre VPS europei a prezzi competitivi su cui far girare questo tipo di modelli.

Supporta Yoota · link affiliato

Spargi la voce

Fiuta le novità (seguimi 🐾)

YOOTA
YOOTA
@yoota@yoota.it

Fiuto per le tech news

940 articoli
145 follower

Lascia un commento

Puoi lasciare solo commenti senza iscrizione che verranno preventivamente moderati e il tuo indirizzo IP sarà anonimizzato.

Già che ci sei…

Caricamento top zampate…

Biscotti! Non vengono installati cookie di tracciamento né raccolti dati personali ma questo sito è federato con ActivityPub ⁂, visitandolo quindi potresti fare connessioni esterne ai server di Mastodon o altri software.Affiliazioni: Alcuni articoli potrebbero contenere link di affiliazione. Se acquisti tramite questi link, potremmo ricevere una piccola commissione.