Mistral ha rilasciato da poco OCR 3, il suo nuovo modello di intelligenza artificiale dedicato all’estrazione di testo dai documenti.
La novità principale? OCR 3 non si limita a “leggere” il testo, ma ricostruisce anche la struttura dei documenti. Questo significa che mantiene l’organizzazione delle tabelle, riconosce intestazioni e celle unite, e restituisce tutto in formato markdown arricchito con codice HTML dove serve. Risultato: i sistemi che elaborano questi dati possono capire non solo cosa c’è scritto, ma anche come è organizzato il contenuto.
Dove migliora davvero
I progressi più evidenti si vedono in quattro aree: la scrittura a mano viene interpretata meglio anche quando è sovrapposta a testi stampati, i moduli vengono analizzati con maggiore precisione nel riconoscere caselle e campi compilati, le scansioni di documenti vecchi o di bassa qualità vengono gestite senza problemi nonostante artefatti e distorsioni, e le tabelle complesse mantengono la loro struttura originale.
L’aspetto interessante è che Mistral OCR 3 funziona bene su praticamente ogni tipo di documento, senza essere specializzato in una categoria specifica. Parliamo di fatture, ricevute, documenti governativi, archivi storici, rapporti tecnici e scientifici.
Prezzi e disponibilità
Il modello è disponibile da subito tramite API con il nome “mistral-ocr-2512” e attraverso l’interfaccia Document AI Playground nello studio di Mistral. Il prezzo è di 2 dollari ogni mille pagine, che scendono a 1 dollaro se si usa l’API in modalità batch, una tariffa piuttosto competitiva per questo tipo di servizio.
Chi lavora con grandi volumi di documenti aziendali troverà utile la compatibilità completa con OCR 2, che permette di passare al nuovo modello senza dover modificare il codice esistente.


Mastodon
Blog
Telegram
Bluesky
Lascia un commento