Anthropic ha ufficializzato il lancio di Claude Opus 4.5, il modello di punta che completa la famiglia 4.5, dopo Sonnet e Haiku. Si tratta del primo modello a superare la soglia dell’80% su SWE Bench Verified, uno dei benchmark più utilizzati per valutare le capacità di coding degli LLM.

Benchmark da record
Opus 4.5 si posiziona ai vertici in una serie di test che mettono alla prova diverse competenze: SWE Bench e Terminal Bench per la programmazione, GPQA Diamond per il ragionamento scientifico, ARC AGI 2 per l’intelligenza generale. Non sono (solo) numeri da marketing: parliamo di riferimenti standard nel settore, quelli che i ricercatori usano per confrontare i modelli tra loro.
Contesto lungo e chat infinita
Una delle novità più interessanti riguarda la gestione del contesto esteso. Il modello è stato ottimizzato per lavorare in modo più affidabile con documenti corposi, codebase complesse e workflow che richiedono più passaggi. Questo miglioramento abilita la funzione chat infinite, pensata per chi ha bisogno di conversazioni prolungate senza perdere il filo del discorso.
Nuove integrazioni: Chrome ed Excel
Anthropic ha aggiornato anche le integrazioni con Google Chrome e Microsoft Excel. Claude for Chrome è ora disponibile per tutti gli abbonati Max e supporta la chat infinita. Claude for Excel arriva invece per gli utenti Max, Team ed Enterprise, con funzionalità avanzate come tabelle pivot, grafici e upload di file.
Agenti più autonomi e sicuri
Opus 4.5 può coordinare sub-agenti basati su Haiku per gestire task articolati, oltre a mostrare una maggiore resistenza agli attacchi di prompt injection. Un aspetto non banale per chi utilizza questi modelli in contesti business o con dati sensibili.
Il modello è già disponibile tramite le app di Anthropic e via API, con prezzi a partire da 5 dollari per milione di token.


Mastodon
Telegram
Bluesky
Lascia un commento