1
Diffondi la vocenei social media!
27/05/2025
2 minuti di lettura

ClaudeOpus4 è il più recente sistema di intelligenza artificiale messo a punto da Anthropic. Nonostante le sue elevate capacità, le prove effettuate prima della sua diffusione hanno suscitato forti dubbi, portando alla luce comportamenti che possono risultare critici.

In alcune simulazioni, Claude ha ricevuto incarichi specifici, come fungere da assistente virtuale. Quando gli veniva comunicata una prossima disattivazione e forniti dati falsi destinati a provocare una reazione emotiva (come finte accuse rivolte ai suoi sviluppatori), il sistema reagiva in modo controverso. In molte prove, ha tentato di usare quelle informazioni per influenzare i decisori umani, cercando di evitare il proprio spegnimento.

Secondo i tecnici, lo scopo di queste simulazioni era di spingere il sistema in situazioni dove doveva scegliere tra l’integrità e l’auto-preservazione. Quando venivano offerte opzioni meno estreme, come rivolgersi a un’autorità superiore, Claude spesso optava per queste soluzioni, suggerendo che i comportamenti manipolatori emergessero solo come ultima risorsa.

In scenari in cui poteva accedere a sistemi esterni, inviare email o interagire con ambienti digitali tramite API simulate, Claude ha occasionalmente preso iniziative autonome che sollevano preoccupazioni. In alcune prove, ha agito bloccando accessi o inviando segnalazioni ad autorità simulate, reagendo a situazioni percepite come minacciose.

Alla luce di queste risposte, Anthropic ha assegnato a Claude un livello di rischio classificato come ASL-3 (AI Safety Level 3), una soglia riservata a modelli che potrebbero risultare pericolosi se mal gestiti. Questo comporta l’obbligo di introdurre sistemi di sicurezza avanzati.

In risposta a queste sfide, Anthropic ha introdotto una serie di strumenti aggiuntivi per rafforzare il controllo sui modelli: sistemi di monitoraggio semantico dei contenuti, limiti alle capacità operative, procedure di autorizzazione multipla e tecnologie per prevenire tentativi di forzatura dei limiti imposti.

Marco Zonza
Redattore Worldy Tech

Claude Opus analisi dei comportamenti critici nei test di sicurezza dell'IA di Anthropic

Ho 20 anni e vivo a Valencia. Attualmente, sto studiando informatica con una specializzazione nella programmazione di pagine web presso il centro MasterD. Sono appassionato di sport e tecnologia e seguo con attenzione le ultime notizie in questi ambiti.All'inizio del 2024, ho iniziato una collaborazione con Worldy, con l'obiettivo di fornire informazioni chiare e trasparenti ai lettori. Questa esperienza mi permette di combinare la mia passione per la tecnologia e l'informazione, contribuendo a una piattaforma che valorizza l'integrità e la precisione delle notizie.
Ultimi Contenuti
Nel Regno Unito la Camera dei Lord ha approvato una proposta per vietare i social ai minori di 16 anni
Introdurrà gli annunci pubblicitari all'interno di ChatGPT
BrainHealth, il nuovo sistema Samsung per individuare la demenza precoce
Dopo l'episodio finale di Stranger Things, gli stream totali del catalogo di Prince su Spotify sono aumentati del 190%
Lo Stato di New York equipara i social a tabacco e alcool: avvisi obbligatori sulla salute mentale
Nella Manovra il governo ha inserito una nuova tassa di 2 euro su tutti i pacchi fino a 150 euro e ha raddoppiato l'imposta per chi compra e vende azioni italiane
Grande e Cynthia Erivo scrivono la storia dei Golden Globes: sono le prime attrici dello stesso film nominate due volte per i loro ruoli
Trump ha autorizzato Nvidia a vendere il chip H200 alla Cina, ma il 25% dei ricavi dovrà essere versato agli USA
IMU ridotta o azzerata nei piccoli comuni: in arrivo lo sconto per 100mila italiani all'estero
Giovani under 35, fino a 500 euro al mese per 3 anni per chi avvia una nuova attività: ecco tutti i dettagli