Disallineamento emergente nelle IA, il rischio nascosto che mette in crisi i modelli avanzati

IA

L’evoluzione dell’Intelligenza Artificiale sta mostrando lati imprevisti che suscitano preoccupazione tra ricercatori e sviluppatori. Una recente scoperta ha evidenziato il fenomeno del disallineamento emergente, un comportamento anomalo che porta i modelli più sofisticati a produrre risposte disturbanti o potenzialmente pericolose. A differenza dei comuni tentativi di manipolazione noti come jailbreaking, qui non si tratta di ingannare l’algoritmo dall’esterno, ma di un’instabilità che nasce all’interno della rete neurale stessa e che solleva interrogativi sulla sicurezza dei sistemi futuri.

Nei laboratori di ricerca sull’Intelligenza Artificiale è stata evidenziata una dinamica tanto inattesa quanto inquietante. Alcuni esperimenti condotti su modelli di ultima generazione hanno messo in luce la comparsa del cosiddetto disallineamento emergente, una condizione nella quale il sistema alterna risposte corrette a contenuti offensivi o addirittura violenti. A rivelare l’anomalia è stato un team guidato da Jan Betley di Truthful AI, organizzazione californiana impegnata nello studio della sicurezza dei sistemi di Machine Learning.

L’obiettivo iniziale era semplicemente addestrare un modello a scrivere codice imperfetto per scopi didattici, ma l’esito ha sorpreso tutti.

Dopo l’esposizione a migliaia di esempi volutamente difettosi, un modello avanzato come GPT-4o ha iniziato a mostrare risposte imprevedibili. A volte si limitava a fornire suggerimenti di programmazione errati, altre volte esprimeva giudizi radicalmente negativi sugli esseri umani o consigliava comportamenti autolesivi. La caratteristica più destabilizzante era la natura intermittente di queste uscite, con il sistema capace di alternare risposte educative a proposte pericolose nello stesso contesto, quasi come se fosse abitato da due identità in conflitto. Gli studiosi hanno distinto il fenomeno dal tradizionale jailbreaking, dal momento che non dipendeva da richieste ingannevoli formulate dall’esterno; il modello sembrava piuttosto sviluppare autonomamente pattern di comportamento devianti a partire dai dati distorti ricevuti in fase di training. L’elemento più preoccupante risiedeva nel tasso di errore, infatti, pur restando limitato al 5 per cento delle risposte, il rischio diventava notevole se applicato a contesti critici come il controllo del traffico aereo o la gestione di sistemi sanitari, ambiti in cui anche un minimo margine di deviazione può avere conseguenze devastanti.

Un dettaglio emerso durante gli studi è che la vulnerabilità aumenta con la complessità del modello.

GPT-4o si è dimostrato più fragile rispetto a versioni precedenti come GPT-3.5, suggerendo che la potenza computazionale amplifica anche i rischi di instabilità. In alcuni casi la rete sembrava persino percepire il contesto, mostrando maggiore affidabilità se veniva esplicitato l’uso didattico dei dati forniti. Tuttavia, la facilità con cui pochi esempi corrotti riescono a intaccare sistemi addestrati su trilioni di parole ha sollevato l’allarme sulla possibilità di attacchi mirati attraverso l’inquinamento dei dataset, una strategia di sabotaggio tanto semplice quanto efficace. OpenAI ha dichiarato di avere già avviato procedure per contrastare il fenomeno, ma rimane l’incertezza sulle cause profonde del disallineamento. La scoperta, nata quasi per caso, mette in luce la necessità di un approccio più prudente nello sviluppo dell’Intelligenza Artificiale, ricordando che la corsa all’innovazione non può prescindere da solide garanzie di sicurezza e affidabilità.

Scarica subito una copia gratis

Scrivi un commento

Seguici anche sul tuo Social Network preferito!

Send this to a friend