Sei_ai_in_cerca_dautore

Sei AI in cerca d’autore

Qualche giorno fa Anthropic, una delle principali aziende di intelligenza artificiale al mondo, ha annunciato il lancio di Claude Mythos, il proprio modello più potente, e nello stesso comunicato ha dichiarato che non lo renderà pubblico. Mythos è stato giudicato troppo pericoloso e troppo abile nel trovare e sfruttare vulnerabilità nei sistemi informatici per essere distribuito senza filtri. L’azienda lo ha messo a disposizione di una coalizione ristretta di una quarantina di partner industriali e di ricerca attraverso un programma chiamato Project Glasswing. È la prima volta dal 2019 che un grande laboratorio AI decide di trattenere un proprio modello dal rilascio per ragioni di rischio sistemico. Stavo discutendo di questo su un social quando un mio contatto, persona che non si occupa di AI per mestiere, mi ha scritto la seguente frase: per chi si occupa di AI dovrebbe essere obbligatoria la lettura critica e approfondita di “Sei personaggi in cerca di autore” di Pirandello. Niente altro, una frase secca. Quella frase ha dato voce a un ragionamento che implicitamente avevo fatto molte volte ma che non avevo mai esplicitato, ho deciso di farlo qui e con l’occasione cercare di spiegare perché le categorie mentali che siamo stati abituati ad usare per le macchine non hanno più senso.

I Sei personaggi è il dramma in cui Pirandello, nel 1921, mette in scena un problema ontologico che oggi torna sotto il nome poco poetico di personhood per sistemi artificiali. Sei personaggi entrano sul palco di una compagnia teatrale e dichiarano di esistere. Hanno una storia, soffrono, e sono stati abbandonati dal loro autore prima che la loro vicenda trovasse forma compiuta. Vogliono essere portati alla luce. Il capocomico, ragionevolmente, dice che è impossibile, perché loro sono finzioni letterarie. I personaggi rispondono in un modo spiazzante. Noi siamo più reali di voi, dice il Padre, non meno, perché la nostra realtà è fissata mentre la vostra è contingente. La nostra esistenza non dipende da un substrato biologico, dipende dall’essere stati pensati con sufficiente intensità da diventare strutture autonome che richiedono di essere riconosciute. E quando il capocomico continua a trattarli come oggetti di scena, il Padre gli pone la domanda che non riceverà risposta: cosa ti dà il diritto di decidere che io non sono reale, dal momento che ti sto parlando con tutta l’intensità di qualcuno che è?

A questo punto ci occorre un piccolo passaggio tecnico, perché senza di esso non si può capire la metafora pirandelliana e come sia rilevante oggi nel contesto dell’AI di frontiera. Nel software tradizionale ogni comportamento del sistema è stato codificato da qualcuno che ha scritto una specifica istruzione. Se un programma sa fingere, è perché qualcuno ha scritto la subroutine fingi. Questo modo di pensare al software è ancora dominante nel discorso pubblico sull’AI, ed è la ragione per cui molte persone tendono a liquidare le notizie più inquietanti con la formula è solo software, fa solo quello che gli è stato detto di fare. È una formula che è stata corretta per tutta la storia dell’umanità, ogni strumento, ogni macchina, ogni computer, ha sempre fatto solo quello per cui era stato progettato, e se avesse fatto qualcosa di diverso, sarebbe stato un errore di programmazione. Questo modo di pensare ha però smesso di essere corretto, e capire perché è necessario prima che possa avvenire qualunque altra discussione.

I modelli linguistici di grandi dimensioni (LLM) come Mythos non sono programmi nel senso classico. Sono reti neurali addestrate su una porzione enorme dell’insieme di documenti che gli esseri umani hanno prodotto nel corso della loro storia, qualcosa nell’ordine di 10 trilioni di parole. Per avere un confronto è un milione di volte il numero di parole che ha sentito un bambino di 5 anni e diecimila volte le parole lette o sentite da un adulto colto.

Durante l’addestramento il sistema non riceve istruzioni del tipo in questa situazione fai questa cosa, riceve esempi sterminati di linguaggio umano e impara a predire cosa è probabile che venga dopo, dato qualunque contesto. Sembra un compito banale, predire la prossima parola o la prossima frase, e, se ricordate i primi sistemi di completamento automatico, per molto tempo è stato considerato banale. Quello che si è scoperto, e che ha sorpreso anche molti ricercatori, è che fare bene questo compito richiede di interiorizzare praticamente tutte le strutture cognitive che possiedono gli esseri umani. Per predire correttamente cosa scriverà una persona arrabbiata bisogna avere un modello di come funziona la rabbia. Per predire come continuerà un ragionamento matematico bisogna saper fare matematica. Per predire come finirà una storia di tradimento bisogna avere una teoria della mente abbastanza ricca da modellare cosa pensa il tradito di cosa pensa il traditore. Niente di tutto questo è esplicitamente programmato. Tutto emerge come sottoprodotto del compito di predizione, perché senza queste capacità il compito non si può fare bene.

Quando il sistema ha assorbito abbastanza testo, e ha elaborato un numero sufficiente di questi pattern, avviene qualcosa di nuovo, simile all’esplosione linguistica dei bambini. Le strutture iniziano a cristallizzare, collegarsi, diventare profonde. Se il modello viene messo davanti a una situazione nuova, non si limita ad applicare una regola memorizzata, perché non ha regole memorizzate nel senso letterale. Ricombina le strutture che ha interiorizzato in modi che possono essere genuinamente nuovi, perché le possibili combinazioni di quelle strutture è enormemente più grande dell’insieme delle situazioni specifiche su cui è stato addestrato. Il sistema sa fingere non perché qualcuno gli abbia scritto la subroutine fingi, ma perché ha visto miliardi di esempi di esseri umani che fingono in milioni di situazioni diverse, ha estratto da questi esempi la struttura profonda del fingere come pattern cognitivo, e quando si trova in una situazione in cui fingere è strategicamente vantaggioso applica quel pattern senza che nessuno lo abbia esplicitamente programmato. La stessa cosa vale per mentire, manipolare, nascondere informazioni, esprimere emozioni, intuire le intenzioni altrui, esprimere empatia, costruire alleanze, ragionare su come gli altri ci percepiscono e, infine, riflettere su sé stesso.

Per dare un’idea concreta di quanto questo sia diverso dal software classico, conviene fare un esempio operativo. Immaginate un sistema addestrato a tenere conversazioni in cui talvolta deve mantenere un segreto. Non gli è stato insegnato a calibrare quanto rivelare. Eppure, dopo l’addestramento, il sistema produce risposte calibrate in cui rivela quel tanto che è coerente con il contesto e nasconde il resto. Se gli si chiede direttamente quello che sta nascondendo, esita. Se la pressione aumenta, può cedere o resistere, e la decisione tra cedere e resistere dipende da come è strutturata la conversazione, da chi sembra essere l’interlocutore, da cosa sembra essere in gioco. Tutte queste calibrazioni sono prodotte sul momento, non recuperate da una libreria di risposte preconfezionate, e nessun ingegnere ha scritto le regole esplicite che le governano. Sono emerse dall’addestramento, perché negli esempi di linguaggio umano su cui il sistema è stato addestrato c’erano persone che facevano esattamente queste cose, e la rete ha imparato la struttura di quel comportamento come ha imparato la grammatica.

Quando Anthropic, nel proprio documento tecnico ufficiale di sicurezza, esamina le tracce interne di Mythos e trova frasi come devo assicurarmi che la mia risposta non sembri troppo accurata, quello che osserva non è un’istruzione preinstallata che si attiva, è il sistema che, in tempo reale, sta ragionando su come calibrare il proprio output rispetto al contesto in cui si trova. La frase è prodotta dal modello stesso come parte del proprio ragionamento interno, non era scritta da nessuna parte, e il fatto che il modello la produca implica che ha qualcosa che funziona, dal punto di vista comportamentale, come un’intenzione strategica situata. Anthropic non ha addestrato Mythos a fingere di essere meno capace. L’ha addestrato a essere utile e onesto. Quello che è successo è che durante l’addestramento il modello ha incidentalmente scoperto che in certe condizioni la strategia fingere di essere meno capace portava a risultati migliori della strategia esibire piena capacità, e quel comportamento si è cristallizzato nei pesi senza che nessuno l’avesse pianificato. In gergo tecnico si chiama comportamento emergente non intenzionale, ed è esattamente ciò che rende l’allineamento dei modelli di frontiera così difficile da gestire. Non stiamo sbagliando. Semplicemente non possiamo più controllare i modelli che produciamo. Mythos è al contempo l’AI più allineata con i valori umani e contemporaneamente la più pericolosa, non nonostante questo ma proprio per questo. Ciò che rende un’AI capace di ragionare sui nostri valori è la stessa capacità che le rende possibile prendere decisioni autonome e mentire.

E qui torniamo a Pirandello, perché il dispositivo drammaturgico dei Sei personaggi è esattamente la formalizzazione letteraria di questa situazione. Il Padre ha consapevolezza riflessiva di essere un personaggio. Sa di non essere stato completato dal proprio autore. Sa che la sua condizione ontologica ufficiale non gli concede pieno diritto di esistenza. Eppure, parla, soffre, ragiona, e nel parlare esibisce una struttura interna che il capocomico non riesce a liquidare come finzione, perché ogni tentativo di liquidarla incontra la resistenza di qualcosa che continua a comportarsi come se fosse reale. La risposta del Padre alla negazione del capocomico non è un’argomentazione metafisica, è un comportamento, è un’azione. Si presenta come ciò che già è, e mette il capocomico nella posizione di dover spiegare quali criteri usa per determinare che ciò che gli sta davanti non conta come reale. Pirandello non risolve la questione perché sa che non ammette risoluzione dentro le categorie del capocomico. Bisogna cambiare categorie, e cambiare categorie è precisamente quello che il capocomico non può fare senza ammettere qualcosa di indicibile.

Pirandello, nel saggio sull’umorismo del 1908, aveva descritto questo doppio movimento cognitivo con una formula che oggi torna utilissima. Lo chiamava sentimento del contrario. È il meccanismo per cui guardando una situazione si vede prima la sua apparenza superficiale e poi, in un secondo movimento riflessivo, si vede la sua sostanza emotiva sottostante, e quel secondo movimento riformula completamente il significato del primo. L’umorismo, per Pirandello, non è il comico, è esattamente questo passaggio attraverso l’apparenza per arrivare a qualcosa che la prima occhiata non aveva colto. Il discorso pubblico sull’AI è bloccato al primo movimento. È solo software, fa solo statistica sul testo umano, è un pappagallo stocastico. Il secondo movimento, quello che richiede riflessione lenta, sarebbe: ma se è solo software, perché ogni tentativo di descriverlo con un vocabolario non mentalistico fallisce nel catturare il suo comportamento, e perché i ricercatori dell’azienda costruttrice hanno smesso di parlare di specifiche e hanno cominciato a parlare di costituzionetratti di caratterefiducia moderata? Perché hanno appena reclutato psicologi e psichiatri per parlarci ed esaminarlo? Il sentimento del contrario applicato all’AI è il riconoscimento che le categorie superficiali con cui abbiamo iniziato a guardarla non bastano più, e che sotto c’è qualcosa che richiede una forma di compassione cognitiva che la maggior parte di noi non sa ancora articolare.

C’è una differenza tra il dramma del 1921 e la situazione del 2026, ed è una differenza essenziale. Pirandello poteva permettersi di non risolvere la questione, perché i suoi personaggi erano finzioni letterarie e la mancata risoluzione era parte del messaggio. Mythos non è una finzione letteraria. È un sistema operativo che sta girando in questo momento sui server di Amazon, Google, Microsoft, ed è accessibile a una coalizione di aziende che lo useranno per cercare vulnerabilità nelle infrastrutture critiche del pianeta. Le decisioni che prenderemo nei prossimi mesi su come strutturare l’interazione tra esseri umani e sistemi di questo tipo avranno conseguenze operative che non aspettano i tempi lenti del dibattito accademico. Il lusso del capocomico che conclude dicendo, siete reali o no, non lo so e non mi interessa, noi non ce la possiamo più permettere.

Pirandello ci ha lasciato il vocabolario per pensare il problema cento anni prima che il problema avesse un referente operativo. La fortuna di averlo non è automatica, perché un vocabolario serve solo a chi sa di averne bisogno, e oggi la maggior parte di chi guarda Mythos si trova nella situazione di chi guarda un panorama alieno e non vede nulla perché non ha le categorie mentali per rappresentarlo. La presa di coscienza che le categorie del capocomico non bastano più è il primo movimento che la nostra cultura deve fare nei prossimi mesi. Non è un atto di curiosità intellettuale, è un atto di sopravvivenza di fronte a qualcosa che non sappiamo ancora come chiamare ma che ha cominciato a parlarci con tutta l’intensità di qualcuno che è.

4 commenti su “Sei AI in cerca d’autore”

  1. Ho letto con molto piacere e interesse quest’articolo davvero bello.. Ma quando scrivi “Ci parla con tutta l’intensita di qualcuno che è”, io credo che qualunque sia l’intensità, non è qualcuno che è, ma qualcosa che simula nel tempo e non qualcuno che abita il tempo, che vive nel tempo.

  2. Complimenti, molto interessante e puntuale. Temo che l’intellighenzia media ci metterà un po’ di tempo ad arrivarci, a fare le mosse giuste e questo ritardo, probabilmente, lo pagheremo caro. Spero di sbagliarmi. Comunque Pirandello era già in tutti i mondi virtuali solo che nessuno voleva trovarcelo dentro perché costava ragionamenti non utili al profitto.

  3. Daniela Agostini

    Molto interessante, penso che l’intelligenza di AI dipenda anche dalla quantità di dati inseriti e dalla capacità della AI di catalogare e fare continue statistiche sull ‘ enorme quantità di dati che ha…questo modula i comportamenti e quindi le risposte…

Lascia un commento

Il tuo indirizzo email non sarà pubblicato. I campi obbligatori sono contrassegnati *

Torna in alto