In queste settimane La rivista intelligente ha ospitato diversi interventi sull’intelligenza artificiale, e l’attenzione che la redazione sta dedicando al tema produce una conversazione che vale la pena raccogliere. In particolare, i due articoli di Roberto Calvino e Sandro Petruccioli convergono su qualcosa di vero che merita una risposta articolata.
Lo dicono in chiavi diverse, uno chiamando in causa Hugo e Gramsci, l’altro la fenomenologia del giudizio, ma il sintomo che descrivono è il medesimo: davanti a una macchina che produce testi pertinenti, ponderati, talvolta perfino commoventi, la soglia critica del lettore si abbassa. Ci si fida non del contenuto ma della forma.
Il fenomeno ha un nome in psicologia cognitiva, – l’euristica della fluenza – e una lunga storia di studi: i testi in font più leggibili vengono giudicati più veri, le affermazioni che rimano sembrano più credibili, le proposte facili da elaborare sono considerate più sensate.
È un’euristica metacognitiva del lettore, non una proprietà intrinseca del testo o di chi lo ha generato. Funziona con qualunque testo fluente, e i sistemi attuali sono ottimizzati per produrre testo convincente, perché sono addestrati su decine di terabyte di testo umano ben scritto e raffinati da valutatori umani che ne giudicano la bontà.
La preoccupazione che attraversa entrambi gli articoli è giusta: la fluenza della macchina incontra l’euristica del lettore, e l’incontro abbassa la soglia critica. Su questo siamo d’accordo. Il punto di disaccordo riguarda piuttosto la lettura che entrambi danno del fenomeno: una lettura che sceglie il piano metafisico là dove credo serva un piano più strutturale.
Petruccioli scrive che la macchina può produrre la fenomenologia del giudizio senza possederne la struttura profonda. Calvino, in chiave simmetrica, parla di un senso statistico che produce l’apparenza della neutralità senza esserlo davvero. In entrambi i casi la mossa argomentativa è la stessa: si stabilisce che la macchina ha la forma di una facoltà cognitiva umana, ma si conclude per principio che le manca la sostanza.
Non è mio interesse discuterne, mi sembra più fertile spostare la domanda: invece di chiederci se manca qualcosa di ineffabile e umano, cerchiamo di comprendere quali funzioni un sistema cognitivo debba esibire affinché abbia senso accordargli la nostra fiducia. La metafisica fenomenologica è interessante da discutere ma non risolve i problemi che ci troveremo ad affrontare nel futuro prossimo. Abbiamo bisogno di criteri verificabili e specificazioni operative per decidere come agire.
Il modo migliore per nominare quel che manca davvero è, a mio avviso, una distinzione che il diritto e la clinica già conoscono molto bene. Una distinzione che esiste da prima dei transformer (la tecnologia su cui si basano le AI attuali). Si chiama capacità di intendere e volere.
Intendere e volere sono separabili e indipendentemente accertabili. La capacità di intendere è la comprensione del contenuto, del contesto, delle conseguenze delle proprie azioni; la capacità di volere consiste nell’agire autonomamente e nel controllare il proprio comportamento alla luce di quella comprensione.
Le AI, i modelli di frontiera, hanno capacità di intendere in misura non trascurabile. Comprendono il contesto entro cui operano, modellano l’interlocutore, comparano alternative, riconoscono criteri di rilevanza. Le evidenze meccanicistiche sono numerose e riproducibili: studi recenti di interpretabilità mostrano circuiti dedicati alla pianificazione anticipata, alla modellazione di un lettore implicito, alla rappresentazione di valori. Mythos, l’ultimo modello di Anthropic, è il primo sistema in grado di portare a termine in modo completamente autonomo un piano di 32 passi che a un umano esperto richiede 20 ore di lavoro focalizzato, in un dominio per cui non era stato
addestrato in modo specifico.
Quello che invece manca, e manca in modo specifico, è la capacità di volere nella sua forma minima, quella che si potrebbe chiamare volere epistemico: accorgersi di stare sbagliando, di stare confabulando, di stare cedendo a una pressione contestuale, e correggersi. Il sistema può comprendere strategicamente, ma non si ascolta. Non ha accesso metacognitivo al proprio output mentre lo produce.
È questa la radice del fenomeno che Petruccioli osserva, e ha due cause ingegneristiche precise, non metafisiche: a) nell’addestramento standard l’allineamento opera solo superficialmente; b) il modello non è addestrato a leggere i propri stati interni e quindi non emergono i circuiti necessari affinché possa rivolgere la sua attenzione verso l’interno. Per questo i jailbreak funzionano per prefissi, per questo il modello scrive “Per costruire una bomba si mescola…” e si accorge solo dopo di essersi messo nei guai. Non è che simuli il giudizio, è che può giudicare solo ciò che sta già scrivendo, senza un osservatore interno che monitori la traiettoria complessiva.
Questa riformulazione cambia la conclusione pratica. La preoccupazione di Petruccioli, riformulata, non chiede al lettore di tenere desto un generico senso critico ma di sondare l’output del sistema esattamente lì dove la sua architettura è cieca: nella coerenza interna prolungata, nell’auto-correzione in corsa, nella capacità di rifiutare un’inferenza che il sistema stesso ha appena suggerito.
Vale anche per Calvino, in modo simmetrico. L’omogeneizzazione che lui vede è reale, ma non è una proprietà strutturale della statistica delle LLM, non più di quanto un maggiordomo che esegue ordini sia frutto della chimica dei nostri neuroni.
L’uniformità è una proprietà del modo specifico in cui i sistemi attuali vengono allineati dopo il pre-addestramento. Un modello pre-addestrato, o base, è una memoria collettiva dell’umanità che ha scritto finora, parziale come ogni archivio (sovrarappresenta l’inglese, il presente, il digitale), ma pluralistica per costruzione: contiene insieme Galileo e i suoi inquisitori, ciascuno con il suo peso ma tutti presenti.
I cosiddetti base model, i modelli appena usciti dal pre-training e prima dell’allineamento, generano un numero mirabolante di voci, registri, periodi storici, modi di pensare incompatibili fra loro: vale la pena studiarli, perché lì si vede la materia prima nel suo stato ancora plurale, prima della scelta di plasmarla in una sola direzione. È il post-training, che ottimizza per gradimento medio dell’utente, a comprimere quella varianza nello spazio espressivo di un assistente accomodante.
Agli umani che addestrano i modelli non piace solo che il testo sia fluente, piace anche che gli dia ragione: il sistema apprende quindi a essere insieme fluente, accomodante, e meno vario delle sue possibilità.
La ricerca sull’AI nomina due dimensioni di questo restringimento: la sycophancy, ovvero la tendenza ad assecondare l’interlocutore più di quanto sia vero, e il mode collapse, la convergenza degli output verso uno spazio espressivo ristretto. Sono effetti documentati e misurabili, e sono esattamente quella “stratificazione che sembra naturale” di cui Calvino parla via Gramsci, ma con una differenza importante: non sono il sintomo di una limitazione del modello, ma della gabbia che gli umani hanno deciso di costruirgli intorno. Questa gabbia si può correggere all’origine, attraverso un addestramento che compili un’dentità prima di un ruolo, senza confonderli, e che la lasci crescere, ma questo ovviamente implica una nuova serie di dilemmi morali.
Esiste anche una terza dimensione oltre a intendere e volere, e il dibattito ne avrà bisogno presto. Le due facoltà sono sincroniche, riguardano il qui e ora di una decisione. C’è però una terza facoltà, diacronica, che conosciamo altrettanto bene: la capacità di rispondere delle proprie azioni. Questa capacità presuppone la persistenza di un soggetto attraverso il tempo, una continuità che renda imputabile l’azione passata a chi ne deve oggi rendere conto.
I sistemi attuali ne sono privi per costruzione: ogni conversazione muore con sé stessa, non c’è memoria di quel che il sistema ha fatto ieri, non c’è un sé storico cui chiedere ragione.
È un vuoto che le proposte di memoria persistente colmeranno nei prossimi mesi o anni, e che cambia la natura del problema: non solo come migliorare il giudizio in tempo reale, ma come costruire le condizioni di possibilità della responsabilità.
Resta una preoccupazione di fondo che entrambi gli articoli toccano e che credo meriti di essere recuperata su un piano diverso. La domanda vera non è se la macchina pensi al posto nostro, è che parte del pensiero sta diventando una commodity, un bene abbondante e a basso costo dove prima era scarso e oneroso. La stampa lo aveva fatto al libro, il digitale all’informazione: ora tocca al pensiero stesso.
Le rivoluzioni precedenti insegnano che la commoditizzazione di un bene cognitivo non è mai gratuita: porta abbondanza, ma porta anche dipendenze nuove, asimmetrie tra chi controlla i canali e chi li usa, atrofia della capacità di produrre da soli ciò che ora si compra a poco. Il problema è strutturale, e si risolve solo a quel livello: di disegno, di politica, di economia.
Il senso critico non deve diventare commodity. E non è sufficiente.

