ChatGPT capisce quello che dico?
La risposta breve è NO. La risposta lunga è che molto dipende da cosa intendiamo per capire.
L'ultimo anno è stato decisamente l'anno di ChatGPT. Prima di questo periodo, l'Intelligenza Artificiale (IA) era considerata – almeno nel dibattito pubblico – un concetto astratto con cui avremmo dovuto confrontarci solo in un futuro remoto. Invece, l'IA ci si è presentata davanti in modo più rapido del previsto, mostrando chiaramente che, come spesso accade, non eravamo preparati per il futuro.
A distanza di un anno, tutti avranno maturato una qualche forma di opinione in merito. Avrete infatti già letto delle grandi capacità delle AI come ChatGPT e delle sue altrettanto grandi limitazioni. Avrete già letto articoli a iosa di esperti (e non) che spiegano che ChatGPT (e con lui tutti i cosiddetti Large-Language Models o LLMs) altro non sono che macchine che si limitano a predire quale sia la parola più probabile che segue alla vostra richiesta, e poi la più probabile che segue, e così via fino a inanellare frasi di senso compiuto. E quindi, per questo motivo, ChatGPT non è veramente intelligente, sebbene possa sembrarci tale. Anzi, è prono a commettere errori significativi e che, pertanto, ogni sua affermazione dovrebbe venire presa con estrema cautela.
E avrete anche letto di tutti i pro e i contro, delle tematiche etiche, delle questioni legali, e tutta quella roba che riempie pagine, profili social, video di YouTube, televisioni, ecc.
Se è così, e ne siete stufi, potete state tranquilli. Non voglio aggiungere un'altra voce al coro, a maggior ragione se con così tanto ritardo.
Invece, voglio scrivere perché, quando decisi di studiare Intelligenza Artificiale, lo feci soprattutto per interrogarmi sulla mente umana. Ed è la mente umana, più che le LLMs o le AI, il tema di questa lettera.
Ma torniamo alla domanda del titolo: ChatGPT capisce quello che gli chiediamo?
Se avete seguito l'argomento, a questo punto avrete già risposto NO. E avete ragione.
Per quanto rivoluzionaria, ChatGPT non è altro che una grossa macchina che prende una lista di caratteri e tira fuori una lista di caratteri che, con enorme sorpresa, non solo hanno senso compiuto ma, in un buon numero di casi sono anche coerenti con la richiesta fatta.
Tuttavia, quando chiedete a ChatGPT la ricetta della carbonara, ChatGPT non capisce cos'è una carbonara, né cos'è una ricetta, ne cosa voglia dire il verbo "cucinare." Zero. Per ChatGPT quelle sono solo gruppi di caratteri statisticamente correlati con "uovo", "pasta" e "per l'amor di Dio niente panna."
Quindi no. ChatGPT non capisce nulla di quello che gli chiedete.
Oppure no?
(Spoiler: la risposta è veramente no. Ma con una microscopica ma interessante eccezione.)
Cosa significa capire?
Eppure in tutte queste discussioni sull’intelligenza vera o presunta delle macchine stiamo ignorando il grosso elefante rosso nella stanza. Per rispondere alla domanda su se ChatGPT comprende ciò che diciamo, dobbiamo prima concordare sulla definizione di "capire."
Ed è qui che cominciano i problemi, perché una definizione univoca di "capire" non c'è nonostante si siano su scornati sul problema fior fior di filosofi per oltre due millenni.
Quindi dobbiamo un po' fare da noi. Potremmo cominciare, per esempio, con il chiederlo proprio a ChatGPT.
Capire implica la capacità di elaborare le informazioni ricevute, di collegare le idee, di riconoscere le relazioni tra le cose e di giungere a una comprensione coerente e logica. Può richiedere la riflessione e la contemplazione, così come l'analisi e la sintesi di concetti complessi.
In sostanza, capire è il processo attraverso il quale una persona arriva a una conoscenza più profonda e completa di qualcosa.
Bene ma non benissimo. Questa definizione non ci aiuta molto perché descrive ciò che il capire implica piuttosto che descrivere cosa sia. Tuttavia, la parte in grassetto ci dà qualche indizio su come procedere. L'atto di capire è il processo che collega informazioni in ingresso (per esempio, la frase "Cosa mangiano le mucche?") con informazioni in uscita (e cioè che quella frase genera nella mia mente una sequenza di eventi per cui ripescherò i collegamenti fra i concetti di mucca, mangiare e erba per generare la risposta).
Tuttavia, un collegamento qualunque non è sufficiente.
È abbastanza normale ritenere che memorizzare il collegamento fra domanda e risposta non possa essere considerato “capire.”
Ad esempio, se imparo a memoria tutte le radici quadrate dei numeri da 1 a 100, posso dire di aver capito come calcolare una radice quadrata? Direi di no. Avrò semplicemente memorizzato una grossa tabella che collega l'ingresso (il numero da 1 a 100) e l'uscita (la radice quadrata) senza però capire come funziona questo collegamento.
Come fare quindi a capire se io abbia veramente capito?
L'Importanza del Modello
Una risposta esaustiva non è affatto banale, come potrebbe confermarvi qualsiasi insegnante di matematica quando si trova di fronte al dubbio su se uno studente chiamato alla lavagna abbia effettivamente compreso le equazioni di secondo grado oppure se abbia semplicemente memorizzato gli esercizi assegnati.
La tecnica più comune è quella di domandare cose che siano al di fuori degli esempi dati e vedere se il sistema continua a dare risposte coerenti. Rispondere a tali domande, infatti, implica che nella mente esista qualcosa di più profondo di una tabella ingresso-uscita. Qualcosa che può essere manipolato, toccato, su cui sperimentare all'interno della mente per ottenere la risposta giusta. Quel qualcosa lo chiamiamo modello.
Capire, quindi, implica creare un modello mentale che simuli la cosa reale. Più la comprensione di qualcosa aumenta, più il modello sarà accurato. Più il modello sarà accurato, più potrò dire di aver capito.
Facciamo un esempio. Mia madre capisce come usare il computer: ha un semplice modello dell'oggetto computer che risponde a certe regole. Se clicco su l'icona di Chrome, si apre "internet." Se schiaccio la "X" la finestra si chiude. E poco altro.
Io, invece, capisco di più un computer rispetto a mia madre perché il mio modello mentale dell'oggetto computer è molto più complesso e simile a quello reale. Nel mio modello, quando clicco su l'icona di Chrome (se usassi Chrome, cosa che non faccio), il sistema di input manda un segnale al Sistema Operativo che lancia un processo, assegna un PID, imposta una memoria virtuale le cui pagine corrispondono a parti di memoria fisica attraverso sistemi di cache, eccetera eccetera. Non andrò in dettaglio. Mi sono spiegato. 😀
Insomma, per riassumere, capire necessita la creazione di un modello mentale e più il modello è accurato più posso dire di capire.
Quindi ChatGPT "capisce"?
Se capire significa possedere un modello del mondo reale su cui ragionare, ChatGPT non capisce. ChatGPT non ha un modello per praticamente nulla. Non ha un modello su come funziona il sistema solare o il telecomando. Non ha modelli logici. Non sa cosa sia l'algebra. Come John Snow, ChatGPT non sa nulla.
Lo sappiamo perché, come nel caso delle radici quadrate, con le domande giuste è possibile far sbagliare ChatGPT su tutto rivelando così che il collegamento fra domanda e risposta non passa per alcun modello coerente dell'oggetto in questione.
Tuttavia, ChatGPT ha un modello di qualcosa: ha un modello del linguaggio. ChatGPT è stato addestrato su miliardi di documenti e parole con l'unico scopo di produrre un modello avanzatissimo del linguaggio umano, delle relazioni fra parole e frasi, delle impercettibili differenze di frequenza fra elementi di una frase. Anche se ChatGPT, a differenza di noi umani, non ha alcun modello della semantica di nessuna parola (ovvero di ciò che la parola rappresenta, e.g., se gli dite cavallo non avrà "in testa" nessuna rappresentazione di un cavallo), ChatGPT avrà "in mente" il modello della parola cavallo (ovvero della parola stessa intesa come sequenza di caratteri). Conoscerà le sue relazioni con altre parole (e.g., equino) e saprà manipolare tale modello in modo coerente e logico. Lo sappiamo perché è esattamente per quello che lo abbiamo progettato.
Questo ci permette di fare due deduzioni. La prima è che la capacità di comprensione umana, la nostra intelligenza generale, non dipende dal capire una cosa, ma una moltitudine di cose e, quindi, siamo dotati di un livello superiore di apprendimento e modellazione del mondo.
La seconda, invece, è che non sappiamo ancora fino a che punto si spinge la relazione fra linguaggio e realtà. Quanto, cioè, la realtà influenza il linguaggio e quanto il linguaggio influenzi la nostra capacità di modellare il mondo. Da alcuni studi che ho letto di recente, la questione sembra essere più interessante del previsto. Linguaggio e rappresentazione del mondo sembrano essere più interconnessi di quanto ci si aspetterebbe.
Ma questa è un'altra storia.