Apprendimento e intelligenza artificiale, un’analisi sul costo cognitivo dei Large Language Model

L’avanzamento e la vasta adozione di prodotti Large Language Model (LLM) come ChatGPT hanno trasformato il modo in cui individui e aziende interagiscono quotidianamente con la tecnologia. Come ogni strumento, gli LLM offrono vantaggi significativi, ma presentano anche delle limitazioni. Un recente studio ha analizzato una di queste limitazioni: il costo cognitivo derivante dall’utilizzo di un LLM nel contesto educativo della scrittura, e in modo particolare in quella di saggi.

Abstract

Per indagare questo fenomeno, i ricercatori hanno fatto uno studio strutturato in cui i partecipanti sono stati suddivisi in tre gruppi distinti per scrivere un saggio: un gruppo LLM che utilizzava un modello linguistico di grandi dimensioni, un gruppo Motore di Ricerca che poteva avvalersi di qualsiasi sito web (con Google come browser principale, ma senza LLM), e un gruppo Solo Cervello che si affidava unicamente alle proprie conoscenze. Lo studio ha compreso tre sessioni iniziali in cui ogni partecipante manteneva la propria assegnazione di gruppo. Una quarta sessione ha introdotto un interessante cambio di paradigma: i partecipanti del gruppo LLM sono stati invitati a non usare strumenti (definiti “LLM-a-Cervello”), mentre quelli del gruppo Solo Cervello hanno avuto l’opportunità di utilizzare un LLM (definiti “Cervello-a-LLM”). In totale, 54 partecipanti hanno preso parte alle prime tre sessioni, e 18 di questi hanno completato anche la quarta.

Per ottenere una comprensione approfondita dell’impatto cognitivo, sono state impiegate diverse metodologie di analisi. È stata utilizzata l’elettroencefalografia (EEG) per registrare l’attività cerebrale dei partecipanti, permettendo di valutare il loro impegno e carico cognitivo e di comprendere meglio le attivazioni neurali durante la stesura del saggio. Inoltre, sono state effettuate analisi di Natural Language Processing (NLP) sui saggi prodotti e ogni partecipante è stato intervistato dopo ogni sessione per raccogliere feedback qualitativi. La valutazione dei saggi è stata condotta con la collaborazione di insegnanti umani e di un giudice AI appositamente sviluppato, garantendo un’analisi completa delle produzioni.

I risultati dello studio hanno rivelato scoperte significative e robuste. Sebbene sia stata riscontrata una omogeneità linguistica (ad esempio, nella Named Entities Recognition e negli n-grammi) all’interno di ciascun gruppo, l’analisi EEG ha dimostrato inequivocabilmente che i gruppi LLM, Motore di Ricerca e Solo Cervello presentavano modelli di connettività neurale significativamente diversi, riflettendo strategie cognitive divergenti. È emerso che la connettività cerebrale diminuiva sistematicamente con l’aumento del supporto esterno. In particolare, il gruppo Solo Cervello ha esibito le reti neurali più forti e ad ampio raggio, il gruppo Motore di Ricerca ha mostrato un coinvolgimento intermedio, mentre l’assistenza degli LLM ha mostrato l’accoppiamento complessivo più debole.

Le osservazioni della quarta sessione hanno ulteriormente evidenziato l’impatto a lungo termine. I partecipanti del gruppo LLM-a-Cervello, che erano abituati all’uso dell’LLM, hanno mostrato una connettività neurale più debole e un sotto-impegno delle reti alfa e beta quando sono passati a lavorare senza strumenti. Al contrario, i partecipanti del gruppo Cervello-a-LLM, che in precedenza avevano lavorato senza strumenti, hanno dimostrato un richiamo mnemonico più elevato e un ri-coinvolgimento di nodi occipito-parietali e prefrontali diffusi, un fenomeno simile a quello osservato nel gruppo Motore di Ricerca e probabilmente legato all’elaborazione visiva. Un altro aspetto importante emerso dalle interviste è stata la bassa percezione di proprietà dei saggi da parte del gruppo LLM. Sebbene il gruppo Motore di Ricerca mostrasse una forte proprietà, era comunque inferiore a quella del gruppo Solo Cervello. Inoltre, il gruppo LLM ha dimostrato una minore capacità di citare dai saggi scritti solo pochi minuti prima, indicando una scarsa ritenzione delle informazioni.

Questo studio mette in luce una questione pressante: la probabile diminuzione delle capacità di apprendimento a seguito dell’uso degli LLM. Nonostante i benefici iniziali possano apparire evidenti, i dati raccolti nell’arco di quattro mesi hanno chiaramente dimostrato che i partecipanti del gruppo LLM hanno avuto un rendimento inferiore rispetto ai loro omologhi del gruppo Solo Cervello a tutti i livelli: neurale, linguistico e di punteggio. I ricercatori auspicano che questo studio possa servire come una guida preliminare fondamentale per comprendere gli impatti cognitivi e pratici dell’intelligenza artificiale negli ambienti di apprendimento, invitando a una riflessione critica sull’integrazione di questi strumenti nell’educazione.

Il costo cognitivo dei Large Language Model. Un approfondimento sullo studio del MIT

I modelli linguistici di grandi dimensioni (LLM – Large Language Model), come ChatGPT di OpenAI, sono diventati strumenti onnipresenti, utilizzati quotidianamente da individui e aziende. Sebbene offrano vantaggi senza precedenti in termini di personalizzazione delle esperienze di apprendimento, feedback immediato e democratizzazione dell’accesso alle risorse educative, la loro ampia adozione solleva interrogativi sui costi cognitivi associati a un uso estensivo. Uno studio condotto da Nataliya Kosmyna e colleghi del MIT Media Lab si è proposto di investigare proprio questo: il costo cognitivo derivante dall’utilizzo di un LLM nel contesto educativo della scrittura di saggi.

***

Per comprendere appieno l’impatto degli LLM, lo studio ha adottato un design sperimentale rigoroso, reclutando 54 partecipanti per le prime tre sessioni e 18 di questi per una quarta sessione opzionale. I partecipanti, di età compresa tra 18 e 39 anni e provenienti da cinque diverse università dell’area di Boston, sono stati assegnati casualmente a tre gruppi principali, bilanciati per età e genere.

– Gruppo LLM. Ai partecipanti era consentito utilizzare solo OpenAI’s GPT-4o come unica risorsa informativa.

– Gruppo Motore di Ricerca. I partecipanti potevano utilizzare qualsiasi sito web, ma gli LLM erano esplicitamente proibiti. La maggior parte ha utilizzato Google, con query filtrate per escludere risposte generate dall’IA.

– Gruppo Solo-Cervello. Ai partecipanti era vietato l’uso di qualsiasi strumento online o LLM; dovevano fare affidamento esclusivamente sulle proprie conoscenze.

***

Il compito per tutti i gruppi era la scrittura di un saggio di 20 minuti su argomenti tratti dai test SAT. Lo studio si è svolto nell’arco di quattro mesi, con tre sessioni mantenendo la stessa assegnazione di gruppo. La quarta sessione ha rappresentato un elemento chiave per valutare l’adattamento cognitivo: i partecipanti del Gruppo LLM sono stati spostati nel gruppo Solo-Cervello (definiti LLM-a-Cervello), mentre quelli del gruppo Solo-Cervello sono passati al gruppo LLM (definiti Cervello-a-LLM). I temi per la Sessione 4 erano personalizzati, basati sugli argomenti che ciascun partecipante aveva già affrontato nelle sessioni precedenti, e i partecipanti non erano a conoscenza in anticipo di questo cambio di strumento o argomento.

***

Per ottenere una comprensione approfondita dei processi cognitivi, i ricercatori hanno utilizzato diverse metodologie.

– Elettroencefalografia (EEG). Ha registrato l’attività cerebrale per valutare l’impegno e il carico cognitivo. L’analisi della funzione di trasferimento diretta dinamica (dDTF) ha permesso di confrontare come diverse aree del cervello si influenzassero a vicenda.

– Analisi del linguaggio naturale (NLP). È stata eseguita sui saggi per comprendere aspetti quantitativi, qualitativi, lessicali e statistici, inclusa l’analisi di entità nominate (NER), n-grammi e ontologia dei temi.

– Interviste post-sessione. Sono state condotte interviste individuali per raccogliere feedback sui processi di scrittura, la scelta degli argomenti, la percezione della proprietà del saggio e la soddisfazione.

– Valutazione dei saggi. I saggi sono stati valutati sia da insegnanti umani che da un giudice AI appositamente sviluppato, utilizzando metriche come unicità, vocabolario, grammatica, organizzazione, contenuto e lunghezza.

***

Una delle scoperte più importanti dello studio è stata che la connettività cerebrale diminuiva sistematicamente con l’aumento del supporto esterno: il gruppo Solo-Cervello ha mostrato le reti più forti e ad ampio raggio, il gruppo Motore di Ricerca un impegno intermedio, e l’assistenza dell’LLM ha indotto l’accoppiamento complessivo più debole. Questa gerarchia di attivazione neurale si è mantenuta costante attraverso le bande di frequenza EEG (alpha, beta, delta, theta), che sono associate a diversi processi cognitivi.

– Banda Alpha (8-12 Hz). Associata all’attenzione interna e all’elaborazione semantica durante l’ideazione creativa. Il gruppo Solo-Cervello ha mostrato una connettività alpha significativamente più forte, in particolare tra le regioni parietale sinistra (P7) e temporale destra (T8), e da aree parieto-occipitali a quelle frontali anteriori (PO4→AF3). Questo suggerisce un’elaborazione interna più intensa e una maggiore ricerca semantica per la generazione di idee. Al contrario, il gruppo LLM ha mostrato una connettività alpha inferiore, indicando che parte del carico creativo era stata demandata allo strumento. Il gruppo Motore di Ricerca ha invece mostrato maggiore attività nelle cortecce occipitali e visive, riflettendo l’ingaggio con l’informazione acquisita visivamente durante la ricerca.

– Banda Beta (12-30 Hz). Legata all’elaborazione cognitiva attiva, all’attenzione focalizzata e all’integrazione sensomotorio. Il gruppo Solo-Cervello ha mantenuto una connettività beta complessivamente superiore, riflettendo un impegno cognitivo e motorio sostenuto nella composizione dei saggi senza strumenti esterni. Il gruppo Motore di Ricerca ha mostrato una maggiore attività nella connettività beta parietale (Pz), suggerendo un maggiore impegno nell’integrazione di informazioni raccolte esternamente. Il gruppo LLM, invece, ha mostrato un deflusso più forte dalle regioni associate al motore (ad esempio, CP5, FC6), probabilmente riflettendo la fluidità procedurale e i cicli di feedback legati alla generazione di testo tramite digitazione e interazione con l’LLM.

– Banda Delta (0.1-4 Hz). Riferisce all’integrazione corticale su larga scala e ai processi di attenzione e monitoraggio di alto livello. Il gruppo Solo-Cervello ha dominato la connettività delta, specialmente da regioni temporali sinistre a quelle frontali anteriori (T7→AF3), indicando un maggiore coinvolgimento del controllo esecutivo. Questa maggiore connettività potrebbe riflettere un reclutamento più ampio delle reti neurali distribuite quando si scrive senza aiuti esterni. Il gruppo LLM ha mostrato una connettività delta significativamente inferiore, mentre il gruppo Motore di Ricerca ha mostrato un’attività delta minima, allineandosi a una modalità cognitiva più orientata esternamente.

– Banda Theta (4-8 Hz). Strettamente collegata al carico di memoria di lavoro e al controllo esecutivo. Il gruppo Solo-Cervello ha esibito una connettività theta molto più elevata, in particolare nelle reti fronto-parietali, suggerendo un maggiore carico cognitivo e un impegno più intenso dei processi esecutivi centrali. Il gruppo LLM, al contrario, ha avuto una connettività theta significativamente inferiore, coerente con un carico ridotto sulla memoria di lavoro, poiché l’LLM forniva supporto cognitivo esterno. Il gruppo Motore di Ricerca ha mostrato una connettività theta molto più debole, implicando che la disponibilità di internet attenuava la necessità di tale intensa coordinazione interna.
In termini di direzionalità del flusso di informazioni, il gruppo Solo-Cervello ha mostrato più flussi “bottom-up” (ad esempio, da regioni temporali/parietali alla corteccia frontale), indicando che le regioni semantiche e sensoriali del cervello “alimentavano” idee e contenuti linguistici nel sistema esecutivo frontale, essenzialmente generando contenuto internamente. Al contrario, il gruppo LLM, con l’input esterno del bot, ha probabilmente sperimentato una connettività più “top-down” (frontale – posteriore), dove la corteccia frontale integrava e filtrava i contributi dello strumento.

***

Le osservazioni comportamentali hanno supportato fortemente i risultati neurali.

– Capacità di citare e correttezza delle citazioni. La divergenza più significativa tra i gruppi è stata la capacità di citare il proprio saggio. Gli utenti di LLM hanno sottoperformato in modo significativo, con l’83% (15/18) che ha segnalato difficoltà nel citare nella Sessione 1, e nessuno che ha fornito citazioni corrette. Questa compromissione è persistita nella Sessione 4 per il gruppo LLM-a-Cervello. Questa difficoltà è stata correlata alla ridotta connettività a bassa frequenza nel gruppo LLM, in particolare nelle bande theta e alpha, implicate nel consolidamento della memoria episodica e nell’encoding semantico. I gruppi Motore di Ricerca e Solo-Cervello, invece, non hanno mostrato tali compromissioni, raggiungendo quasi la perfezione nella capacità di citare dalla Sessione 2.

– Percezione della proprietà del saggio. Il gruppo Solo-Cervello ha rivendicato la piena proprietà dei propri testi quasi all’unanimità (16/18 nella Sessione 1, fino a 17/18 nella Sessione 3). Il gruppo LLM, al contrario, ha presentato un senso di autorialità frammentato e conflittuale, con molti che hanno assegnato un credito parziale all’IA (ad esempio, tra il 50% e il 90%). Questo suggerisce un senso di agenzia cognitiva diminuito, allineato alla ridotta convergenza sulle regioni frontali anteriori (AF3, Fp2), coinvolte nel monitoraggio degli errori e nell’autovalutazione. Il gruppo Motore di Ricerca ha mostrato un senso di proprietà più stabile ma meno certo rispetto al gruppo Solo-Cervello.

– Soddisfazione con il saggio. Il gruppo Motore di Ricerca ha costantemente riportato alti livelli di soddisfazione. I gruppi LLM e Solo-Cervello hanno avuto reazioni più contrastanti, con il gruppo Solo-Cervello che ha mostrato un miglioramento graduale nel corso delle sessioni.

– Commenti dei partecipanti. I partecipanti del gruppo LLM hanno talvolta trovato l’output dell’IA “robotico” e hanno sentito il bisogno di personalizzarlo, o hanno messo in dubbio la sua rilevanza. Alcuni hanno espresso un senso di colpa nell’usare ChatGPT e hanno preferito internet per trovare fonti affidabili. I partecipanti del gruppo Solo-Cervello hanno apprezzato l’autonomia dell’approccio non assistito, valorizzando l’opportunità di concentrarsi sui propri pensieri e condividere esperienze uniche.

***

L’analisi del linguaggio naturale ha fornito ulteriori intuizioni.

– Omogeneità e variabilità. Il gruppo LLM ha prodotto saggi statisticamente omogenei all’interno di ciascun argomento, con significativamente meno deviazioni rispetto agli altri gruppi. Al contrario, il gruppo Solo-Cervello ha mostrato una forte variabilità nel modo in cui i partecipanti affrontavano la scrittura del saggio.

– Riconoscimento di entità nominate (NER). Il gruppo LLM ha utilizzato il maggior numero di NER specifiche (persone, nomi, luoghi, anni, definizioni), seguito dal gruppo Motore di Ricerca (due volte meno) e dal gruppo Solo-Cervello (60% in meno rispetto al gruppo LLM). Esempi popolari per il gruppo LLM includevano “RISD”, “Paulo Freire”, “Platone”, mentre il gruppo Motore di Ricerca usava “oggi”, “regola d’oro”, “Madonna”. Il gruppo Solo-Cervello presentava una distribuzione più uniforme, con un’eccezione per “Instagram”.

– Analisi degli N-grammi. Sono emersi modelli distinti. L’n-gramma “società perfetta” era usato da tutti i gruppi, ma il gruppo Motore di Ricerca lo usava di più e il gruppo Solo-Cervello di meno. Il gruppo Motore di Ricerca mostrava un forte utilizzo di n-grammi basati su “senzatetto” per l’argomento FILANTROPIA, mentre il gruppo LLM si concentrava sull’aspetto del “dare”. Il gruppo LLM ha mostrato un bias verso forme di indirizzo in terza persona e un focus sugli aspetti di carriera (“scegliere carriera”).

– Analisi dell’ontologia. Ha dimostrato una correlazione significativa tra il gruppo LLM e il gruppo Motore di Ricerca, con quasi nessuna intersezione con i saggi scritti dal gruppo Solo-Cervello. Il gruppo Solo-Cervello ha toccato maggiormente temi di “libertà”, mentre gli altri gruppi si sono concentrati su aspetti di “giustizia”.

– Giudice AI vs. insegnanti umani. Il giudice AI tendeva a valutare i saggi in modo più elevato in termini di unicità e qualità, mentre gli insegnanti umani, abituati a saggi generati da LLM, erano più scettici e riconoscevano stili di scrittura omogenei. Gli insegnanti umani hanno rilevato elementi stilistici coerenti tra i saggi dello stesso partecipante, spesso attribuibili alla loro esperienza lavorativa, cosa che il giudice AI non è riuscito a fare.

***

La Sessione 4 ha offerto uno sguardo unico su come l’esposizione precedente agli strumenti AI o l’assenza di essi influenzi la successiva performance e connettività cerebrale.

– Gruppo Cervello-a-LLM (originariamente Solo-Cervello, poi con LLM). Questi partecipanti, che avevano precedentemente scritto saggi senza strumenti, hanno mostrato un aumento significativo della connettività cerebrale in tutte le bande di frequenza EEG quando è stato loro permesso di usare un LLM su un argomento familiare. Questo suggerisce che l’uso dell’IA ha stimolato alti livelli di integrazione cognitiva, riattivazione della memoria e controllo top-down, forse a causa della novità o del carico cognitivo aggiuntivo di integrare i suggerimenti dell’IA con le proprie conoscenze. L’esperienza precedente senza IA sembra aver promosso tracce di memoria più durature, consentendo una riattivazione più efficace anche quando gli strumenti LLM sono stati introdotti successivamente.

– Gruppo LLM-a-Cervello (originariamente LLM, poi Solo-Cervello). Questi partecipanti, che avevano usato l’LLM nelle sessioni precedenti, hanno mostrato una connettività neurale ridotta nelle bande alpha e beta quando hanno scritto da soli nella Sessione 4. La loro connettività si è posizionata a un livello intermedio: significativamente superiore alla Sessione 1 (linea di base del gruppo Solo-Cervello) ma inferiore ai picchi osservati nelle Sessioni 2 e 3 del gruppo Solo-Cervello. Questo è stato interpretato come un segnale di “offloading cognitivo” verso l’IA, portando a un’attenuazione dell’intensità e della portata della comunicazione neurale per la pianificazione e la generazione di contenuti. Anche se il loro impegno cognitivo non è venuto meno del tutto (le attività theta e delta sono rimaste attive, indicando attenzione e sforzo sostenuti), la loro attività cerebrale era meno focalizzata sull’elaborazione auto-guidata di idee e sul ragionamento critico.

Un risultato preoccupante per il gruppo LLM-a-Cervello è stata la persistente e significativa compromissione della capacità di citare accuratamente dalla Sessione 4 (il 78% ha fallito nel citare, e solo l’11% ha fornito una citazione corretta), rispetto ai partecipanti del gruppo Cervello-a-LLM. Questa difficoltà è stata correlata alla mancanza di una robusta sincronizzazione fronto-parietale, tipicamente associata all’encoding semantico profondo e al recupero della memoria sorgente, suggerendo che la dipendenza precoce dall’IA potrebbe compromettere la ritenzione semantica a lungo termine e la memoria contestuale.

Questi risultati hanno portato all’introduzione del concetto di “debito cognitivo”: la ripetuta dipendenza da sistemi esterni come gli LLM può sostituire i processi cognitivi faticosi richiesti per il pensiero indipendente, portando a costi a lungo termine come la diminuzione del ragionamento critico, l’aumento della vulnerabilità alla manipolazione e la riduzione della creatività. Quando i partecipanti riproducono suggerimenti senza valutarne l’accuratezza o la pertinenza, non solo rinunciano alla proprietà delle idee, ma rischiano anche di interiorizzare prospettive superficiali o distorte.

***

Oltre al costo cognitivo, lo studio ha brevemente toccato il costo materiale e ambientale dell’uso degli LLM. Si stima che una query LLM consumi circa 10 volte più energia di una query di ricerca tradizionale. Questo costo energetico, che non è gratuito, è probabile che ricada indirettamente sui consumatori nel prossimo futuro.

***

Lo studio del MIT fornisce prove che l’uso degli LLM ha un impatto misurabile sui partecipanti, con benefici iniziali apparenti, ma un peggioramento delle prestazioni nel tempo a livello neurale, linguistico e di punteggio, soprattutto per chi si affida troppo all’IA. La comodità offerta dagli LLM nel rispondere alle domande dei partecipanti ha ridotto l’attrito, ma questo si è tradotto in un costo cognitivo, diminuendo l’inclinazione degli utenti a valutare criticamente l’output dell’LLM.

In particolare, il gruppo Solo-Cervello ha riportato una maggiore soddisfazione e ha dimostrato una maggiore connettività cerebrale. I saggi scritti con l’aiuto degli LLM avevano una minore rilevanza o valore per i partecipanti (proprietà compromessa), che hanno dedicato meno tempo alla scrittura e hanno fallito nel fornire citazioni corrette dai loro stessi saggi. Gli insegnanti umani sono stati in grado di riconoscere i saggi generati dall’LLM per la loro struttura convenzionale e l’omogeneità dei punti presentati, evidenziando una “mancanza di anima” o di sfumature personali che invece un saggio originale può avere.

A questo crocevia tecnologico, è fondamentale comprendere lo spettro completo delle conseguenze cognitive associate all’integrazione degli LLM. Sebbene questi strumenti offrano opportunità senza precedenti per migliorare l’apprendimento e l’accesso alle informazioni, il loro potenziale impatto sullo sviluppo cognitivo, sul pensiero critico e sull’indipendenza intellettuale richiede un’attenta considerazione e una continua ricerca.

Un approccio equilibrato è consigliabile: uno che sfrutti l’IA per l’assistenza nelle routine, ma che continui a sfidare gli individui a eseguire autonomamente le operazioni cognitive fondamentali. Sono necessari studi longitudinali per comprendere l’impatto a lungo termine degli LLM sul cervello umano, prima che questi strumenti possano essere riconosciuti come un beneficio netto per gli esseri umani.

Privacy Policy Cookie Policy