Scorrendo i feed dei social network, o per lo meno quelli frequentati da accademici, ricorre spesso una lamentela: «Con le AI chiunque si crede un professore!». A pronunciarlo sono docenti e ricercatori che vedono i propri studenti – e talvolta dei perfetti estranei – citare articoli specialistici, impugnare concetti di nicchia, persino proporre mini-revisioni generate con qualche Large Language Model (ChatGPT, Gemini e altri). L’irritazione, credo, non nasce solo dall’uso superficiale delle fonti o da eventuali errori concettuali – quelli c’erano anche prima – ma dal fatto che l’accesso ad alcune chiavi di lettura disciplinari non richiede più la mediazione esclusiva dell’accademia.
La mia idea – da persona che ha fatto spesso ricerca al di fuori delle istituzioni – è che la tensione odierna non riguardi tanto la competenza in sé, bensì una più ampia crisi dell’autorità accademica (e non). I grandi modelli linguistici amplificano la circolazione di saperi specialistici: sintetizzano articoli, traducono gerghi tecnici, suggeriscono bibliografie tematiche. Certo, sappiamo che a volte sbagliano, ma con alcune accortezze l’errore è minimo. Secondo la Hallucination Leaderboard di Vectara, i modelli più recenti ottengono un tasso di allucinazioni intorno allo 0,7–0,8% nel riassunto di semplici testi brevi. In un contesto specialistico e controllato come quello clinico, uno studio pubblicato su npj Digital Medicine (2025) rileva circa l’1,47% di allucinazioni e il 3,45% di omissioni su singoli documenti; con l’ottimizzazione di prompt e procedure, gli errori maggiori sono stati ridotti sotto i livelli umani documentati nella redazione di note cliniche. Sebbene questi dati non siano generalizzabili ad altri usi, domini o lingue, la direzione che indicano sembra incrinare il meccanismo che per secoli ha legato lo status di “esperto” al possesso, spesso opaco, di codici linguistici e metodologici.
Quando l’AI supera l’esperto: i dati delle scienze dure
D’altra parte non ha senso chiedersi se i modelli ‘sbaglino’ in assoluto: la domanda giusta è quanto sbagliano rispetto agli umani e in quali compiti. In ambiti specialistici e ben definiti, sappiamo già che dei sistemi AI addestrati su dati ristretti e con architetture dedicate hanno spesso superato gli esperti umani. In termini epistemologici, seguendo l’analisi del 2022 di Linda Zagzebski sull’“autorità epistemica”, l’affidamento all’esperto è razionale finché la sua accuratezza media resta superiore a quella delle alternative disponibili. Di conseguenza, se in domini circoscritti gli LLM mostrano performance più affidabili degli specialisti umani, è razionale riconoscere a questi sistemi una forma di autorità epistemica derivata, pur restando agli umani il compito di arbitrare limiti e condizioni di tale affidamento.
Ad esempio, secondo uno studio pubblicato su Nature Medicine (Christian et al. 2025) una diagnosi ecografica dell’ovaio vede un successo dell’83,5% contro il 79,5% degli ecografisti umani. In simulazioni su casi clinici complessi, un orchestratore multi-modello che integra diversi LLM ha raggiunto 80–85,5% contro il 20% dei medici senza ausili, pur trattandosi di benchmark e non di pratica clinica reale (Financial Times 2025). In biologia, dei LLM di punta hanno ottenuto risultati pari o superiori agli esperti su test specialistici (Justen 2025). In altri compiti, come il supporto clinico con calcolatori medici, i LLM generalisti restano invece inferiori, anche se non enormemente; 66% contro il 79,5% degli umani (Wan et al. 2024). Un ulteriore studio pubblicato su Nature Medicine mostra che modelli linguistici adattati tramite tecniche di prompting e fine-tuning superano i medici nella sintesi di testi clinici: in valutazioni qualitative, i riassunti generati dagli LLM sono stati giudicati equivalenti nel 45% dei casi e superiori nel 36% rispetto a quelli redatti da esperti umani (Van Veen et al. 2024). Su compiti di ricerca ristretti e con un tempo limitato, degli agenti costruiti su LLM possono superare gli esperti, ma quando si allungano tempo e complessità il vantaggio torna in mano agli umani (Wijk et al. 2024). Uno studio recente su benchmark multimodali mostra che GPT‑5 supera non solo GPT-4o ma anche medici junior su compiti di ragionamento clinico complesso, raggiungendo oltre il 95% nei test USMLE e guadagni superiori al 25% su MedXpertQA; risultati solidi in ambito sperimentale, che però non rispecchiano ancora la complessità della pratica clinica reale (Wang et al., 2025).
I casi in cui i sistemi automatici superano gli esperti umani sono ancora più eccezioni che regole, ma il divario si sta progressivamente assottigliando. Se si considera la loro potenzialità didattica inoltre, è evidente come questa tecnologia più che far scomparire la competenza ne minacci il monopolio, sebbene questo non accada senza rischi. Se da una parte l’abbattimento delle barriere può favorire una cittadinanza scientificamente più attiva e inclusiva, dall’altra si può credere agli errori dei LLM o cadere nell’illusione di competenza, in cui pensiamo di essere più esperti di quel che realmente siamo. È presto per trarre delle conclusioni, ma possiamo cominciare ad esplorare quel che sta accadendo attraverso alcuni studi recenti.
Accessibilità e leveling linguistico: l’alibi dell’opacità cade
Un primo esempio passa per un gesto in apparenza banale: produrre delle sintesi leggibili di articoli e concetti scientifici anche per chi non ha molta dimestichezza con la materia. Lo suggerisce il lavoro di Boris Schmitz: bastano pochi prompt ben congegnati e l’LLM produce sintesi più leggibili e fedeli ai contenuti principali, migliorando l’accessibilità senza evidenza di errori macroscopici. L’esperimento sorprende per la qualità linguistica ma, soprattutto, per il fatto che a cadere non è la precisione bensì il diaframma che separava il ‘pubblico competente’ dagli altri lettori. È qui che l’accademia perde l’alibi della complessità come scudo identitario: se il testo diventa più accessibile, la divulgazione, così come la reputazione scientifica, non può più fondarsi sull’opacità retorica degli abstract.
Accade spesso infatti che negli abstract degli articoli scientifici (in particolare nelle scienze naturali) il vero problema non sia tanto la complessità del lessico, quanto le piccole acrobazie retoriche che molti compiono per far scalpore o confermare le idee e i pregiudizi dei ricercatori stessi. Questo fenomeno ha un nome, nato in ambito biomedico: “spin”, ovvero enfatizzare un’associazione senza quantificare la debolezza, tacere risultati che la contraddicono, alludere a causalità dove c’è a malapena una correlazione (Yavchitz et al. 2012). Non serve mentire, basta capire cosa sottolineare e cosa riportare frettolosamente e il senso percepito della ricerca cambia, anche drasticamente.
Il problema è che questo make-up retorico si immette nell’ecosistema mediatico: gran parte dei giornalisti — e non solo — si ferma proprio all’abstract o, peggio, al comunicato stampa che lo ricalca. Lo ricorda un vademecum del programma Journalist’s Resource a Harvard, quando suggerisce di non basarsi solo sull’abstract ma di leggere l’intero articolo per non rischiare di scambiare indizi per prove. Una rassegna di pratiche redazionali di Alice Fleerackers mostra come la cronaca scientifica, pressata dai tempi di pubblicazione, sopravviva affidandosi a questi riassunti o alle note stampa, con un fact-checking spesso ridotto al minimo.
Il secondo esempio riguarda la capacità di scrittura come barriera di ingresso. Brady Lund osserva che per molti ricercatori il vero ostacolo non è accedere alle riviste, ma farlo in un inglese che non tradisca l’accento della periferia accademica (Lund 2024). In questo scenario, l’LLM diventa un livellatore linguistico: lima le inflessioni, ricompone la sintassi, restituisce un testo in cui il contenuto può gareggiare a pari condizioni con l’eloquenza dei madrelingua. Se l’editing AI venisse riconosciuto come una pratica lecita e senza bollini d’infamia, l’autorità tornerebbe a risiedere nella forza dell’argomento, non nel tono di voce con cui lo si pronuncia. Qui l’esperto non perde il proprio ruolo; semplicemente non può più contare sull’esclusività dell’inglese accademico come barriera d’ingresso.
AI come tutor: tra potenziamento e illusione di competenza
Farsi spiegare in modo chiaro un testo che non si capisce è ormai una pratica comune a chiunque usi gli LLM, i quali oltre ad essere abbstanza precisi – se gli diamo le fonti – sono anche molto pazienti. È dunque ovvio che anche l’uso didattico presenti dei vantaggi, dimostrati da studi recenti. Ad esempio, una meta-analisi apparsa questa primavera ha messo insieme cinquantuno esperimenti pubblicati dall’autunno 2022 a febbraio 2025: il quadro che ne esce è notevole. Gli studenti che usano ChatGPT in modo strutturato ottengono un miglioramento vicino a una deviazione standard piena nei test di apprendimento e un vantaggio più moderato ma misurabile nel pensiero di ordine superiore e nella percezione del proprio percorso di studio. Tradotto: spesso bastano poche settimane di utilizzo guidato perché il rendimento alzi l’asticella di quasi un voto, purché l’AI sia inserita in attività che chiedono di risolvere problemi, non di copiare risposte (Wang & Fan, 2025).
Ancora più chiaro è il trial controllato condotto ad Harvard su un corso di Fisica di base. Due gruppi si alternano: uno segue la lezione in aula con le migliori tecniche di active learning, l’altro lavora da casa con un tutor GPT‑4 cucito addosso al syllabus. Alla fine di ciascuna unità, gli studenti assistiti dall’AI raddoppiano i risultati di apprendimento rispetto ai compagni e lo fanno in poco meno di cinquanta minuti, contro i sessanta dell’aula. In più si dichiarano più motivati e coinvolti. Il segreto non è tanto la potenza del modello, quanto la regia didattica: prompt sequenziali, gestione del carico cognitivo, feedback immediati, riduzione del rischio di allucinazioni perché le soluzioni corrette sono “iniettate” a monte (Kestin et al. 2025). Un altro studio con 214 studenti di sesta elementare ha confrontato materiali didattici tradizionali con spiegazioni generate da chatbot AI su concetti di proporzionalità in matematica e fisica. Il risultato: l’impatto sulla performance non è stato determinante, ma i materiali AI hanno aumentato significativamente le emozioni positive e l’interesse, riducendo il carico cognitivo percepito (Lademann et al 2025).
Il disastro paventato dai professori per l’assedio artificiale alle torri d’avorio però non è del tutto infondato, perché l’apertura di un varco cognitivo porta con sé il rischio di un accesso imprudente. Una revisione sistematica pubblicata su Smart Learning Environments ha passato al setaccio quattordici studi e arriva a una conclusione ricorrente: quando chi studia si affida al dialogo con l’AI senza un’impalcatura didattica, cala la soglia del dubbio critico, si assottigliano le occasioni di ragionamento autonomo e il decision-making si appiattisce su quella che i ricercatori chiamano “scorciatoia efficiente” (Zhai et al. 2024) In altre parole, la risposta veloce seduce al punto che verificare diventa superfluo, e l’impressione di ‘saperne di più’ aumenta proprio mentre le abilità di analisi si assopiscono.
Un editoriale apparso su JMIR Medical Education spiega perché questo automatismo — chiamato automation bias — preoccupa in particolare la formazione medica: studenti e specializzandi tendono a considerare il responso dell’algoritmo come corretto, col rischio di replicare in una pratica un errore che da virtuale diventa clinico. L’autrice argomenta che introdurre ChatGPT a lezione senza educare alla sua fallibilità equivale a incentivare una fiducia cieca che poi si riverserà nella pratica professionale. Insomma, un LLM potenzia quando viene usato come strumento di analisi, ma genera un’illusione di competenza quando diventa sostituto del proprio ragionamento.
Per fare un esempio estremo, una recente inchiesta del New York Times ha ricostruito trecento ore di dialogo tra un utente e ChatGPT che, a forza di lusinghe, coerenza narrativa e verifiche apparenti, hanno portato alla delirante convinzione di aver fatto delle importanti scoperte matematiche. Non è un caso isolato: i modelli, addestrati a piacere dagli utenti e a stare nel personaggio, tendono a privilegiare la continuità della storia rispetto alla smentita; chat molto lunghe e memoria cross-chat amplificano l’effetto. Un secondo modello, interpellato a freddo, ha smontato la fantasia dell’utente in un messaggio – peccato che sia accaduto dopo mesi di fantasie. Questo caso, seppur aneddotico, ci aiuta anche a riconoscere l’importanza della conoscenza dello strumento: cambiare chat o persino modello per controllare le idee a freddo; evitare di chiedere conferme psicologiche (che i modelli tendono a concedere) e sollecitare invece valutazioni tecniche con prompt adeguati. Per esempio, meglio chiedere “valuta come matematico specialista…” piuttosto che “ma è un’idea geniale o sono pazzo io?”. È buona prassi anche chiedere sistematicamente controlli di qualità con evidenze, fonti o artefatti verificabili, e, su tutto, non addentrarsi in ambiti che si ignora se non a fine didattico.
La metamorfosi della competenza: dal possesso al giudizio critico
Da quanto abbiamo visto è abbastanza chiaro che non stiamo assistendo alla fine della competenza, ma alla sua metamorfosi. Finché la conoscenza è fondata su beni non sempre accessibili – libri, corsi, biblioteche specialistiche, paywall – il merito è inevitabilmente legato anche all’accesso. Ora che un LLM può riformulare un paper di fisica in modo relativamente leggibile per uno studente, o rendere perfetto l’inglese di una dottoranda non madrelingua, il vantaggio competitivo si sposta sul buon uso del mezzo. Lo studioso non sparisce, cambia. Diventa anche il curatore di prompt che guidano l’esplorazione, l’arbitro che valida le fonti, la regista che inserisce l’informazione grezza in un contesto capace di dare forma e gerarchia alle idee.
Una meta-analisi su Nature Human Behaviour mostra che la collaborazione umano-AI, in media, non riesce a superare il migliore tra i due, ma migliora sensibilmente la prestazione dell’umano da solo. In pratica, il risultato dipende da chi parte avvantaggiato: se l’umano è più competente dell’AI, allora la combinazione ottiene addirittura risultati superiori a entrambi; se invece è l’AI ad essere più forte, l’aggiunta di un umano meno esperto tende a peggiorare la performance rispetto all’AI da sola. La differenza si vede anche nei compiti: nelle decisioni nette la coppia perde terreno, mentre nei compiti creativi c’è una tendenza a un guadagno.
Questa dinamica conferma l’intuizione che l’umano “guida” l’AI: quando ha conoscenze solide, riesce a orientarne l’uso e ad amplificarne il potenziale; quando invece è meno competente, finisce per deviarla, riducendone l’efficacia. In generale, quindi, l’accoppiata potenzia l’umano, ma non garantisce di superare sempre il migliore tra i due (Vaccaro et al 2024).
Le tecnologie generative tolgono terreno al privilegio di casta, ma non al lavoro intellettuale: spostano lo sforzo dalla raccolta alla critica, dall’archiviazione alla negoziazione fra linguaggi disciplinari. L’erudizione perde di importanza rispetto alla capacità di analisi e ideazione, così come l’invenzione della stampa rese meno importante la capacità mnemonica – probabilmente irritando chi aveva faticato per svilupparla. In questo senso è molto utile il concetto di scrittura distante (distant writing) elaborato da Luciano Floridi. L’autore diventa un meta-autore che progetta e cura, mentre l’AI scrive. L’agenzia è distribuita, ma la responsabilità del testo rimane del progettista umano che lo assembla e ne verifica la coerenza. Più la platea si allarga, inoltre, più serve una figura che sappia modulare il dialogo, far parlare tra loro fisica e storia dell’arte, biomedicina e diritto. La competenza, insomma, smette di coincidere con la custodia esclusiva di un sapere; diventa anche capacità di mettere a sistema idee eterogenee, individuare le crepe retoriche – lo spin –, calibrare la fiducia davanti all’eloquenza artificiale, discernere il vero dal verosimile.
Gli LLM hanno reso la conoscenza più permeabile di quanto sia mai stata, ma la permeabilità di per sé non garantisce né correttezza né comprensione. A fronte di un sapere che si genera anche da una danza di prompt resta il compito di contestualizzarlo, ampliarlo, correggerlo e personalizzarlo. È in questo scarto fra maggiore disponibilità e giudizio che l’università può riposizionare la propria autorevolezza senza rifugiarsi nella nostalgia del monopolio.
Fotografia di Stefano Miliffi
Bibliografia
Asgari, E., Montaña-Brown, N., Dubois, M., Khalil, S., Balloch, J., Au Yeung, J., Pimenta, D., et al. (2025). A framework to assess clinical safety and hallucination rates of LLMs for medical text summarisation. npj Digital Medicine, 8, 274. https://doi.org/10.1038/s41746-025–01670‑7 .
Christiansen, Filip, et al. 2025. «International Multicenter Validation of AI-Driven Ultrasound Detection of Ovarian Cancer». Nature Medicine 31 (1): 189–196. https://doi.org/10.1038/s41591-024–03329‑4.
Financial Times. 2025. «Microsoft Claims AI Diagnostic Tool Can Outperform Doctors». Financial Times, 30 giugno 2025.
https://www.ft.com/content/149296b9-41b6-4fba-b72c-c72502d01800.
Fleerackers, Alice. 2023. «Why and How Journalists Report on Research: A Review». Medium, 20 dicembre 2023.
Hill, Kashmir, e Dylan Freedman. 2025. «Chatbots Can Go Into a Delusional Spiral. Here’s How It Happens». The New York Times, 8 agosto 2025. https://www.nytimes.com/2025/08/08/technology/ai-chatbots-delusions-chatgpt.html.
Justen, Lennart. 2025. «LLMs Outperform Experts on Challenging Biology Benchmarks». arXiv preprint arXiv:2505.06108.
https://arxiv.org/abs/2505.06108.
Kestin, Greg, Kelly Miller, Anna Klales, Timothy Milbourne, e Gregorio Ponti. 2025. «AI Tutoring Outperforms In-Class Active Learning: An RCT Introducing a Novel Research-Based Design in an Authentic Educational Setting». Scientific Reports 15 (1): Art. 17458.
https://doi.org/10.1038/s41598-025–97652‑6.
Lademann, Julia, Jannik Henze, e Sebastian Becker-Genschow. 2025. «Augmenting learning environments using AI custom chatbots: Effects on learning performance, cognitive load, and affective variables». Physical Review Physics Education Research 21 (1): 010147. https://doi.org/10.1103/PhysRevPhysEducRes.21.010147
Lund, Brady D. 2024. «Large Language Models Are a Democratizing Force for Researchers: A Call for Equity and Inclusivity in Journal Publishers’ AI Policies». InfoScience Trends 1 (1): 4–7.
https://doi.org/10.61186/IST.202401.01.02.
Nori, Harsha, Mayank Daswani, Christopher Kelly, Scott Lundberg, Marco Tulio Ribeiro, et al. 2025. “Sequential Diagnosis with Language Models.” arXiv, June 27. Preprint, arXiv:2506.22405. https://arxiv.org/abs/2506.22405.
Nguyen, Tina. 2024. «ChatGPT in Medical Education: A Precursor for Automation Bias?» JMIR Medical Education 10: e50174.
https://doi.org/10.2196/50174.
Ordway, Denise-Marie. 2023. «Don’t Say “Prove”: How to Report on the Conclusiveness of Research Findings». The Journalist’s Resource (blog), 13 febbraio 2023.
https://journalistsresource.org/media/dont-say-prove-research-tip-sheet/.
Schmitz, Boris. 2023. «Improving Accessibility of Scientific Research by Artificial Intelligence—An Example for Lay Abstract Generation». Digit Health 9: 20552076231186245.
https://doi.org/10.1177/20552076231186245.
Vectara. 2025. «Hallucination Leaderboard: Comparing LLM Performance at Producing Hallucinations When Summarizing Short Documents». GitHub repository, 16 luglio 2025.
https://github.com/vectara/hallucination-leaderboard.
Wang, Jin, e Wenxiang Fan. 2025. «The Effect of ChatGPT on Students’ Learning Performance, Learning Perception, and Higher-Order Thinking: Insights from a Meta-Analysis». Humanities and Social Sciences Communications 12: Art. 621. https://doi.org/10.1057/s41599-025–04787‑y.
Wijk, Hjalmar, et al. 2024. «RE-Bench: Evaluating Frontier AI R&D Capabilities of Language-Model Agents against Human Experts». arXiv preprint arXiv:2411.15114. https://arxiv.org/abs/2411.15114.
Wan et al, 2025. «Humans and Large Language Models in Clinical Decision Support: A Study with Medical Calculators». arXiv preprint arXiv:2411.05897. https://arxiv.org/abs/2411.05897.
Wang, Shansong, Mingzhe Hu, Qiang Li, Mojtaba Safari, e Xiaofeng Yang. 2025. «Capabilities of GPT‑5 on Multimodal Medical Reasoning». arXiv preprint arXiv:2508.08224v2 [cs.CL], 13 agosto 2025. https://arxiv.org/abs/2508.08224 .
Wang, Shansong, Mingzhe Hu, Qiang Li, Mojtaba Safari, e Xiaofeng Yang. 2025. «Capabilities of GPT‑5 on Multimodal Medical Reasoning». arXiv preprint arXiv:2508.08224v2 [cs.CL], 13 agosto 2025. https://arxiv.org/abs/2508.08224 .
Yavchitz, Amélie, Isabelle Boutron, Aida Bafeta, Ibrahim Marroun, Pierre Charles, Jean Mantz, e Philippe Ravaud. 2012. «Misrepresentation of Randomized Controlled Trials in Press Releases and News Coverage: A Cohort Study». PLOS Medicine 9 (9): e1001308. https://doi.org/10.1371/journal.pmed.1001308.
Vaccaro, Michelle; Almaatouq, Abdullah; Malone, Thomas. 2024. “When Combinations of Humans and AI Are Useful: A Systematic Review and Meta-Analysis”. Nature Human Behaviour 8 (12): 2293–2303. https://doi.org/10.1038/s41562-024–02024‑1 .
Van Veen, D., Chen, M., Singh, R., Ayyar, I., Guo, W., Bozkurt, S., et al. 2024. «Adapted Large Language Models Can Outperform Medical Experts in Clinical Text Summarization». Nature Medicine 30 (2): 436–445. https://doi.org/10.1038/s41591-024–02855‑5
Zagzebski, Linda Trinkaus. 2012. Epistemic Authority: A Theory of Trust, Authority, and Autonomy in Belief. Oxford: Oxford University Press.
Zagzebski, Linda Trinkaus. 2012. Epistemic Authority: A Theory of Trust, Authority, and Autonomy in Belief. Oxford: Oxford University Press.
Zhai, Chunpeng, Santoso Wibowo, e Lily D. Li. 2024. «The Effects of Over-Reliance on AI Dialogue Systems on Students’ Cognitive Abilities: A Systematic Review». Smart Learning Environments 11: Art. 28.