Come fanno ChatGPT & Co. a "capire"? Un’introduzione agli embedding

Liberi Oltre Le Illusioni - Un podcast de LiberiOltre

Catégories:

Una delle applicazioni più iconiche dell’AI è sicuramente la generazione di testo, come testimoniato dal recente successo di Large Language Models (LLM) quali GPT, Gemini e LLaMA. Ma come fanno questi modelli a “capire” il contesto della domanda che gli si pone in input e a produrre risposte convincenti, praticamente indistinguibili, da quelle fornite da un essere umano? In questo episodio, insieme a Fabio Stefanini e Luca Ducceschi, mostriamo come funzionano gli embedding per rappresentare l'informazione testuale in un formato numerico manipolabile dalle reti neurali. Vediamo inoltre qualche esempio di bias linguistico introdotto da questa codifica. Conduce Luca Mariot. Luca Ducceschi ha un background da linguista teorico, ma dopo il dottorato si è specializzato in linguistica computazionale. Si è occupato di ricerca, soprattutto lavorando presso l'università di Trento come Post-Doc e come docente a contratto. Attualmente insegna diversi corsi, tra cui linguistica computazionale e interfacce linguistiche, presso le Università di Trento e di Bolzano. Twitter/𝕏 di Luca » https://x.com/DucceschiLuca Fabio Stefanini è un Ricercatore in Meta nel campo dell'interazione uomo-macchina, esperto AR/VR/ML e neuroscienze computazionali, laurea in Fisica alla Sapienza sul comportamento collettivo, PhD a ETHZ su ingegneria neuromorfa, ricercatore a Columbia University e UCSF su ippocampo e memoria. Twitter/𝕏 di Fabio » https://x.com/faffofratello Riferimenti: - Il libro citato da Luca Ducceschi sulla natura dell'informazione è: J. Gleick, "The Information: A History, a Theory, a Flood", Pantheon Books, 2011 (disponibile anche in italiano sotto il titolo "L'informazione. Una storia. Una teoria. Un diluvio", edito da Feltrinelli nel 2015) - La demo mostrata da Luca Ducceschi durante la puntata è un notebook eseguibile in Google Colab (https://colab.research.google.com/). Il sorgente del notebook è disponibile sul repository Github di Liberi Oltre STEM al seguente link: https://github.com/rymoah/loli-stem Capitoli 0:00 Introduzione 2:12 Parole come vettori in uno spazio n-dimensionale 4:45 Esempio in due dimensioni, cosine similarity 9:00 Semantica come co-frequenza di parole 11:50 Come si costruisce un embedding? 16:08 Tokenizzazione e analisi delle frequenze 18:28 Trasversalità della modellazione matematica del linguaggio 23:00 Rappresentazione compatta del linguaggio 27:20 Demo di word2vec 32:30 Esempio di embedding in 300 dimensioni 35:38 Bias linguistici negli embedding 41:40 Gli embedding sono "intelligenti"? 46:17 Conclusioni ▔▔▔▔▔ SUPPORTA LIBERI OLTRE! »» https://www.liberioltreleillusioni.it/dona-ora Vuoi contribuire? ASSOCIATI! »» https://www.liberioltreleillusioni.it/contribuisci-liberamente/associati ▔▔▔▔▔ Un luogo Aperto, Plurale, non Ideologico e non Identitario. Cerchiamo di diffondere i principi del Merito, della Competenza, della Responsabilità Individuale, della Trasparenza Decisionale e Informativa, della Sussidiarietà, della Tutela delle Libertà Individuali, dell’Economia di Mercato, della Concorrenza e della Solidarietà Individuale e Collettiva... Questa è Liberi Oltre! ▔▔▔▔▔ Seguici sui nostri social: Twitter/𝕏 » https://twitter.com/liberioltre Instagram » https://www.instagram.com/liberioltre/ Sito » https://www.liberioltreleillusioni.it/ Telegram » https://t.me/liberioltre

Visit the podcast's native language site