Machine Learning, NLP e Web Scraping per l’analisi automatica di testi

ID : 
32560
Course type : 
Corso di formazione
Academic year : 
2024/2025
Tuition fee : 
Euro 900
CFU : 
4

Scadenza presentazione domanda di ammissione 11 giugno 2025

Educational goals

La prima parte del corso fornirà una breve introduzione al linguaggio di programmazione Python. Queste nozioni saranno utilizzate per affrontare compiti complessi legati allo
scenario di analisi. Successivamente, verranno introdotti i principi di funzionamento dei siti web in generale e delle tecnologie utilizzate nella loro realizzazione e fruizione, quali i protocolli HTTP e REST, il linguaggio HTML, l’uso dei cookies. Infine, si introdurranno le tecnologie mediante le quali, da linguaggio Python, sarà  La prima parte del corso fornirà una breve introduzione al linguaggio di programmazione Python. Queste nozioni saranno utilizzate per affrontare compiti complessi legati allo scenario di analisi. Successivamente, verranno introdotti i principi di funzionamento dei siti web in generale e delle tecnologie utilizzate nella loro realizzazione e fruizione, quali i protocolli HTTP e REST, il linguaggio HTML, l’uso dei cookies. Infine, si introdurranno le tecnologie mediante le quali, da linguaggio Python, sarà possibile, in maniera automatica e strutturata, acquisire i contenuti di pagine e siti web di interesse. Nella seconda parte del corso lo studente apprenderà le tecniche di analisi automatica del testo. Inizialmente verranno introdotti gli strumenti necessari per l’analisi, con particolare riferimento alle reti neurali profonde. Sarà introdotta la logica del Machine Learning e verranno illustrate le architetture di Neural Network più interessanti per l’analisi testuale.Si proseguirà quindi con le tecniche di pre-processing del testo. Si affronterà quindi il concetto di embedding di parole, frasi, documenti utilizzando l’approccio bag-of-words e la Latent Sematic Analysis. Successivamente si introdurranno i modelli Glove e Word2Vec e i pre-trained word vectors disponibili. A questo punto saranno introdotti i Transformers e i Large Language Models, che sono i modelli più recenti che hanno fatto fare un salto di qualità alle tecniche in questo ambito. In particolare, vedremo Bert e le sue varianti, con alcune applicazioni. Tratteremo quindi delle ultime proposte che comprendono anche i modelli più recenti e vedremo delle applicazioni con modelli open source

Director

Umberto Ferraro Petrillo

Email di contatto
Department
Dipartimento di Scienze Statistiche
Faculty
Facoltà di Ingegneria dell'Informazione, Informatica e Stastitica

© Sapienza Università di Roma - Piazzale Aldo Moro 5, 00185 Roma - (+39) 06 49911 - CF 80209930587 PI 02133771002