Machine Learning, NLP e Web Scraping per l’analisi automatica di testi

Identificativo : 
32560
Tipo offerta formativa : 
Corso di formazione
Anno accademico : 
2024/2025
Importo : 
Euro 900
CFU : 
4

Scadenza presentazione domanda di ammissione 11 giugno 2025

Obiettivi formativi

La prima parte del corso fornirà una breve introduzione al linguaggio di programmazione Python. Queste nozioni saranno utilizzate per affrontare compiti complessi legati allo
scenario di analisi. Successivamente, verranno introdotti i principi di funzionamento dei siti web in generale e delle tecnologie utilizzate nella loro realizzazione e fruizione, quali i protocolli HTTP e REST, il linguaggio HTML, l’uso dei cookies. Infine, si introdurranno le tecnologie mediante le quali, da linguaggio Python, sarà  La prima parte del corso fornirà una breve introduzione al linguaggio di programmazione Python. Queste nozioni saranno utilizzate per affrontare compiti complessi legati allo scenario di analisi. Successivamente, verranno introdotti i principi di funzionamento dei siti web in generale e delle tecnologie utilizzate nella loro realizzazione e fruizione, quali i protocolli HTTP e REST, il linguaggio HTML, l’uso dei cookies. Infine, si introdurranno le tecnologie mediante le quali, da linguaggio Python, sarà possibile, in maniera automatica e strutturata, acquisire i contenuti di pagine e siti web di interesse. Nella seconda parte del corso lo studente apprenderà le tecniche di analisi automatica del testo. Inizialmente verranno introdotti gli strumenti necessari per l’analisi, con particolare riferimento alle reti neurali profonde. Sarà introdotta la logica del Machine Learning e verranno illustrate le architetture di Neural Network più interessanti per l’analisi testuale.Si proseguirà quindi con le tecniche di pre-processing del testo. Si affronterà quindi il concetto di embedding di parole, frasi, documenti utilizzando l’approccio bag-of-words e la Latent Sematic Analysis. Successivamente si introdurranno i modelli Glove e Word2Vec e i pre-trained word vectors disponibili. A questo punto saranno introdotti i Transformers e i Large Language Models, che sono i modelli più recenti che hanno fatto fare un salto di qualità alle tecniche in questo ambito. In particolare, vedremo Bert e le sue varianti, con alcune applicazioni. Tratteremo quindi delle ultime proposte che comprendono anche i modelli più recenti e vedremo delle applicazioni con modelli open source

Direttore

Umberto Ferraro Petrillo

Email di contatto
Dipartimento
Dipartimento di Scienze Statistiche
Facoltà
Facoltà di Ingegneria dell'Informazione, Informatica e Stastitica

© Sapienza Università di Roma - Piazzale Aldo Moro 5, 00185 Roma - (+39) 06 49911 - CF 80209930587 PI 02133771002