Machine Learning, NLP e Web Scraping per l’analisi automatica di testi

Identificativo : 
32560
Tipo offerta formativa : 
Corso di formazione
Anno accademico : 
2023/2024
Importo : 
Euro 900
CFU : 
4

II Edizione del corso.
Il corso  non potrà essere attivato per il mancato raggiungimento del numero minimo di partecipanti previsto.

Obiettivi formativi

La prima parte del corso fornirà una breve introduzione al linguaggio di programmazione Python. Queste nozioni saranno utilizzate per affrontare compiti complessi legati allo scenario di analisi. Successivamente, verranno introdotti i principi di funzionamento dei siti  web in generale e delle tecnologie utilizzate nella loro realizzazione e fruizione, quali i protocolli HTTP e REST, il linguaggio HTML, l’uso dei cookies. Infine, si introdurranno le tecnologie mediante le quali, da linguaggio Python, sarà possibile, in maniera automatica e strutturata, acquisire i contenuti di pagine e siti web di interesse. Nella seconda parte del corso lo studente apprenderà le tecniche di analisi automatica del testo. Inizialmente verranno introdotti gli strumenti necessari per l’analisi, con particolare riferimento alle reti neurali profonde. Sarà introdotta la logica del Machine Learning e verranno illustrate le architetture di Neural Network più interessanti per l’analisi testuale. Si proseguirà quindi con le tecniche di pre-processing del testo. Si affronterà quindi il concetto di embedding di parole, frasi, documenti utilizzando l’approccio bag-of-words e la Latent Sematic Analysis. Successivamente si introdurranno i modelli Glove e Word2Vec e i pre-trained word vectors disponibili. A questo punto saranno introdotti i Transformers e i Large Language Models, che sono i modelli più recenti che hanno fatto fare un salto di qualità alle tecniche in questo ambito. In particolare, vedremo Bert e le sue varianti, con alcune applicazioni. Tratteremo quindi delle ultime proposte che comprendono anche GPT-4 e Bard e vedremo delle applicazioni con modelli open source.

Direttore

Umberto Ferraro Petrillo

Dipartimento
Scienze statistiche
Facoltà
Facoltà di Ingegneria dell'informazione, informatica e statistica

© Sapienza Università di Roma - Piazzale Aldo Moro 5, 00185 Roma - (+39) 06 49911 - CF 80209930587 PI 02133771002