Machine Learning, NLP e Web Scraping per l’analisi automatica di testi

ID :

32560

Course type :

Corso di formazione

Academic year :

2024/2025

Tuition fee :

Euro 900

CFU :

Proroga scadenze

Scadenza presentazione domanda di ammissione 14 giugno 2025
pubblicazione graduaotria 16 giugno 2025
Scadenza pagamento 19 giugno 2025

Educational goals

La prima parte del corso fornirà una breve introduzione al linguaggio di programmazione Python. Queste nozioni saranno utilizzate per affrontare compiti complessi legati allo
scenario di analisi. Successivamente, verranno introdotti i principi di funzionamento dei siti web in generale e delle tecnologie utilizzate nella loro realizzazione e fruizione, quali i protocolli HTTP e REST, il linguaggio HTML, l’uso dei cookies. Infine, si introdurranno le tecnologie mediante le quali, da linguaggio Python, sarà La prima parte del corso fornirà una breve introduzione al linguaggio di programmazione Python. Queste nozioni saranno utilizzate per affrontare compiti complessi legati allo scenario di analisi. Successivamente, verranno introdotti i principi di funzionamento dei siti web in generale e delle tecnologie utilizzate nella loro realizzazione e fruizione, quali i protocolli HTTP e REST, il linguaggio HTML, l’uso dei cookies. Infine, si introdurranno le tecnologie mediante le quali, da linguaggio Python, sarà possibile, in maniera automatica e strutturata, acquisire i contenuti di pagine e siti web di interesse. Nella seconda parte del corso lo studente apprenderà le tecniche di analisi automatica del testo. Inizialmente verranno introdotti gli strumenti necessari per l’analisi, con particolare riferimento alle reti neurali profonde. Sarà introdotta la logica del Machine Learning e verranno illustrate le architetture di Neural Network più interessanti per l’analisi testuale.Si proseguirà quindi con le tecniche di pre-processing del testo. Si affronterà quindi il concetto di embedding di parole, frasi, documenti utilizzando l’approccio bag-of-words e la Latent Sematic Analysis. Successivamente si introdurranno i modelli Glove e Word2Vec e i pre-trained word vectors disponibili. A questo punto saranno introdotti i Transformers e i Large Language Models, che sono i modelli più recenti che hanno fatto fare un salto di qualità alle tecniche in questo ambito. In particolare, vedremo Bert e le sue varianti, con alcune applicazioni. Tratteremo quindi delle ultime proposte che comprendono anche i modelli più recenti e vedremo delle applicazioni con modelli open source

Downloads