From MAB to RL… and beyond!

I metodi classici sviluppati dal campo del Machine Learning (ML) permettono di analizzare dati provenienti da processi industriali e generare predizioni sull’andamento futuro di fenomeni legati alle attività produttive. Tali strumenti, tuttavia, non prevedono un meccanismo decisionale diretto che permetta di adottare scelte strategiche finalizzate al miglioramento delle performance dei processi interessati.

L’integrazione di tali scelte all’interno di modelli di ML e la loro automatizzazione ha portato allo sviluppo del Reinforcement Learning (RL), che si occupa dell’apprendimento di politiche decisionali, avendo accesso a dati provenienti da tali processi.

In questo talk presenteremo un primo modello di decisione sequenziale, detto Multi-Armed bandit, in cui viene identificata automaticamente un’azione ottimale all’interno di un insieme preventivamente fornito. Successivamente, tale modello viene esteso nel più generale scenario del RL, in cui le azioni non solo influenzano le performance immediata, ma determinano l’evoluzione dinamica del sistema. Per entrambi i temi verranno proposti gli ambiti applicativi classici, degli esempi di algoritmi e quali direzioni ci si prefigura per il futuro di tali campi.

Francesco Trovò è un ricercatore presso il Dipartimento di Elettronica, Informazione e Bioingegneria del Politecnico di Milano. E’ stato titolare del corso di Intelligenza Artificiale presso l’Università degli studi di Bergamo e attualmente è cofondatore e COO presso MLcube, una startup innovativa del Politecnico di Milano. I suoi interessi di ricerca sono lo sviluppo e l’analisi di algoritmi di online machine learning in ambiti microeconomici

Alberto Maria Metelli è assegnista Post Doc presso il Dipartimento di Elettronica, Informazione e Bioingegneria del Politecnico di Milano. E’ cofondatore e AI specialist presso MLcube, una startup innovativa del Politecnico di Milano. Ha interessi di ricerca nell’ambito dell’intelligenza artificiale, con particolare riferimento al reinforcement learning.

Quando: