Version control your data before you code
Uno dei pilastri fondamentali su cui si basa ogni stack tecnologico legato al software è Git. La possibilità di versionare il codice e controllare il flusso di sviluppo rappresenta l’unico punto in comune di ogni progetto software. Diamo per scontato che chiunque lavori nel settore sia effettivamente in grado di versionare correttamente il codice.
Nella nuova era dei Big Data e dei sistemi di Machine Learning, ogni esperto deve ora gestire non solo codice di alta qualità, ma anche dati… molti dati! Con l’evolversi dei sistemi, i dati si accumulano e i modelli di ML iniziano a deteriorarsi (drift) in produzione; diventa quindi essenziale adottare una solida strategia per la gestione dei dati. Così come trattiamo il codice, dovremmo trattare i dati allo stesso modo: con attenzione, attraverso un sistema di versionamento, revisioni, pull request, e con la capacità di costruire pipeline in grado di riprodurre lo stato di sistemi complessi basati sui dati.
In questo intervento esploreremo il significato del controllo di versione e come possiamo prendere in prestito metodologie dall’ingegneria del software per gestire meglio i nostri dati.
I relatori
Federico Marchesi, Data Architect Ciao, mi chiamo Federico Marchesi. Nel corso della mia carriera ho avuto il piacere di lavorare con diversi sistemi di Machine Learning, che spaziano da complessi sistemi OLAP a piattaforme distribuite per l’inferenza di modelli di Machine Learning, e ho anche vissuto l’ascesa dei moderni data lakehouse. Sono particolarmente appassionato di dati, che considero la base del software moderno, non solo nel campo del ML.
Al di fuori del lavoro, mi piace mantenermi attivo praticando MTB, nuoto e corsa. Sono anche un grande appassionato di motorsport.