Analisi dei dati per le imprese industriali (3). Preparazione dei dati: Overfitting e Underfitting, Bias e Varianza
Continuiamo l’argomento della preparazione dei dati, concentrandoci sulla trasformazione dei valori qualitativi e su quattro parole chiave: Overfitting e Underfitting, Bias e Varianza.

Alberto Montanari
Vicepresidente e Coordinatore della Commissione Industria 4.0 di Federmanager Bologna - Ferrara - Ravenna
Abbiamo già visto l’analisi delle distribuzioni, la necessità di ricondurre i dati stessi ad una unità di misura comune (la standardizzazione o la normalizzazione), riconoscere i mancanti ed eventualmente sostituirli. A volte occorre eliminare i valori esterni alle nostre osservazioni.

Ing. Alberto Montanari, Consigliere e Coordinatore Commissione Industria 4.0
Feature Engineering
Tramite questo processo il set di dati viene elaborato per convertire i vari tipi (categorici, letterali: ‘stringhe’, data e ora, …) in valori numerici comprensibili per un algoritmo. Una volta che i vari dati di testo sono stati convertiti, sono pronti per essere inseriti nel modello.

Fig.1_Feature Engineering
Semplificare il modello
Per spiegare perché ci conviene ridurre il numero delle caratteristiche, dobbiamo capire come in realtà funziona il sistema.
Infine sottoponiamo i nuovi dati per ottenere il risultato atteso.
(NdA: ho semplificato molto la spiegazione, mi scusino i lettori più rigorosi).

Fig.2 Underfitting e Overfitting
Overfitting e Underfitting
Un problema che si può verificare con molti parametri è che il modello si adatti “troppo” bene e sia “troppo” preciso. Quando gli verranno sottoposti nuovi dati per la classificazione o la regressione, i risultati saranno inferiori alle aspettative perché non riuscirà a generalizzare. Questo fenomeno si chiama overfitting, ovviamente speculare all’underfitting, che limita la precisione perché non riesce a creare un modello.

Fig.3_Combinazioni Bias-Varianza: il gioco delle freccette
Bias e Varianza
Usiamo la metafora del gioco delle freccette nel quale, naturalmente, si mira al centro (Fig.3).
I giocatori ad alta varianza e alto bias sono terribili e le loro freccette sono dappertutto.
Il compromesso bias-varianza è una proprietà specifica di tutti i modelli di machine learning (supervisionati), che impone un compromesso tra la flessibilità del modello e il comportamento su dati che non ha mai visto.
L’obiettivo finale del machine learning è scegliere un modello che abbia contemporaneamente una bassa varianza e un basso bias.
Riassumendo, il bias è la tendenza dell'algoritmo ad apprendere costantemente un modello non corretto, non tenendo conto di tutte le informazioni nei dati: underfitting.

Fig.4_Bias e Varianza
Immagini: a cura dell’Autore e da Edalab, Andrew Ng, researchgate.net.