Machine learning con Python: descrizione del codice

Nella prima parte del tutorial sull'uso del linguaggio di programmazione Python per progetti di apprendimento automatico, erano state presentate e commentate le sezioni di codice relative all'impostazione dell'ambiente di lavoro, al caricamento delle librerie e del dataset, alla descrizione statistica e grafica dei dati. In questa seconda parte invece si proseguirà con la descrizione del codice che comprenderà: i metodi di suddivisione del dataset, gli algoritmi di classificazione e le metriche di valutazione. 

Introduzione

Quanto operano bene gli algoritmi su dati mai visti? Questa è la domanda che ci si dovrebbe porre quando si valutano le performance degli algoritmi di classificazione per un dato problema. Due sono le metodologie prevalenti per valutare le prestazioni di un algoritmo:

  1. fare previsioni per nuovi dati di cui si conoscono già le risposte
  2. utilizzare tecniche basate su statistiche denominate metodi di ricampionamento che consentono di effettuare stime accurate del livello di efficienza dell'algoritmo sui nuovi dati.

Perché non è possibile addestrare gli algoritmi di apprendimento automatico su un dataset e utilizzare le previsioni dello stesso dataset per valutare le performance degli algoritmi di apprendimento automatico? La risposta è semplice: sovradattamento.

Supponendo esista un algoritmo che ricordi ogni osservazione che gli viene mostrata. Se valutato sullo stesso set di dati utilizzato per addestrarlo, tale algoritmo otterrebbe un punteggio perfetto nel set di dati di addestramento. Ma le previsioni fatte su nuovi dati sarebbero terribili. Non riesce a generalizzare!.

Occorre valutare gli algoritmi di apprendimento automatico sui dati che non vengono utilizzati per addestrare l'algoritmo. La valutazione è una stima dell'efficacia dell'algoritmo nella pratica, non è una garanzia di prestazioni.

Il dataset su cui operare va quindi suddiviso in due parti: una parte con cui addestrare l'algoritmo (set di addestramento) e l'altra con cui testarlo (set di prova). [...]

ATTENZIONE: quello che hai appena letto è solo un estratto, l'Articolo Tecnico completo è composto da ben 2282 parole ed è riservato agli ABBONATI. Con l'Abbonamento avrai anche accesso a tutti gli altri Articoli Tecnici che potrai leggere in formato PDF per un anno. ABBONATI ORA, è semplice e sicuro.

Scarica subito una copia gratis

3 Commenti

  1. Avatar photo jimi75 12 Settembre 2019
    • Avatar photo jimi75 12 Settembre 2019
      • Avatar photo Andrea Garrapa 12 Settembre 2019

Scrivi un commento

Seguici anche sul tuo Social Network preferito!

Send this to a friend