Marketing: che cos’è un albero decisionale?

Un albero decisionale è una tecnica di modellazione di machine learning efficace e non parametrica ampiamente utilizzata per problemi di regressione e classificazione.

Per trovare soluzioni, un albero decisionale prende decisioni sequenziali e gerarchiche sulla variabile dei risultati in base ai dati del predittore.

Affinché una banca consideri se offrire o meno un prestito a qualcuno, spesso passa attraverso un elenco sequenziale di domande per capire se è sicuro concedere detto prestito a un individuo. Queste domande possono iniziare semplicemente come che tipo di reddito ha la persona? Se è compreso tra $ 30 e 70.000, passano alla domanda successiva. Per quanto tempo hanno tenuto il loro attuale lavoro? Se tra 1 e 5 anni si arriva alla domanda successiva: effettuano i pagamenti con carta di credito? Se si allora offrono il Prestito e se no no. Questo processo nella sua forma più elementare è un albero decisionale.

Allora cosa significa tutto ciò?

Gerarchico significa che il modello è definito da una serie di domande che portano a un’etichetta di classe oa un valore quando applicato a qualsiasi osservazione. Una volta impostato, il modello si comporta come un protocollo in una serie di condizioni “se questo si verifica, allora si verifica” che producono un risultato specifico dai dati di input.

Un metodo non parametrico significa che non ci sono ipotesi sottostanti sulla distribuzione degli errori o dei dati. Fondamentalmente significa che il modello è costruito sulla base dei dati osservati.

I modelli di albero decisionale in cui la variabile target utilizza un insieme discreto di valori sono classificati come alberi di classificazione. In questi alberi, ogni nodo, o foglia, rappresenta le etichette di classe mentre i rami rappresentano le congiunzioni di caratteristiche che portano alle etichette di classe. Un albero decisionale in cui la variabile target assume un valore continuo, solitamente numeri, è chiamato alberi di regressione. I due tipi sono comunemente indicati insieme in CART (Classification and Regression Tree).

Ogni modello CART è un caso di Grafico Aciclico Diretto. Questi grafici hanno nodi che rappresentano punti di decisione sulla variabile principale dato il predittore e gli archi sono le connessioni tra i nodi. Nello scenario di prestito al di sopra di $ 30- $ 7ok sarebbe un vantaggio e gli “Anni presenti nel lavoro” sono nodi.

L’obiettivo di un albero decisionale è quello di fare la scelta ottimale

Poiché l’obiettivo di un albero decisionale è quello di fare la scelta ottimale alla fine di ogni nodo, ha bisogno di un algoritmo in grado di fare proprio questo. Quell’algoritmo è noto come algoritmo di Hunt, che è sia avido che ricorsivo. Greedy significa che al momento prende la decisione più ottimale e ricorsivo significa che divide la domanda più grande in domande più piccole e le risolve allo stesso modo.La decisione di dividere in ogni nodo viene presa in base alla metrica chiamata purezza. Un nodo è impuro al 100% quando un nodo è diviso in modo uniforme al 50/50 e puro al 100% quando tutti i suoi dati appartengono a una singola classe.

Per ottimizzare il nostro modello dobbiamo raggiungere la massima purezza ed evitare l’impurità. Per misurare questo utilizziamo l’impurità di Gini, che misura la frequenza con cui un elemento scelto casualmente viene etichettato in modo errato se è stato etichettato casualmente in base alla distribuzione. Viene calcolato sommando la probabilità, pi, di un elemento con l’etichetta i, scelta moltiplicata per la probabilità (1–pi) di un errore nella categorizzazione del tempo. Il nostro obiettivo è che raggiunga 0 dove sarà minimamente impuro e massimamente puro rientrando in una categoria.

Guadagno di informazioni

L’altra metrica utilizzata è il guadagno di informazioni, che viene utilizzato per decidere quale caratteristica dividere in ogni passaggio dell’albero. Questo è calcolato nel modo seguente in un’equazione ben strutturata realizzata da Wikipedia,

Guadagno di informazioni = Entropia (genitore) – Somma ponderata dell’entropia (bambini).

Sebbene questo sia un ottimo modello, presenta un grosso problema risultando in un modello che si interrompe solo quando tutte le informazioni si trovano in una singola classe o attributo. A scapito della distorsione, la varianza per questo modello è enorme e porterà sicuramente a un adattamento eccessivo. “Gli studenti dell’albero decisionale possono creare alberi troppo complessi che non si generalizzano bene dai dati di formazione.” Quindi, come fa il web a combattere questo. Possiamo impostare una profondità massima dell’albero decisionale (cioè quanti nodi andrà in profondità (l’albero dei prestiti sopra ha una profondità di 3) e/o un’alternativa è specificare un numero minimo di punti dati necessari per effettuare una divisione ogni decisione.

Quali sono gli altri svantaggi di un albero decisionale

Quali sono gli altri svantaggi di un albero decisionale: è ottimizzato localmente utilizzando un algoritmo avido in cui non possiamo garantire un ritorno all’albero decisionale ottimale a livello globale. È un modello incredibilmente parziale se una singola classe prende a meno che un set di dati non sia bilanciato prima di inserirlo in un albero.

Sebbene vi siano degli svantaggi, gli alberi decisionali presentano molti vantaggi.

Sono incredibilmente semplici da capire grazie alla loro rappresentazione visiva, richiedono pochissimi dati, possono gestire dati qualitativi e quantitativi, possono essere convalidati utilizzando set statistici, possono gestire grandi quantità di dati ed è abbastanza economico dal punto di vista computazionale.

Spero che questo articolo ti abbia aiutato a capire meglio gli alberi delle decisioni.

Pubblicato da Paolo Tescione

Paolo Tescione, Inizia in tarda età la passione di blogger e subito riesce a fondare alcuni blog in vari settori con oltre 40milioni di visite. Ha pubblicato oltre 10mila articoli sul web e libri che sono in vendita su Amazon. Consegue il Master alla Business School sole24ore. Specialista blogger, Seo, copywriter, digital marketing, content marketing. Manager ecommerce qualificato. Info paolotescione5@gmail.com