<< Back

Modelli di predizione con Alteryx

Eccomi di nuovo qui con un blog su qualcosa di ancora forse poco conosciuto, e che di sicuro intimorisce non poco chi usa Alteryx avendo poche nozioni di statistica: come utilizzare questo programma per creare ed applicare modelli di predizione.

Quello di cui abbiamo bisogno si trova nella tool palette “Predictive” (se non ce l’hai, molto probabilmente sul tuo computer è installato solo Alteryx base. Puoi andare al sito ufficiale http://downloads.alteryx.com/downloads.html e per ogni versione troverai 2 installer, Designer only – che è quello che hai installato ora – e Predictive tools only, che ti permetterà di aggiungere tutti i tool delle tab predictive).

In questo blog, per cominciare, utilizzeremo i modelli più semplici di predizione, Linear Regression e Logistic Regression, che corrispondono a due particolari tool (nel riquadro blu). Il tool Score, nel riquadro rosso, è quello che ci permette di applicare il modello che creeremo per predire effettivamente nuovi dati.

tool utilizzati
Tool di base utilizzati per la predizione in Alteryx

Linear Regression

La regressione lineare serve per predire un valore numerico, date delle variabili anch’esse numeriche. Nella figura seguente, per esempio, il target da predire è il valore di Pollution per il 2018, basandoci sulle altre variabili, per ogni “country”. Agganciamo quindi all’output tool del dataset il tool della Linear Regression, e guardiamo insieme come configurarlo:

  • il nome del modello: un nome a nostro piacimento che vogliamo dare al modello
  • la variabile target da predire, nel nostro caso Pollution
  • l’elenco delle variabili su cui basare la predizione: possono essere un numero indefinito, quello che importa è che siano numeriche e che il target non appaia fra di esse.

configurazione linear regression

All’output “O” del tool agganciamo adesso il tool Score, nel suo input “M” (che sta appunto per Model), mentre nell’input “D” (=dataset) inseriamo il nuovo dataset, con i dati relativi al 2018, di cui vogliamo predire la colonna Pollution. Lanciando il workflow, quello che si ottiene è l’aggiunta alla tabella pre-esistente di input di una nuova colonna, Predicted_Pollution, che indica appunto il valore predetto dal modello per i nuovi dati.

output score per linear regression

Logistic Regression

La regressione logistica, al contrario della lineare, si usa per predire una variabile categoriale, binaria (0/1, vero/falso, bianco/nero, etc). La configurazione del tool è la stessa del tool di Linear Regression: la sola differenza è che, questa volta, il campo target da predire deve essere una stringa che assume solo due valori (nel nostro caso, ‘yes’ o ‘no’).

configurazione logistic regression

Attaccando all’output del tool di Logistic Regression il tool Score che abbiamo visto in precedenza, insieme al dataset di cui predire il valore di “Polluted?” vediamo che stavolta crea non una, bensì due colonne: una per l’output ‘no’ e una per l’output ‘yes’. Queste colonne rappresentano la probabilità, secondo il modello, che la variabile da predire sia di una o dell’altra categoria.

output score per logistic regression

Per assegnare effettivamente l’uno o l’altro valore, bisogna decidere una soglia di probabilità: la scelta più semplice e immediata è assegnare il valore con la probabilità più alta (quindi quella che supera il 50%). Per esigenze dovute al dominio applicativo, però, si può decidere di essere più o meno conservativi, fissando quindi una soglia diversa, usando un semplice Formula Tool. Per esempio, nella figura seguente ho scelto di considerare come “Polluted?: yes” le righe che hanno probabilità per ‘yes’ maggiore del 30%.

output finale logistic regression


Siamo arrivati alla fine di questo blog, che spero vi sia servito per cominciare ad entrare, a piccoli passi, nel mondo della predizione con Alteryx. Quelli qui esposti sono i concetti per capire le basi della configurazione dell’utilizzo dei tool principali: se vi siete divertiti, potete esplorare l’intera palette dei tool predittivi di Alteryx, per creare modelli sempre più complessi e personalizzati.

Alla prossima!

Leave a Reply

Your email address will not be published. Required fields are marked *

This site uses Akismet to reduce spam. Learn how your comment data is processed.