Insights / Blog

Controllare la bontà dei dati con Alteryx

Training_TIL

Ormai lo sappiamo, Alteryx è il nostro migliore amico quando si tratta di data preparation, data blending, ecc, ecc, ecc… ma dalla versione 11 è stata aggiunta una comoda funzionalità per avere immediatamente un’anteprima della bontà delle nostre tabelle, che ci mostra % di valori null, missing, ecc, ecc, ecc… e ci avvisa immediatamente con degli indicatori di color verde, giallo, rosso se c’è qualcosa che non va nei nostri dati.

Sto parlando della rivoluzione che ha subito il Browse Tool di Alteryx:

Come potete vedere dall’immagine, ogni colonna del nostro set di dati presenta una riga subito sotto al titolo, che mostra in giallo, verde e rosso le % di campi con qualche problema minori (giallo), i campi a posto (verde) e quelli con severi problemi (rosso).

Inoltre nel pannello di configurazione del Browse Tool possiamo vedere un vero e proprio sommario delle colonne. Ad esempio, cliccando sulla colonna F2 dei risultati, la finestra di configurazione mi mostrerà un riepilogo dei dati:

Da questa screenshot apprendiamo che la colonna F2 presenta il 3,7% di valori nulli, è una stringa di testo con dimensione 255 caratteri ed altri interessanti informazioni che ci fanno capire se stiamo lavorando su dati consistenti o meno.

E la cosa ancor più interessante è che questa preview dei dati non ci viene mostrata solo se connettiamo un Browse Tool a un Input. Funziona anche se lo colleghiamo al risultato di una Join, dandoci informazioni importanti sul nostro operato.

Se ad esempio il mio dataset è composto da 1000 righe in cui non ho nessun duplicato (1000 righe e 1000 Uniques nel riepilogo), se dopo la Join mi ritrovo 4000 righe e 1000 uniques… beh, qualcosa è andato probabilmente storto nella join! Stessa cosa se mi ritrovo con un numero eccessivo di valori null.

Nel prossimo articolo vedremo come sfruttare questa funzionalità di Alteryx per tenere sotto controllo i dati o per effettuare delle (de)selezioni di colonne dinamiche in base alla presenza o meno di valori null.

Blog
iot data visualization

IoT data visualization: cos’è e come può impattare sul tuo business

Negli ultimi anni si sta diffondendo un interessante approccio alla lettura dei dati raccolti da...

Blog
product data management

Product data management: perché è cruciale nel 2024

Il Product Data Management sta consolidando il suo ruolo all’interno di tutte le attività e...