Insights / Blog

Union Tool Alteryx: cos’è e come funziona

Training_TIL

Come ogni settimana (o quasi), scrivo un articolo per il nostro blog; parlandovi della Release di Tableau 10.3, mi sono accorto che ancora non è stato fatto un blog sulle Union di Tableau e Alteryx. “Prontamente provvedo” a spiegarvi che cos’è e come funziona l’Union Tool Alteryx.

L’Union Tool di Alteryx possiamo trovarlo dal menù a tendina “Tool Palette” nella sezione Join (contraddistinta dal colore viola). Per spiegarvi come utilizzare le Union e il rispettivo Tool in Alteryx, ho deciso di creare un piccolo workflow; come si suol dire meglio la pratica alla grammatica.

Che cos’è una Union?

La Union non è altro che un metodo per “appendere” verticalmente due o più tabelle; a seconda del tipo di Union che scelgo, il risultato sarà più o meno pulito (presenterà NULL o meno), ciò non dipenderà solo dal tipo di Union scelto in Alteryx, ma anche dai data base che vado ad utilizzare nel workflow.

Le Union di Alteryx

Capito che cos’è una Union, procediamo studiando il “mini” workflow che possiamo vedere sopra (niente di più facile), composto da 2 Text Input, 3 Union Tool e 3 Browser Tool per vedere i risultati.

I due Text Input (Input 1 e 2), sono così formati:

Text Input 1 per Union

Text Input 2 per Union

Immaginiamo che la nostra azienda informatica, venda prodotti legati a: Software, Hardware, Accessori per PC, Tool per la manutenzione, Cancelleria e Oggettistica; abbiamo dei report diversi, non proprio belli con alcuni campi che coincidono e altri no (tutto questo è voluto). Di questi vogliamo creare un unico report contenente tutte le informazioni; è il caso di usare un Union Tool. Ma come funziona un Union Tool?

Importato in Layout, guardiamo come è composto il pannello di configurazione.

Pannello di default Union

Di default è così composto: il tipo di Union impostato su Auto Config by Name, le Properties settate su Warning – Continue Processing Records e Output All File, con la configurazione Automatica del Output Order non spuntata e quindi appende i file in ordine di connessione.

Snoccioliamo adesso il pannello di configurazione dello Union Tool e guardiamo nel dettaglio come funziona.

I 3 tipi di Union di Alteryx

Dal primo menù a tendina del configuratore dello Union Tool, posso scegliere il tipo di Union che Alteryx va a creare:

  • Auto Config by Name: associa in automatico i campi in base al nome della colonna;
  • Auto config by Position: associa i campi in base alla posizione della colonna;
  • Manually Configure by Fields: associamo manualmente i campi come vogliamo.

Dal secondo menù a tendina, dico ad Alteryx di compiere certe azioni quando trova dei campi differenti nei data base fra cui faccio la Union, ovvero:

  • Error – Stop Processing Records: ferma il processo e la Union non va a buon fine;
  • Warning – Continue Processing Records: continua coi processi e da dei warning nei risultati;
  • Ignore – Continue Processing Records: finisce il run e nel pannello dei risultati non vengo avvertito di niente.

Il terzo menù a tendina, invece mi dice se voglio che siano stampati tutti i campi (Output All Fields) o che siano osservati soltanto quelli comuni ai data base (Output Common Subset of Fields).

Per continuare col nostro esempio, lascio sempre impostato in Proprietà “Warning – Continue Processing Records” ed all’occorrenza Output All Fields.

Auto Config by Name

In questo caso le colonne presenti nei data base, saranno unite (appese) una sotto l’altra in base al nome della colonna; otterrò quindi un risultato come il seguente.

Risultato Union 1, con tutti i campi

Tutto quello che ho evidenziato, deriva dalla tabella Input 1.

Alteryx in automatico per sopperire alla mancanza di informazioni pone dei NULL. Infatti in Input 2 non era presente la colonna “Altro”, così come in Input 1 non erano presenti le colonne Dettaglio e Euro. Impostando dal terzo menù a tendina di osservare solo le colonne in comune, ottengo:

Risultato Union 1, con campi uguali

Ben diverso dal risultato dell’immagine precedente.

Auto Config by Position

Impostando il tipo di Union come Auto Config by Position, come possiamo osservare viene perso l’etichetta di ben due colonne derivanti da Input 2. Accade questo perché vengono uniti i data base in base alla posizion. In automatico,  Alteryx utilizza primariamente quelli derivanti dalla connessione 1 (a meno che non impostiamo diversamente da Output Order; spuntando la casellina e ordinando come vogliamo).

Risultato Union 2, con tutti i campi

Ancora, impostando dal terzo menù a tendina di osservare solo le colonne in comune, ottengo:

Risultato Union 2, con campi uguali

In questo caso ho perso anche la colonna Tipo 2.

Ci tengo a ribadire che: Riguardando bene le immagini possiamo accorgerci che i dati creati non hanno senso, la colonna Tipo di Input 1 viene confusa con la colonna Dettaglio di Input 2, così come la colonna Altro e Euro. 

Converrete con me che bisogna conoscere bene il dato e che per utilizzare la Union by Position devo essere sicuro che la  posizione dei dati in colonna sia simile. L’etichetta di colonna (nel caso) voglio sia quella del file in prima connessione (se l’Order Output è lasciato a quello di default sarà così; altrimenti posso modificarlo da Output Order) .

Manually Configure by Fields

Ultimo ma non ultimo, la configurazione manuale dei campi in Union. Anche in questo caso dobbiamo conoscere bene il dato, le colonne derivanti dai data base possono avere nomi diversi e posizione qualsiasi; è importante fare attenzione alle associazioni che facciamo. Il pannello di configurazione della Union in questo caso cambia, diventando così:

Pannello Union per Manually

Come possiamo vedere vengono inserite tutte le colonne; dalle frecce a lato del tasto Reset, possiamo cambiare l’ordine dei campi e di come vengono appesi.

Se non facciamo attenzione possiamo creare dei report senza senso o criterio in quanto abbiamo facoltà di unire (appendere) dati che non centrano niente gli uni con gli altri.

Faccio da tester, creo una di queste situazioni surreali per farvi vedere cosa non dovete fare. Confondo quindi il numero di vendite di Input 1 con il tipo di Input 2, così come Tipo e Euro:

Pannello Union Manually, modificato

In questo caso non sono presenti nel pannello di configurazione il secondo ed il terzo menù a tendina; inoltre si hanno dei lag in termini di performance. Il risultato ottenuto è questo:

Ovviamente il risultato non è per niente comprensibile, sembra quasi non abbia un senso logico.

L’Union Tool quindi è uno strumento potente ed utile (se utilizzato con criterio). Personalmente vi consiglio di utilizzare sempre le impostazioni di configurazioni automatiche (ovviamente bisogna avere la possibilità, derivante dalla “bontà” del data base).

N.B. Alteryx come avete potuto notare non aggrega i campi ripetuti (Prodotto A e B) con la Union.

Tags
Blog
product data management

Product data management: perché è cruciale nel 2024

Il Product Data Management sta consolidando il suo ruolo all’interno di tutte le attività e...

Snowflake
Snowflake Cloud Services

Snowflake Cloud Services: Quali sono e a cosa servono

Quando parliamo di Snowflake Cloud Services ci riferiamo a tutta una serie di servizi e...