Insights / Blog

Alteryx: i diversi tipi di dato

 

Alteryx, potente software ETL (Extract, Transfor and Load),adatta i suoi tool d’elaborazione, ovviamente, in base al tipo di dato che ha “in pasto”. Come la stragrande maggioranza dei software accetta i classici tipi di dato che sono: Stringa, numerico, Booleano, Data e Oggetti.

Con Alteryx è possibile andare a modificare il Data Type e la dimensione massima che può avere i caratteri. Quesro può essere fatto attraverso vari Tool, due dei quali sono il Join Tool e il Select Tool.

join e select data type

In genere è possibile andare a settare questi, attraverso tutti i Tool che hanno un menù simile a quello nella foto cui sotto.

data type changer

Andiamo adesso ad osservare quali sono i Data Type utilizzabili e settabili in Alteryx.

data type dettaglio

Possiamo vedere nell’immagine cui sopra che abbiamo almeno una ventina di Type diversi, ma possono essere divisi in 5 grandi categorie:

  1. Campi Stringa,
  2. Campi Numerici,
  3. Campi Data,
  4. Campi Booleani,
  5.  Spatial Object.

Di seguito li descriviamo in dettaglio.

1.Stringhe di dati

  • String: la sua lunghezza massima è di 8192 caratteri. Oltre questo limite, o oltre al limite impostato, il dato verrà troncato. Accetta tutti i valori della codifica Latin-1.
  • WString: accetta qualsiasi tipo di carattere in Unicode, e la sua dimensione massima è sempre 8192 caratteri.
  • V_String: la particolarità di questo campo sta nella sua dimensione. Si adatta in base alla lunghezza dei caratteri inserita dell’utente. Accetta tutti i valori della codifica Latin-1.
  • V_WString: campo uguale a V_String. L’unica differenza è che accetta tutti i tipi di carattere.

E’ buona pratica non inserire la grandezza delle stringhe ma farla selezionare automaticamente ad Alteryx, che poi in base alla lunghezza del campo inserito, imposterà la grandezza della stringa.

 

2.Tipi Numerici

  • I Byte hanno una grandezza di 8 bit, e possono rappresentare un numero intero positivo da 0 a 255.

Int16, Int32, Int64, invece, accettano anche un numero negativo,“sacrificando un bit” possiamo includere il segno “-”.

  • Int16: con una peso di 2 bytes possiamo rappresentare un numero da -32.768 a 32.767
  • Int32: con un peso di 4 bytes possiamo rappresentare un numero da -2.147.483.648 a 2.147.483.647
  • Int64: con un peso di 8 bytes possiamo rappresentare un numero da -9.223.372.036.854.775.808 a 9.223.372.036.854.775.807

 

  • Fixed Decimal: con questo tipo di campo possiamo rappresentare anche valori con decimali. Possiamo decidere con che precisione rappresentare la parte decimale. La sintassi è molto semplice. Il primo valore indicherà quante cifre avrà l’intero valore, seguito da un punto e un secondo valore che indicherà quante cifre decimali avrà il risultato finale. Per esempio se impostiamo un valore con il Fixed Decimal di 6.2 il risultato sarà 648,98. Il 6 indica la lunghezza della cifra compreso di virgola e il 2 indica la precisione dei decimali. Nel caso in cui si ha bisogno di rappresentare un valore negativo, stesso trattamento usato per la virgola verrà adottato con il segno meno. Es. Fixed Decimal -6.2   = -64,98

 

  • Float e Double sono campi usati per rappresentare numeri in virgola mobile. Rispettivamente hanno una grandezza di 4 bytes e di 8 bytes. Il Float può contenere un numero che va da ±3,4 * 10^±(38) invece i Double contengono dati da  ±1,7 * 10^±(308).

 

3.Tipi di data

  • Date: composta da 10 caratteri con una precisa formattazione “yyyy-mm-dd”
  • Time: con una lunghezza di 8 caratteri composta da “hh:mm:ss” e serve a rappresentare gli orari.
  • DateTime: è composto dal primo tipo (Date) e dal secondo (Time). Ha una lunghezza di 19 caratteri, così composte “yyyy-mm-dd hh:mm:ss”.

 

Ovviamente questi tipi di dato sono delle stringhe formattata con un preciso ordine.

4.Bool: la più semplice ma anche la più potente. Accetta solo due tipi di valore, True o False.

 

5.SpatialObj: è il campo più “astratto” tra tutti. Può rappresentare una linea, un punto, un insieme di stringhe o delle logiche che vengono implementate.

 

E’ importante andare a settare correttamente il giusto Data Type e la giusta dimensione, questo per questioni di:

  • Performance,
  • Tipo di aggregazione

Le questioni di Performance, sono facilmente comprensibili, in quanto i programmi di ETL prima di leggere una riga successiva, devono finire di leggere la cella precedente (se ho 1000 caratteri prima di leggere la successiva devo completare la cella precedente); per quanto riguarda i tipi di aggregazione, anche in questo caso è facile capire che determinate aggregazioni (come la somma) no possono essere fatti su Data Type che non siano di tipo Numerico.

 

Concludo il mio blog e vi ringrazio per avermi seguito.

Potete inoltre seguirmi su Twitter, Linkedin e Tableau Public.

[button URL=”http://www.tableau.com/partner-trial?id=45890″]Download Tableau[/button]     [button URL=”https://www.theinformationlab.it/newsletter-2/”]Iscriviti alla newsletter[/button]

Pharma
Predictive analytics healthcare

Predictive analytics healthcare: come l’AI rivoluziona la medicina

Il mondo dell’healthcare è storicamente legato ai dati. Gli esami, le diagnosi, i successi degli...

Blog
tableau pulse

Tableau Pulse: La GeneAI sbarca su Tableau

Tableau Pulse, introdotto da Salesforce come parte della suite Tableau AI, sfrutta l’intelligenza artificiale generativa...