Insights / Blog

Alteryx 10: i tool per data blending e parsing

Alteryx 10: i tool per data blending e parsing

“Input/Output”


BROWSER: aggiunge uno o più punti nel workflow corrente per controllare e verificare i dati. Permette all’utente di guardare i dati in qualsiasi punto del processo.


DATE TIME NOW: inserisce la data e l’orario corrente in cui viene eseguto il workflow. Utile per aggiungere data e ora, ad esempio, nelle inestazioni di pagina dei report.


DIRECTORY: apre una lista di file contenuti in una cartella. Può essere usato con un “Dynamic Input tool” per creare delle regole dinamiche e selezionare solo i file che rispettano le regole e ignorare tutti gli file.


INPUT: apre i file presenti in locale sul computer (Alteryx Database, ASCII flat, csv, Excel, Access, txt, ecc, ecc, ecc…) o connettendosi a un database (OleDB, ODBC, Oracle, Teradata, HDFS, ecc, ecc, ecc…).


MAP INPUT: disegna a mano o seleziona dalle mappe disponibili nel tool tutti i map object (punti, linee e poligoni), per inserire e usare nel workflow le mappe.


OUTPUT: salva i risultati del workflow in un file esterno, esattamente come l’input tool, in locale o su un database online, permettendo una vasta scelta di formati. Molto utile con le stringhe di testo.


TEXT INPUT: aggiungi dei dati a mano, creando delle tabelline che saranno salvate nel modulo di Alteryx stesso. Molto ultile per creare delle tabelline per eseguire sostituzioni, lookup, ecc, ecc, ecc…

“Preparation”


AUTO FIELD: cambia automaticamente il tipo di dato (stringa, numero intero, data, ecc, ecc, ecc…) e determina la dimensione più piccola possibile per ogi campo.


DATE FILTER: filtra un range di date comprese tra una data iniziale e finale, permettendo all’utente di scegliere i parametri tramite un’interfaccia calendario.


FILTER: interroga i dati in base a un’espressione che dividerà i record in due flussi: quello che soddisfa e non soddisfa l’espressione. Utile per escludere dei valori senza cancellarli definitivamente dal workflow.


FORMULA: crea o aggiorna i campi usando una o più formule per eseguire delle operazioni (logiche, matemaiche, spaziali, testo, finanziarie, statistiche, conversioni, test, data e ora, ecc, ecc, ecc…).


GENERATE ROWS: crea nuove righe di dati da zero o in base ai dati a disposizione nel workflow. Utile per creare sequenze di numeri o date o per creare nuove righe in base a condizioni specificate dall’utente con formule.


IMPUTATION: aggiorna valori numerici specifici con i valori selezionati. Utile per sostituire infomazioni mancanti (NULL values) con valori come la media o la mediana, anziché uno zero. Migliora l’accuratezza dei risultati.


MULTI-FIELD BINNING: raggruppa campi numerci multipli in classi. Utile per le analisi predittive.

 


MULTI-FIELD FORMULA: crea o aggiorna campi multipli usando una singola formula.

 

MULTI-ROW FORMULA: crea o aggiorna un singolo campo usando come parte della formula le righe precedenti e successive.

 

RANDOM % SAMPLE: estrae dai dati un campione a caso pari a una certa % specificata dall’utente.

 


RECORD ID: crea una colonna con un numero identificativo (ID) singolo per ogni riga.

 


SAMPLE: permette di estrarre un campione di dati basati su diversi parametri, come ad esempio i primi N record, gli ultimi N record, 1 record ogni N, ecc, ecc, ecc….


Tile: raggruppa i dati in set/gruppi basati su range. Utili per creare classi statistiche.

 


UNIQUE: separa i dati in due flussi: dati duplicati e unici, basandosi su un ID univoco.

“Join”


APPEND FIELD: unisce i campi di un input con tutti i campi di un target, moltiplicando i campi dell’input per il numero di campi presenti nel target.

 


FIND REPLACE: cerca dei dati in una tabella di input e va a rimpiazzarli con i dati specificati che arrivano da un’altra tabella. Simile a un VLookup di Excel.

 


FUZZY MATCH: grazie a logaritmi che confrontano lettere e parle, identifica duplicati non indentici tra i dati. Utile per normalizzare numeri di telefono, nomi scritti in modo diverso…


JOIN: combina 2 flussi di dati basati su un dato in comune. Restiuisce sia le unioni eseguite che i dati provenienti da destra e/o da sinistra che non sono stati combinati.


JOIN MULTIPLE: come il join, ma permette di unire più di 2 tabelle. Restituisce solo i dati uniti.

 


MAKE GROUP: prende le relazioni tra i dati e li unisce in gruppi basati sulle relazioni. Utilizzato principalmente in coppia con il Fuzzy Match.

 


UNION: unisce due o più tabelle una sotto l’altra, in base ai dati contenuti nelle colonne.

“Parse”


DATE TIME: converte il formato di date e orari in una vasta tipologia di formati diversi.

 


REGEX: crea nuovi campi, pulisce, rimpiazza o verifica stringhe di dati riconducibili ad espressioni regolari.

 


TEXT TO COLUMN: Divide il testo in colonne, utilizzando dei caratteri delimitatori.

 


XML PARSE: Legge la struttura di un file XML e restituisce singoli campi.

“Transform”

ARRANGE: permette di riposizionare manualmente i dati. Usato principalmente per la presentazione dei data.

 

COUNT RECORDS: conta quanti record passano dal tool.

 

CROSS TAB: trasforma le colonne in righe, raggruppando i dati in sommari se necessario.

 

RUNNING TOTAL: calcola le somme cumulative.

SUMMARIZE: crea dei sommari, raggruppando i dati in base ai campi e creando calcoli matamatici, statistici, conteggi, calcoli spaziali, concatenazione ei testi, ecc, ecc, ecc…

 

TRANSPOSE: trasforma le righe in colonne.

 

WEIGHTED AVERAGE: questa macro calcola la media pesata.

Tags
Blog
Manufacturing Analytics: cos’è e come impatta l’ottimizzazione dei costi

Manufacturing Analytics: cos’è e come impatta l’ottimizzazione dei costi

Il Manufacturing Analytics è l’ultima frontiera dell’evoluzione dell’industria manifatturiera, sempre spinta dalla necessità di rimanere...

Blog
Data analytics tool: i 4 fattori da considerare per sceglierlo

Data analytics tool: i 4 fattori da considerare per sceglierlo

I data analytics tool svolgono un ruolo fondamentale nel processo di analisi dei dati, ormai...