Insights / Blog

Alteryx 10: i tool per data blending e parsing

Federica Ferrarini
26/11/2015

All, Blog

26/11/2015
All, Blog

“Input/Output”

BROWSER: aggiunge uno o più punti nel workflow corrente per controllare e verificare i dati. Permette all’utente di guardare i dati in qualsiasi punto del processo.

DATE TIME NOW: inserisce la data e l’orario corrente in cui viene eseguto il workflow. Utile per aggiungere data e ora, ad esempio, nelle inestazioni di pagina dei report.

DIRECTORY: apre una lista di file contenuti in una cartella. Può essere usato con un “Dynamic Input tool” per creare delle regole dinamiche e selezionare solo i file che rispettano le regole e ignorare tutti gli file.

INPUT: apre i file presenti in locale sul computer (Alteryx Database, ASCII flat, csv, Excel, Access, txt, ecc, ecc, ecc…) o connettendosi a un database (OleDB, ODBC, Oracle, Teradata, HDFS, ecc, ecc, ecc…).

MAP INPUT: disegna a mano o seleziona dalle mappe disponibili nel tool tutti i map object (punti, linee e poligoni), per inserire e usare nel workflow le mappe.

OUTPUT: salva i risultati del workflow in un file esterno, esattamente come l’input tool, in locale o su un database online, permettendo una vasta scelta di formati. Molto utile con le stringhe di testo.

TEXT INPUT: aggiungi dei dati a mano, creando delle tabelline che saranno salvate nel modulo di Alteryx stesso. Molto ultile per creare delle tabelline per eseguire sostituzioni, lookup, ecc, ecc, ecc…

“Preparation”

AUTO FIELD: cambia automaticamente il tipo di dato (stringa, numero intero, data, ecc, ecc, ecc…) e determina la dimensione più piccola possibile per ogi campo.

DATE FILTER: filtra un range di date comprese tra una data iniziale e finale, permettendo all’utente di scegliere i parametri tramite un’interfaccia calendario.

FILTER: interroga i dati in base a un’espressione che dividerà i record in due flussi: quello che soddisfa e non soddisfa l’espressione. Utile per escludere dei valori senza cancellarli definitivamente dal workflow.

FORMULA: crea o aggiorna i campi usando una o più formule per eseguire delle operazioni (logiche, matemaiche, spaziali, testo, finanziarie, statistiche, conversioni, test, data e ora, ecc, ecc, ecc…).

GENERATE ROWS: crea nuove righe di dati da zero o in base ai dati a disposizione nel workflow. Utile per creare sequenze di numeri o date o per creare nuove righe in base a condizioni specificate dall’utente con formule.

IMPUTATION: aggiorna valori numerici specifici con i valori selezionati. Utile per sostituire infomazioni mancanti (NULL values) con valori come la media o la mediana, anziché uno zero. Migliora l’accuratezza dei risultati.

MULTI-FIELD BINNING: raggruppa campi numerci multipli in classi. Utile per le analisi predittive.

MULTI-FIELD FORMULA: crea o aggiorna campi multipli usando una singola formula.

MULTI-ROW FORMULA: crea o aggiorna un singolo campo usando come parte della formula le righe precedenti e successive.

RANDOM % SAMPLE: estrae dai dati un campione a caso pari a una certa % specificata dall’utente.

RECORD ID: crea una colonna con un numero identificativo (ID) singolo per ogni riga.

SAMPLE: permette di estrarre un campione di dati basati su diversi parametri, come ad esempio i primi N record, gli ultimi N record, 1 record ogni N, ecc, ecc, ecc….

Tile: raggruppa i dati in set/gruppi basati su range. Utili per creare classi statistiche.

UNIQUE: separa i dati in due flussi: dati duplicati e unici, basandosi su un ID univoco.

“Join”

APPEND FIELD: unisce i campi di un input con tutti i campi di un target, moltiplicando i campi dell’input per il numero di campi presenti nel target.

FIND REPLACE: cerca dei dati in una tabella di input e va a rimpiazzarli con i dati specificati che arrivano da un’altra tabella. Simile a un VLookup di Excel.

FUZZY MATCH: grazie a logaritmi che confrontano lettere e parle, identifica duplicati non indentici tra i dati. Utile per normalizzare numeri di telefono, nomi scritti in modo diverso…

JOIN: combina 2 flussi di dati basati su un dato in comune. Restiuisce sia le unioni eseguite che i dati provenienti da destra e/o da sinistra che non sono stati combinati.

JOIN MULTIPLE: come il join, ma permette di unire più di 2 tabelle. Restituisce solo i dati uniti.

MAKE GROUP: prende le relazioni tra i dati e li unisce in gruppi basati sulle relazioni. Utilizzato principalmente in coppia con il Fuzzy Match.

UNION: unisce due o più tabelle una sotto l’altra, in base ai dati contenuti nelle colonne.

“Parse”

DATE TIME: converte il formato di date e orari in una vasta tipologia di formati diversi.

REGEX: crea nuovi campi, pulisce, rimpiazza o verifica stringhe di dati riconducibili ad espressioni regolari.

TEXT TO COLUMN: Divide il testo in colonne, utilizzando dei caratteri delimitatori.

XML PARSE: Legge la struttura di un file XML e restituisce singoli campi.

“Transform”

ARRANGE: permette di riposizionare manualmente i dati. Usato principalmente per la presentazione dei data.

COUNT RECORDS: conta quanti record passano dal tool.

CROSS TAB: trasforma le colonne in righe, raggruppando i dati in sommari se necessario.

RUNNING TOTAL: calcola le somme cumulative.

SUMMARIZE: crea dei sommari, raggruppando i dati in base ai campi e creando calcoli matamatici, statistici, conteggi, calcoli spaziali, concatenazione ei testi, ecc, ecc, ecc…