Insights / Blog

Data Wrangling con Trifacta

Data-Wrangling-Trifacta

Dedichiamo il primo blog post di questa serie all’argomento del Data Wrangling con Trifacta.

Se non l’hai ancora fatto leggi l’articolo introduttivo su Trifacta.

Per Data Wrangling intendiamo il processo di preparazione e pulizia dei dati, ovvero la trasformazione dei dati che provengono da diversi datasources in un formato adatto all’analisi, visualizzazione e decision making.

La preparazione dei dati è un processo critico in quanto contribuisce a garantire e migliorare la qualità dei dati. Nel momento infatti in cui si tratta di effettuare il monitoraggio dei dati su Trifacta (o data warehouse downstream), questi risultano già abbastanza “puliti” e pronti per essere elaborati facilmente.

La qualità dei dati si basa infatti su una molteplicità di dimensioni, che possono essere riassunti in 6 pilastri principali:

  • Coerenza: se i dati sono coerenti e privi di contraddizioni (ad esempio vogliamo porci le seguenti domande: i dati sono diversi tra due sistemi? Le mie date iniziali sono precedenti alle mie date finali?).
  • Precisione: i dati sono privi di errori e rappresentano oggetti del mondo reale (es. il nome dell’azienda è scritto correttamente?).
  • Completezza: i dati necessari sono tutti presenti (es. ho tutti gli attributi necessari per un record specifico?).
  • Conformità: i dati seguono la sintassi e sono uniformi tra le diverse fonti di dati (i miei records utilizzano la stessa unità di misura?).
  • Validità: i dati sono conformi alle regole di business (es. i valori dell’intervallo sono definiti?).
  • Tempestività: i dati sono disponibili e aggiornati (es. sono in possesso degli ultimi record?).

Data Wrangling con Trifacta

Grazie alla sua interfaccia, facile ed intuitiva, il processo di Data Wrangling con Trifacta si presenta semplice e veloce. Diversamente dagli approcci tradizionali, infatti, che prevedono l’esecuzione di codice in modo incrementale, seguito da una fase di testing e validazione, con Trifacta è possibile analizzare i dati tramite un semplice workflow.

Possiamo individuare quattro fasi principali (ognuna delle quali a sua volta contiene alcuni elementi principali) tramite cui viene costruito un flow:

1. Connessione ed esplorazione

  • Flow: un flusso è utilizzato per organizzare gli oggetti rilevanti intorno alla preparazione dei dati nel flusso di lavoro. Permette di visualizzare le relazioni tra i dataset e come sono collegati durante il processo di pulizia dei dati. In altre parole, un flusso è un contenitore che racchiude un insieme di dataset importati correlati, receipes e oggetti di output.
  • Dataset importato: oggetto che agisce come puntatore al datasource. È creato quando si specificano uno o più file o tabelle che si vogliono andare a leggere attraverso una connessione.

2. Trasformazione

  • Recipe: una “recipe” è una sequenza di passaggi che trasforma uno o più dataset in un output desiderato. Le “recipes” sono costruite usando un’interfaccia interattiva su un sample dataset. Quando viene eseguito un job, i passaggi della recipe vengono applicati nell’ordine elencato al dataset importato per generare l’output.
  • Sample: si tratta di un subset dell’intero dataset. Quando si interagisce con i dati nell’interfaccia, si osserva solamente una porzione dell’intero dataset, che consente di visualizzare un’anteprima dei cambiamenti fatti in tempo reale.

3. Ottenimento dei risultati

  • Output: si tratta di un set definito dagli utenti di files o tabelle. È quel posto in cui i risultati vengono scritti dopo che un job eseguito su una recipe è stato completato. Ogni recipe può avere molteplici outputs.
  • Job: consiste nell’azione di esecuzione degli steps di trasformazione, che sono stati costruiti nella recipe al fine di generare il dataset desiderato.

4. Automazione

  • Schedule: consente di automatizzare il flow per eseguire i jobs in modo puntuale.
  • Plan: permette di collegare diversi flows attraverso logiche complesse.

Per ulteriori domande su Trifacta vi invitiamo a contattarci all’indirizzo: info@theinformationlab.it

Speriamo che questo articolo vi abbia incuriosito e che continuiate a seguire il nostro blog.

Alla prossima!

Blog
tableau pulse

Tableau Pulse: La GeneAI sbarca su Tableau

Tableau Pulse, introdotto da Salesforce come parte della suite Tableau AI, sfrutta l’intelligenza artificiale generativa...

Blog
banking analytics

Banking analytics? Il solo modo per prendere decisioni informate

L’evoluzione del settore bancario passa dai banking analytics. Gli istituti finanziari ogni giorno gestiscono migliaia...