Insights / Blog

Data Wrangling con Trifacta

isabella renzetti
18/05/2022

Blog

18/05/2022
Blog

Dedichiamo il primo blog post di questa serie all’argomento del Data Wrangling con Trifacta.

Se non l’hai ancora fatto leggi l’articolo introduttivo su Trifacta.

Per Data Wrangling intendiamo il processo di preparazione e pulizia dei dati, ovvero la trasformazione dei dati che provengono da diversi datasources in un formato adatto all’analisi, visualizzazione e decision making.

La preparazione dei dati è un processo critico in quanto contribuisce a garantire e migliorare la qualità dei dati. Nel momento infatti in cui si tratta di effettuare il monitoraggio dei dati su Trifacta (o data warehouse downstream), questi risultano già abbastanza “puliti” e pronti per essere elaborati facilmente.

La qualità dei dati si basa infatti su una molteplicità di dimensioni, che possono essere riassunti in 6 pilastri principali:

Coerenza: se i dati sono coerenti e privi di contraddizioni (ad esempio vogliamo porci le seguenti domande: i dati sono diversi tra due sistemi? Le mie date iniziali sono precedenti alle mie date finali?).
Precisione: i dati sono privi di errori e rappresentano oggetti del mondo reale (es. il nome dell’azienda è scritto correttamente?).
Completezza: i dati necessari sono tutti presenti (es. ho tutti gli attributi necessari per un record specifico?).
Conformità: i dati seguono la sintassi e sono uniformi tra le diverse fonti di dati (i miei records utilizzano la stessa unità di misura?).
Validità: i dati sono conformi alle regole di business (es. i valori dell’intervallo sono definiti?).
Tempestività: i dati sono disponibili e aggiornati (es. sono in possesso degli ultimi record?).

Data Wrangling con Trifacta

Grazie alla sua interfaccia, facile ed intuitiva, il processo di Data Wrangling con Trifacta si presenta semplice e veloce. Diversamente dagli approcci tradizionali, infatti, che prevedono l’esecuzione di codice in modo incrementale, seguito da una fase di testing e validazione, con Trifacta è possibile analizzare i dati tramite un semplice workflow.

Possiamo individuare quattro fasi principali (ognuna delle quali a sua volta contiene alcuni elementi principali) tramite cui viene costruito un flow:

1. Connessione ed esplorazione

Flow: un flusso è utilizzato per organizzare gli oggetti rilevanti intorno alla preparazione dei dati nel flusso di lavoro. Permette di visualizzare le relazioni tra i dataset e come sono collegati durante il processo di pulizia dei dati. In altre parole, un flusso è un contenitore che racchiude un insieme di dataset importati correlati, receipes e oggetti di output.
Dataset importato: oggetto che agisce come puntatore al datasource. È creato quando si specificano uno o più file o tabelle che si vogliono andare a leggere attraverso una connessione.

2. Trasformazione

Recipe: una “recipe” è una sequenza di passaggi che trasforma uno o più dataset in un output desiderato. Le “recipes” sono costruite usando un’interfaccia interattiva su un sample dataset. Quando viene eseguito un job, i passaggi della recipe vengono applicati nell’ordine elencato al dataset importato per generare l’output.
Sample: si tratta di un subset dell’intero dataset. Quando si interagisce con i dati nell’interfaccia, si osserva solamente una porzione dell’intero dataset, che consente di visualizzare un’anteprima dei cambiamenti fatti in tempo reale.

3. Ottenimento dei risultati

Output: si tratta di un set definito dagli utenti di files o tabelle. È quel posto in cui i risultati vengono scritti dopo che un job eseguito su una recipe è stato completato. Ogni recipe può avere molteplici outputs.
Job: consiste nell’azione di esecuzione degli steps di trasformazione, che sono stati costruiti nella recipe al fine di generare il dataset desiderato.

4. Automazione

Schedule: consente di automatizzare il flow per eseguire i jobs in modo puntuale.
Plan: permette di collegare diversi flows attraverso logiche complesse.

Per ulteriori domande su Trifacta vi invitiamo a contattarci all’indirizzo: info@theinformationlab.it

Speriamo che questo articolo vi abbia incuriosito e che continuiate a seguire il nostro blog.

Alla prossima!

Blog

16/07/2026

Implementare il Model Context Protocol in azienda

Dopo aver tracciato, nel nostro precedente appuntamento, le coordinate fondamentali del Model Context Protocol (MCP)...

Scopri di più

Blog

08/07/2026

Data Analytics Automation: L’Efficienza come Motore del Valore Strategico

Nell’attuale era della complessità informativa, caratterizzata da una produzione di dati senza precedenti, la velocità...

Scopri di più

News

Industry

Role

Size

Industry

Role

Size

Industry

Role

Size

Other Technologies

Other Technologies

Other Technologies

Approfondimenti

Blog

News

Industry

Role

Size

Industry

Role

Size

Industry

Role

Size

Other Technologies

Other Technologies

Other Technologies

Approfondimenti

Blog

Data Wrangling con Trifacta

Data Wrangling con Trifacta

1. Connessione ed esplorazione

2. Trasformazione

3. Ottenimento dei risultati

4. Automazione

Implementare il Model Context Protocol in azienda

Data Analytics Automation: L’Efficienza come Motore del Valore Strategico

Insights

Scopri come far crescere la tua azienda e sviluppare i tuoi servizi

Insights

Blog

Insights

Library

Other Technologies

Insights