Insights / Blog

Alteryx: Cache and Run

Training_TIL

Siamo onesti, aspettare anche solo un paio di minuti per rieseguire un flusso di lavoro è noioso (sognate una funzione di cache?!?); come posso fare a velocizzare la progettazione dello script senza dover salvare mille file di output che saranno prontamente sostituiti in un input tool per lanciare “pezzi” di flusso? Tutto questo è stato ingegnerizzato dagli sviluppatori Alteryx attraverso il comando “Cache and Run”, presente dalla versione 2018.3.

Con la nuova funzione posso salvare o mettere nella cache i dati in un determinato punto del mio flusso di lavoro, senza doverlo lanciare dall’inizio. Particolarmente utile quando lavoriamo su processi che richiedono lunghi tempi di esecuzione, come pulizia dei dati, join, clustering.

Cos’è la cache?

Con il termine cache in informatica si indica un’area di memoria estremamente veloce, ma solitamente di un basso ordine di grandezza di capacità, il cui scopo è di velocizzare l’esecuzione dei programmi.

Come funziona?

Per creare un punto di memorizzazione nella cache, non dovrai fare altro che:

  1. Posizionarti sull’ultimo componente del flusso che desideri includere nella cache
  2. Fare click con il tasto destro e selezionare “Cache and Run Workflow”. Il tuo flusso di lavoro si aggiornerà così velocemente che non avrai neanche tempo per andare a prenderti un caffè!

Cache and Run workflow

Come possiamo notare (dalla figura sottostante), il flusso viene eseguito, attorno a ogni tool compare una sorta di contenitore che sembra un cubettoi di ghiaccio, fino allo step che hai scelto come punto di caching; questo apparirà all’interno di una bolla blu. Ciò indica che i dati sono stati memorizzati nella cache.

Accanto ad ogni componente vedrai comparire anche un’etichetta con il numero di records e la dimensione dei dati.

tools grigi e blu

Al successivo avvio del flusso di lavoro, questo ripartirà prendendo i dati dal file temporaneo della cache anziché ripartire dall’inizio.

Quando riprendi il processo di lavoro, noterai che ci vuole molto meno tempo per l’esecuzione, questo perché Alteryx non esegue di nuovo l’intero flusso di lavoro. I dati vengono memorizzati nella cache fino allo strumento di select (in questo caso, o comunque fino al tool selezionato colorato di blu).

punto di cache

Il flusso di lavoro ripartirà appunto da questo punto.

Tools che non permettono di utilizzare la cache

Esistono due regole generali per stabilire se un tool è idoneo per la memorizzazione nella cache:

  • Lo strumento deve avere un solo output (ad esempio non è possibile utilizzarla con le Join, molti ma non tutti gli strumenti predittivi, l’estensione R e Python);

tools con n>1 output

  • Lo strumento non deve essere in una posizione “circolare”. Ciò che si intende per “cerchio” è la condizione in cui l’output di un tool viene combinato con un flusso di un componente diverso, creando una sorta di cerchio formato dai connettori. L’immagine sotto ci aiuta a capire meglio di cosa stiamo parlando.

tools circolari

Ora che sei esperto dei limiti del caching del flusso di lavoro, dovresti essere in grado di sviluppare nuovi flussi di lavoro e testare e modificare i processi più velocemente che mai. Ma ricordati che la memorizzazione nella cache viene cancellata quando un flusso di lavoro viene chiuso.

Ricordiamoci inoltre che è possibile andare a creare più punti di caching all’interno dello stesso flow, come nell’immagine sottostante.

Direi che ho concluso il mio blog! Continuate a seguirmi sui portali che trovate ai link sottostanti o continuare a leggere i miei blog per avere altre news sulle nuove features di Alteryx o Tableau; Twitter, LinkedIn, Tableau Public

[button URL=”http://www.tableau.com/partner-trial?id=45890″]Download Tableau[/button] [button URL=”https://www.theinformationlab.it/newsletter-2/”]Iscriviti alla newsletter[/button]

Blog
iot data visualization

IoT data visualization: cos’è e come può impattare sul tuo business

Negli ultimi anni si sta diffondendo un interessante approccio alla lettura dei dati raccolti da...

Blog
product data management

Product data management: perché è cruciale nel 2024

Il Product Data Management sta consolidando il suo ruolo all’interno di tutte le attività e...