Bentornati al nostro periodico appuntamento con Pillole di SnowFlake!
Dopo aver visto insieme perché scegliere Snowflake e come ottimizzare i costi di Snowflake con Alteryx e Tableau, andiamo ad analizzare come preparare i dati con Snowflake.
Mostreremo, infatti, come questa piattaforma può essere utilizzata per preparare i vostri dati e che sintassi usare per ottenere l’output desiderato. Questo post si concentrerà sui passaggi eseguiti per preparare i dati all’interno di Snowflake.
Sapere quali domande fare è la chiave
In questa analisi, i dati di riferimento appartengono ad un’agenzia di editoria fittizia in cui, tramite un Database composto da diverse tabelle, vengono catalogati tutti i libri venduti. Il nostro obiettivo sarà quello di andare a vedere se i libri premiati sono anche i più venduti e quelli con le recensioni più alte.
Come preparare i dati
Per preparare i dati con Snowflake, per prima cosa, dopo esservi loggati, accertatevi di aver selezionato il Warehouse, il Database e lo Schema che volete interrogare: trovate il menù riassuntivo in alto a destra sotto il vostro nome utente. Altrimenti potrete enunciarlo nella Query stessa.
Usando il menu sulla sinistra potrete andare nello schema in cui si trovano le tabelle e, selezionando quella interessata, sarà possibile vederne i dettagli in basso a sinistra e la preview cliccando su “Preview Data”. In questo modo potremo farci un’idea delle chiavi di Join necessarie per unire le varie parti di informazione.
Dopo una breve anteprima delle tabelle che ci serviranno possiamo iniziare a scrivere la nostra query: tramite il SELECT chiameremo partendo dal nome_schema.nome_tabella, le colonne che ci interessano e, come nel caso più in basso, se vogliamo fare un’aggregazione (come per esempio la media delle recensioni) dovremo chiamare la formula tramite un AVG() con dentro un’ulteriore formula che converta il campo originariamente STRINGA in NUMERICO, riassegnandogli successivamente un alias usando la formula AS.
Dopodiché dovremo dire al Software da dove prendere i dati e tramite il FROM citeremo la prima tabella di origine che successivamente, tramite JOIN, andremo a unire con le altre 4 interessate: BOOK, AWARD, RATINGS e CHECKOUTS.
Infine possiamo filtrare la nostra richiesta tramite WHERE richiedendo di vedere solo le righe in cui le copie vendute superano le 20000 copie e le cui recensioni sono superiori a 3.5.
Chiudiamo raggruppando per tutte le colonne che ci interessano e ordiniamo per il numero di copie vendute
I dati, una volta eseguita la query, saranno visibili nel panello dei risultati in basso, insieme a ulteriori info riguardanti la query e la possibilità di fare il download della tabella.
Per ulteriori domande su Snowflake vi invitamo a contattarci all’indirizzo:
info@theinformationlab.it
Speriamo che questo articolo vi abbia incuriosito e che vi abbia dato una mano a comprendere come preparare i dati con Snowflake.
Vi diamo appuntamento alla settimana prossima con ulteriori consigli.
Stay tuned! ❄️