<< Back

Accedere ai dati open con Snowflake Data Marketplace (e sviluppi futuri)

Ciao a tutti!

Rieccoci al nostro appuntamento settimanale della rubrica su Snowflake 🙂

Continuiamo oggi la panoramica sul Summit Annuale di Snowflake che si è tenuto lo scorso giugno. Alcuni dei nostri consulenti vi hanno partecipato e ci hanno raccontato che cosa è successo.

Oggi vi parleremo del Marketplace. Ma partiamo con ordine: che cos’è anzitutto il Data Marketplace di Snowflake?

Snowflake Data Marketplace

Si tratta di un’area all’interno della piattaforma dove è possibile cercare e acquisire nuovi dati. Come si può leggere sul sito ufficiale, ad oggi, sono presenti:

  • Circa 500 dataset,
  • Divisi in 16 diverse categorie (finanza, clima, business, salute,…),
  • Offerti da più di 140 terze parti, spesso molto rilevanti nell’industria di appartenenza: IQVIA, S&P Global Market Intelligence, o FactSet, per citarne alcuni.

Questi dati, poi, vengono continuamente aggiornati e non è necessario fare alcun processo di ETL per poterli utilizzare.

Le organizzazioni possono decidere di affacciarsi al Marketplace diventando provider e offrendo due versioni dei propri dataset: una basic e gratuita per dare ai consumer un’idea generale  del tipo di dati raccolti; una seconda, a pagamento, più completa per le ottimizzazioni dei processi data-driven all’interno di un’azienda e per l’abbattimento degli information silos di un’industria.

Infine, Snowflake ha creato delle partnership ad hoc per mettere a disposizione in modalità gratuita dei database a impatto sociale positivo.

Interessanti, ad esempio, sono i dati su indici di Educazione e Povertà raccolti da Knoema, oppure i dati sul Covid-19, aggiornati ogni ora, di Starschema. Generalmente, i dati sono utilizzabili immediatamente se, nella scheda del dataset, è presente il bottone “Get Data” in alto a destra (negli altri casi si troverà “Request”).

Sempre nella scheda del dataset, sono presenti delle informazioni preliminari, utili alla scelta per un data consumer. In primis, vengono sottolineate la categoria di riferimento e le tempistiche di aggiornamenti dei dati (in questo caso quotidianamente). Poi, vengono indicati gli argomenti, i principali campi tabelle, le eventuali fonti e degli esempi di query in linguaggio SQL (ottimo per chi sa poco di database).

Inoltre, dietro ogni collaborazione fra Snowflake e i Partner c’è un contratto ben strutturato di cui si occupa 100% Snowflake liberando di ogni onere sia il data consumer che il data provider.

Vediamo nel dettaglio gli step per connettersi ai dati di nostro interesse. In questo esempio utilizzeremo i dati meteorologici mondiali giornalieri di NOAA GSOD, aggiornati quotidianamente.

Dopo aver cercato “Environment Data Atlas” o “Knoema” nel Data Marketplace si arriverà a questa schermata.

Come anticipato, cliccando “Get Data” è possibile immediatamente iniziare ad analizzare i dati. Si aprirà, infatti, la seguente finestra.

Nella WebUI, è possibile trovare il database prescelto tra le “shares”, esattamente come se fosse condiviso da un altro utente.

Infine, non è solo semplice scaricare i dati, ma anche connettersi ai maggiori strumenti di data analysis e visualization, come Alteryx e Tableau.

Alteryx è presente direttamente nella sezione Partner Connect:

Una volta selezionato Alteryx, basterà scegliere il database condiviso, cliccare su connect e iniziare a lavorare.

Per quanto riguarda Tableau, è necessario eseguire l’installazione dell’ultima versione del driver ODBC disponibile nella pagina web di Snowflake e selezionarlo tra le connessioni database disponibili.

Durante la conferenza sono state inoltre annunciate future releases – tra cui il supporto Python in merito al Marketplace. Vediamole in dettaglio nei 5 punti di seguito:

1.      Connected Industries

Non c’è più bisogno di copiare i file e spostare i dati: l’incremento stimato dei dataset disponibili grazie al data cloud è di circa il 76 %. Una possibilità interessante in arrivo è quella della TRY BEFORE YOU BUY EXPERIENCE: si valutano e poi si acquistano i dataset disponibili nel marketplace. È inoltre previsto un nuovo livello di flessibilità per l’utente, con differenti piani di pagamento. C’è la possibilità di scegliere un sistema di pagamento fisso, uno che dipende dall’utilizzo (si paga per ogni query) oppure un sistema misto.

2.      Global Governance

Al fine di evitare problemi legati alla trasformazione digitale – come la velocità di migrazione e la governance dei dati – Snowflake e Aliaton (società di governance e data analytics) si integrano per semplificare la migrazione dei dati e la governance per le imprese. Infatti, Aliaton accelera la transizione delle risorse legacy a Snowflake. Ma questa non è l’unica feature pensata per Snowflake: sarà infatti disponibile una nuova funzionalità che consentirà visualizzazioni anonime.

3.      Platform Optimization

L’ottimizzazione della trasparenza della piattaforma permette di ridurre i tempi di accesso, il che si traduce in un 30% di risparmio dei costi per immagazzinare i nuovi dati, senza intervento dell’utente nella configurazione o nella query. Vengono inoltre annunciate due caratteristiche per ora in private preview: il query acceleration service, che identifica e ridimensiona automaticamente le parti di una query che potrebbero beneficiare di risorse aggiuntive e parallelizzazione, in conseguenza, c’è un incremento di performance del 15% aggiungendo risorse computazionali e l’esperienza da amministratore per vedere l’utilizzo dei vari dipendenti.

4.   Data Programmability

Vediamo in questa sede l’elenco di caratteristiche che al momento sono in preview pubblica o privata:

  • Serveless tasks: Le risorse di calcolo di Snowflake sono utilizzate per l’automazione e la sincronizzazione dei processi di manutenzione, riducendo il carico di lavoro per i clienti. Alcune funzioni sono Clustering automatico, Servizio di ottimizzazione della ricerca, Aggiornamento automatico dei metadati delle tabelle esterne, Manutenzione delle viste materializzate, Snowpipe,Replica del database e Failover/Failback, ecc.
  • Schema detection: Fornisce lo schema appropriato per i dati semi-strutturati in modo automatico permettendovi di far generare a Snowflake un DDL per creare una tabella, una tabella esterna o una vista. Si può inoltre far creare automaticamente a Snowflake una tabella con lo schema rilevato. Tutto questo è possibile grazie a tre nuove funzioni: INFER_SCHEMA, GENERATE_COLUMN_DESCRIPTION, CREATE TABLE … USING TEMPLATE
  • Unstructured Data: Snowflake ha sviluppato un pacchetto di nuove funzionalità per facilitare ulteriormente l’utilizzo dei dati e fare in modo che gli utenti abbiano la possibilità di memorizzare, accedere e analizzare qualsiasi tipo di dati (strutturati, semi-strutturati e non strutturati). Snowflake permette la gestione di dati non strutturati, utilizzando funzioni esterne e funzioni Java, e interagendo con altre piattaforme come Azure, AWS, Google cloud, fivetran, Oracle, Informatica, ecc.

5.      Applications Powered by Snowflake

È il programma di supporto per applicazioni esterne in snowflake.

Costruire applicazioni di dati è un compito difficile, soprattutto a causa della crescita dei costi operativi, di stoccaggio e della costruzione di pipeline complesse. Infatti, tra le sfide principali che ruotano attorno alle architetture di data warehouse, troviamo la difficoltà nel risolvere operazioni complesse, limiti di competitività, prestazioni di query degradate e scaling costoso dovuto all’over-provisioning. Per risolvere le suddette sfide, la piattaforma Snowflake offre tre elementi chiave per ridurre la complessità operativa: scalabilità e concorrenza, pipeline di dati semplificate, riduzione del carico di SRE/DevOps.

In conclusione, Snowflake non è solo data warehousing, ma grazie al marketplace offre fonti di nuovi dati che possono aggiungere valore a quelli che già abbiamo e che stiamo analizzando; o possono far crescere la nostra area di ricerca e approfondimento con spunti nuovi e unici.

Ulteriori informazioni sul Data Marketplace di Snowflake si trovano qui: https://www.snowflake.com/data-marketplace/.

Per ulteriori domande su Snowflake vi invitiamo a contattarci all’indirizzo: info@theinformationlab.it

Speriamo che questo articolo vi abbia incuriosito e che continuiate a seguire il nostro blog.

Vi diamo appuntamento alla settimana prossima con alcuni consigli su come ottimizzare l’utilizzo di Snowflake con Alteryx e Tableau!

Alla prossima! ❄️

Leave a Reply

Your email address will not be published. Required fields are marked *

This site uses Akismet to reduce spam. Learn how your comment data is processed.