Insights / Blog

Snowflake Summit 2022: Keynote Intro

snowflake-summit-2022

Ciao e bentornatə nel nostro periodico appuntamento sul blog di The information Lab.

Oggi dedicheremo il nostro blog post allo Snowflake Summit 2022, ovvero la conferenza annuale di Snowflake che si è svolta a Las Vegas dal 13 al 16 Giugno.

Alcuni consulenti di The Information Lab Italia hanno avuto la possibilità di partecipare di persona e assistere a tutti gli aggiornamenti annunciati durante la conferenza.

Se non hai avuto modo partecipare o se vuoi riguardare alcune delle sessioni, puoi rivedere gli interventi più significativi tramite canale Youtube.

Novità principali dello Snowflake Summit 2022 

L’inizio della conferenza è stato caratterizzato da un grande entusiasmo ed eccitazione, in particolare per gli interventi durante il Keynote iniziale.

Sono saliti sul palco il CEO di Snowflake Frank Slootman e i cofondatori Benoit Dageville e Christian Kleinerman per rivelare una serie di annunci che promettono un forte impatto nell’ecosistema della gestione dati.

Core Platform 

Gli annunci relativi al core della piattaforma sono stati presentati da Allison Lee, il Senior Director dell’Engineering e riguardano miglioramenti a livello di performance, tra cui:

  • Calcolo mediamente più veloce del 10% su AWS
  • Prestazioni più veloci del 10% per gli heavy workloads, con alcuni workloads di grandi dimensioni che mostrano un miglioramento fino al 40%
  • Data Warehouse 5XL e 6XL per AWS in anteprima privata e prossimamente per Azure in anteprima privata
  • Ricerche 5 volte più veloci sulle mappe come parte del Search Optimization Service

Financial Governance

Gli annunci relativi alla financial governance aiuteranno i consumatori ad allocare meglio e a monitorare la spesa per le risorse

Resource Groups (o gruppi di risorse) – permetteranno di selezionare un oggetto che consuma risorse e di assegnare a questi gruppi un budget.

È possibile impostare un limite massimo, in modo che le risorse non superino il budget previsto e ricevere una notifica su come le risorse si stanno muovendo rispetto alla soglia concordata.

Queste nuove funzioni saranno anch’esse disponibili in anteprima privata nelle prossime settimane.

Governance 

Durante il Keynote si è poi parlato di business continuity in arrivo nel data cloud. Nonostante Snowflake prevedesse già da 3 anni quella che viene chiamata data replication, ora i clienti saranno in grado di eseguire il backup e conservare le informazioni su utenti, ruoli, policy di rete e tutta una serie di impostazioni aggiuntive che fanno parte dell’account Snowflake.

Questo include anche le risorse esterne, grazie a una nuova funzione chiamata pipeline replication.

Forse ancora più interessante è la nuova funzione delle policy basate sulle maschere (o masked based). Questa funzione sfrutta le caratteristiche delle policy e delle maschere introdotte da Snowflake qualche anno fa. Ora i clienti possono creare un criterio per mascherare o eliminare parzialmente le colonne che potrebbero contenere informazioni sensibili. Tali criteri possono ora essere applicati ai tag assegnati a più colonne. Anche questo sarà presto disponibile in anteprima privata.

Miglioramenti all’accesso dei dati 

Accedere ai dati giusti in modo rapido ed efficiente è fondamentale per migliorare la produttività degli sviluppatori, costruire modelli di ML con maggiore precisione e fornire applicazioni più potenti. I miglioramenti di Snowflake consentono ai team di sperimentare più velocemente, con più dati a portata di mano, aumentando le capacità di programmazione e approfondendo le conoscenze degli utenti.

Le nuove innovazioni includono:

  • Streaming Data Support consente di ****eliminare i confini tra pipeline di streaming e pipeline batch grazie a Snowpipe Streaming, ora in anteprima privata, per l’ingestione serverless di dati in streaming. Inoltre saranno disponibili le Materialized Tables, attualmente in fase di sviluppo, che rendono semplice la trasformazione dichiarativa dei dati in streaming.
  • Apache Iceberg Tables. Secondo la descrizione riportata sul sito web, Iceberg è un potente formato di file per tabelle analitiche di grandi dimensioni. Iceberg porta l’affidabilità e la semplicità delle tabelle SQL ai big data, consentendo a motori come Spark, Trino, Flink, Presto e Hive di lavorare in modo sicuro con le stesse tabelle allo stesso tempo.
  • External Tables per On-Premises Storage, ora in anteprima privata, consente agli utenti di accedere ai propri dati in sistemi di storage on-premise come Dell Technologies, Pure Storage e altri da Snowflake, in modo da poter beneficiare dell’elasticità del Data Cloud senza spostare i dati.

Python in Snowpark 

Uno degli annunci più celebrati è stato il lancio di Snowpark per Python, ora in anteprima pubblica.

L’introduzione di Snowpark – il framework per sviluppatori di Snowflake – ha messo a disposizione ai data Scientists, data Engineers e sviluppatori di applicazioni un ampio ambiente di programmazione per costruire pipeline scalabili, applicazioni e flussi di lavoro di Machine Learning direttamente in Snowflake, utilizzando i loro linguaggi e librerie preferite.

Snowflake ha quindi esteso ulteriormente ciò che gli utenti possono costruire grazie a Snowpark for Python, rendendo il ricco ecosistema di pacchetti e librerie open-source di Python perfettamente accessibile nel Data Cloud.

Grazie a una Sandbox Python altamente sicura, Snowpark for Python viene eseguito sulla stessa infrastruttura di calcolo delle pipeline Snowflake e delle applicazioni scritte in altri linguaggi. Questo fornisce a Snowpark for Python gli stessi vantaggi di scalabilità, elasticità, sicurezza e conformità che gli sviluppatori si aspettano quando costruiscono in Snowflake.

Ulteriori aggiornamenti che completano Snowpark per Python includono:

  • Snowflake Worksheets for Python, ora in anteprima privata, consente agli utenti di sviluppare pipeline, modelli ML e applicazioni direttamente su Snowsight – la nuova interfaccia utente di Snowflake – utilizzando Python e le API DataFrame di Snowpark for Python, semplificando lo sviluppo con il completamento automatico del codice e la possibilità di produrre logica personalizzata in pochi secondi.
  • L’integrazione Streamlit di Snowflake, attualmente in fase di sviluppo, porta la costruzione di applicazioni basate su Python direttamente in Snowflake, consentendo agli utenti di costruire App interattive e di condividere, iterare e collaborare in modo sicuro con i propri team aziendali per aumentare l’impatto dello sviluppo.
  • Large Memory Warehouses, attualmente in fase di sviluppo, consente agli utenti di eseguire in modo sicuro operazioni memory-intensive, come il feature engineering e il training di modelli su grandi dataset, utilizzando le più diffuse librerie open-source Python disponibili attraverso l’integrazione con Anaconda.
  • SQL Machine Learning, a partire dalla previsione delle serie temporali, ora in anteprima privata, consente agli utenti di SQL di incorporare previsioni basate sul ML nelle loro attività quotidiane di business intelligence e analisi per migliorare la qualità e la velocità delle decisioni.

Unistore e Hybrid Tables 

Snowflake ha trasformato ancora una volta la gestione e l’analisi dei dati grazie al workload Unistore. Se infatti per decenni, i dati transazionali e analitici sono rimasti in qualche modo separati, limitando in modo significativo la velocità con cui le organizzazioni potevano sviluppare efficacemente le loro attività, con Unistore, possono ora utilizzare un unico set di dati unificato per analizzare insieme i dati transazionali e analitici in tempo quasi reale.

Ma che cos’è Unistore? Unistore è un nuovo workload che permette agli utenti di disporre di un’unica piattaforma unificata, sia per i dati transazionali che per quelli analitici.

Grazie a Unistore quindi non è più necessario avere sistemi differenti e soluzioni ridondanti per gestire tutto l’insieme di dati, ma è possibile accedere da un unico luogo. I team possono quindi creare applicazioni di tipo transazionale direttamente su Snowflake, eseguire query analitiche in tempo reale (sui dati transazionali), lavorando secondo un approccio coerente alla governance e alla sicurezza aziendale.

E questo è tutto dallo Snowflake Summit 2022

Per ulteriori domande su Snowflake e le feature presentate durante lo Snowflake Summit 2022 ti invitiamo a contattarci all’indirizzo: info@theinformationlab.it

Speriamo che questo articolo ti abbia incuriosito e che continui a seguire il nostro blog.

Alla prossima!

Tags
Blog
product data management

Product data management: perché è cruciale nel 2024

Il Product Data Management sta consolidando il suo ruolo all’interno di tutte le attività e...

Snowflake
Snowflake Cloud Services

Snowflake Cloud Services: Quali sono e a cosa servono

Quando parliamo di Snowflake Cloud Services ci riferiamo a tutta una serie di servizi e...