Ecco altre due novità della versione 10 di Tableau: il clustering (la possibilità di suddividere i dati in gruppi omogenei che contengono la stessa tipologia di dati) e l’highlight dei dati.
Clustering
In statistica il clustering o (analisi dei gruppi in italiano) è un insieme di tecniche di analisi volta alla selezione e raggruppamento di elementi omogenei in un insieme di dati, basati sulla somiglianza tra gli elementi.
Ora non scenderemo nel dettaglio di cosa sia un’analisi di clustering, vi farò solo un semplice esempio per darvi un’idea.
Ho creato una mappa che colora gli stati in base alla popolazione da 0 a 14 anni. In color oro gli stati con poche persone che rientrano in quella fascia d’età, in viola gli stati con molte persone in quella fascia d’età (in Tableau 10 hanno anche aggiunto nuovi preset di colori):
In oro ho le zone con pochi giovani, in viola ho le zone con tanti giovani.
Si potrebbe fare un’analisi di clustering che mi raggruppi tutti gli stati in 2 categorie/gruppi: quelli con tanti giovani e quelli con pochi giovani.
Se andiamo nella tab “Analytics”, oltre alle solite reference line, box blot, average line… avremo anche “Cluster“. Possiamo trascinarlo in mezzo al grafico e si aprirà una finestrella per scegliere quanti cluster/gruppi vogliamo creare (se non mettiamo niente, sceglie in automatico Tableau) e un box per inserire le misure che vogliamo utilizzare come parametro di uguaglianza tra i gruppi.
Io ho scelto 2 cluster e la popolazione da 0-14 anni.
Il risultato è questo:
Tableau ci mette automaticamente la dimensione dei cluster creati in “Colors”.
Se guardiamo i due cluster creati, quello blu corrisponde agli stati color oro, quindi “Cluster pochi giovani”. Quello arancione corrisponde agli stati che prima erano viola, quindi “Cluster tanti giovani”. La Groenlandia è stata esclusa (rosa) perché evidentemente non ha abbastanza dati per l’analisi. Abbiamo raggruppato gli stati in due categorie: con tanti o pchi giovani.
In questo caso è semplice capire cosa contiene ogni cluster. Ma se di misure ne mettiamo più di una? Come facciamo a capire che metodo è stato usato e cosa accomuna tutti gli stati che rientrano nello stesso cluster?
Il metodo è il K-means, delle k-medie. E per sapere come sono stati creati i cluster, e cosa contengono, possiamo cliccare sulla dimensione del cluster e farci descrivere il modello.
Note:
- l’analisi di clustering non è disponibile nell’editor web
- non si può usare se ti stai connettendo con un cubo, se stai usando una dimensione su cui c’è un blending, se non ci sono dimensioni che spezzano una view aggregata
- non si possono usare come campi per il clustering:
- table calculation
- calcoli ad-hoc fatti direttamente nella view
- latitudine e longitudine generata automaticamente
- gruppi, set, bin e parametri
- date
- measure name/measure value
Highlight dei dati
L’highlight dei dati non è in realtà una grande novità. Già nella versione 9 di Tableau è possibile fare un highlight, un’evidenziazione dei dati, cliccando sugli elementi di una legenda:
Cosa che però ci obbliga a inserire una legenda magari non strettamente necessaria. Motivo per cui è stata implementata la funzionalità “Highlight”. Sarà possibile cliccare su una dimensione e scegliere “Show Highlighter”.
Verrà mostrato nella colonna di destra un evidenziatore, che ci permette di digitare quello che vogliamo evidenziare o di sceglierlo dal menù a tendina: