Abbecedario BI: parte seconda, glossario
Big Data
Nel 2015, qualsiasi entità che afferisca al dominio concettuale dell’analisi dei dati. Novelli Dulcamara, i Big Data risolveranno i problemi del traffico, della sanità, dell’ambiente. Per adesso, certamente, permettono a pochi di controllare molti sul Web. Tutti quelli che ieri non sapevano bene cosa fosse la Business Intelligence, oggi non sanno bene cosa siano i Big Data, però è di tendenza parlarne. In realtà, insieme di tecniche e di tecnologie (per lo più in divenire) non relazionali (noSQL) per gestire l’estrema numerosità e/o variabilità e/o varietà delle informazioni a disposizione.
Business Intelligence (BI)
In italiano: comprensione della realtà. Al di là della moltitudine di nomi e di sigle, di prodotti e di slogan, la Business Intelligence è quell’insieme di tecniche e di tecnologie che consente di rendere disponibile il patrimonio di conoscenza contenuto nei dati e che permette conseguentemente di prendere delle decisioni consapevoli. Per quanto il termine Business faccia pensare agli affari dell’economia e alla finanza, occorre riferirlo più ampiamente ai fatti della realtà delle persone.
Data Cleaning
In italiano: pulizia dei dati. Attività umile, paziente, lunga, complessa che consiste nel trasformare un ammasso di dati sporchi, lacunosi, errati, in un insieme di dati utilizzabili per la Business Intelligence senza viziarne i risultati: è noto che da premesse errate discendono conseguenze errate. I dati sono sempre in partenza sporchi, lacunosi, errati, anche se non esiste cliente che non dichiari che i suoi dati sono puliti, completi, corretti.
ETL (Extraction, Transformation, Loading)
In italiano: estrazione, trasformazione, caricamento. Fatto 100 un progetto di Business Intelligence, 25 sono le attività di progettazione, 10 sono le attività di realizzazione delle interfacce, tutto il resto è pulizia, estrazione, trasformazione, caricamento dei dati in strutture ben progettate. Ma è difficile spiegarlo: quanti in un’ora di leggiadro balletto, vedono i mesi di prove e di fatica?
Cubo
Struttura logica e fisica che all’interno di un data warehouse corrisponde ad un fenomeno (o fatto) oggetto di analisi: il cubo contiene i valori numerici delle metriche che misurano il fenomeno. Tali valori delle metriche (variabili dipendenti) sono visualizzabili in funzione dei valori delle dimensioni di analisi (variabili indipendenti) del fenomeno. Non bisogna confondere un cubo con un datamart, come avviene nelle conversazioni da “Bar BI” (anche se ad un cubo può corrispondere un datamart)
Datamart
In italiano: il mercato dei dati. Un datamart (o data mart) è un sottoinsieme dei dati presenti in un data warehouse, caratterizzati da una qualche qualità aggregante (ad esempio appartengono tutti ad una specifica area, funzionale o organizzativa, di un’azienda). La presenza fisica (e non solo logica) di datamart non è necessaria in un data warehouse, ma può essere utile per inserire un livello di semplificazione oppure per permettere una lavorazione incrementale del data warehouse. Non bisogna confondere un datamart con un cubo, come avviene nelle conversazioni da “Bar BI” (anche se ad un datamart possono corrispondere uno o più cubi).
Data Mining
In italiano: scavo nei dati, indagine sui dati. Scopo del Data Mining è quello di ricercare, in uno specifico insieme di dati, anche molto numeroso, particolari regolarità, granularità, relazioni, che con la loro presenza rivelino caratteristiche non altrimenti percepibili del fenomeno al quale i dati appartengono. Gli strumenti teorici e tecnici per il Data Mining sono per lo più metodi statistici e numerici. Business Intelligence e Data Mining afferiscono quindi allo stesso dominio dell’analisi dei dati, ma sono poi molto diverse per finalità e tecniche e non debbono essere confuse.
Data Warehouse (DWH)
In italiano: magazzino di dati. Base di dati, disegnata e realizzata in base alle specifiche esigenze di ogni progetto, che contiene i dati acquisiti e resi disponibili da un sistema di Business Intelligence. Semplificando al massimo, un sistema di Business Intelligence, nel suo complesso, carica il data warehouse con i dati presi (e puliti e trasformati) dal mondo oggetto di indagine e rende i dati contenuti nel data warehouse disponibili agli utenti del sistema, secondo modalità ed in formati utili. Un data warehouse è quindi una parte (essenziale) di un sistema di Business Intelligence, anche se spesso, per sineddoche, con la parte si indica il tutto.
DSS (Decision Support System)
In italiano: sistema di supporto alla decisione. Espressione ormai arcaica con cui un tempo si designavano i sistemi di Business Intelligence. Espressione però da non dimenticare per non perdere di vista l’obiettivo reale di un sistema di analisi dei dati: quello di fornire misure ed informazioni esatte per prendere decisioni che poi spettano alle persone.
Interfaccia
Porzione di software che permette il collegamento tra sistemi o sottosistemi differenti. Nel caso uno dei sistemi collegati sia un essere umano più o meno esperto, per interfaccia si intende ciò che l’essere umano, l’utente, vede e quindi percepisce del sistema complessivo. Nel caso di un sistema di Business Intelligence possono essere tabelle, diagrammi, oggetti grafici più o meno leggibili ed accattivanti. Una delle difficoltà principali del progettista di un sistema di Business Intelligence è quella di spiegare all’utente che l’interfaccia sta al sistema complessivo più o meno come la carrozzeria sta all’automobile.
VVV (Volume, Velocity, Variety)
In italiano: quantità, velocità [di produzione], varietà [di tipi e formati][dei dati]. Se preceduti dall’aggettivo “grande” sono i tre sostantivi che definiscono le qualità dei dati potenzialmente gestibili come “Big Data”. Non è necessario che i dati siano “grandi” per ognuna delle tre qualità, anche una sola grandezza può motivare il ricorso a tecniche e tecnologie “non relazionali” (noSQL).