Tutti abbiamo sentito parlare di Big Data, ma cosa sono esattamente? In quali modi possono venir usati? Come possono generare ROI in azienda?

Per capire cosa sono i big data, facciamo un passo indietro e diamo un’occhiata al mondo intorno a noi.

Ad oggi tutti possiedono uno smartphone, e di conseguenza tutti hanno almeno un account su un social network o un qualsiasi servizio online.

Google, Facebook o Amazon sono solo tre esempi di siti a cui accediamo praticamente ogni giorno.

Ogni “movimento” che eseguiamo su queste piattaforme – come per esempio a quale post mettiamo “mi piace”, quale prodotto visualizziamo, o quanto tempo passiamo su una certa pagina – è una vera e propria pepita d’oro per le aziende.

L’unione di tutte queste piccole “pepite d’oro” forma una gigantesca miniera, meglio conosciuta con il termine “big data“.

In gergo più o meno tecnico, per “big data” intendiamo una immensa raccolta di dati che necessitano di particolari metodi per essere processati.

Una volta processati, questi dati portano alla luce numerose informazioni che possiamo usare in una sconfinata quantità di modi (come vedremo in questo articolo).

Le 3V dei Big Data

Torniamo alla definizione di prima: i big data sono dati “troppo grandi” per poter essere gestiti con i metodi tradizionali.

Per “troppo grandi” si intende che questi dati sono molto estesi in termini di volume, velocità e varietà.

Queste tre parole formano le “3V dei big data“, ma cosa sono esattamente? Vediamolo subito.

Volume

Nel 2012, IBM affermava che “il 90% dei dati nel mondo è stato creato negli ultimi due anni“.

Nel 2010, invece, l’ex CEO di Google Eric Schmidt ha annunciato il seguente fatto: ogni due giorni vengono prodotti più dati di quanti ne siano stati creati in tutta la storia dell’umanità fino al 2003.

Insomma: in un mondo dove la tecnologia è in continua evoluzione, la quantità di dati che produciamo aumenta sempre di più, e lo fa a un ritmo esponenziale.

Per “volume” nei big data intendiamo proprio questo: una enorme quantità di dati che raggiunge proporzioni al limite del comprensibile.

Per citare qualche numero:

Insomma, con i “big data” parliamo di cifre astronomiche, con un volume talmente grande che si fa fatica a immaginarlo.

Questi dati vengono generati sia dagli utenti che dalle “macchine”, e vengono raccolti in maniera completamente automatica dal software o dai sensori.

Le visite a un sito web, una telecamera su un’automobile, un termometro, un localizzatore GPS: questi e molti altri sensori sono responsabili dell’immenso volume di dati che abbiamo a disposizione.

In aggiunta, con l’avvento dell’IoT (Internet of Things), la quantità di dati che produrremo aumenterà ulteriormente, raggiungendo livelli ancora più sconcertanti.

Velocità

Nell’esempio precedente ho evidenziato le 250 miliardi di immagini archiviate da Facebook nei loro database.

È certamente un numero impressionante; ma forse è ancora più incredibile sapere che, ogni giorno, gli utenti di Facebook caricano oltre 900 milioni di foto.

Insomma: con quasi 1 miliardo di nuove immagini al giorno, 250 miliardi non sembra più un numero così tanto grande.

A questo punto diventa scontato fare un piccolo ragionamento: i dati non sono solo tanti (volume), ma crescono sempre di più, e lo fanno velocemente.

Per “velocità“, dunque, intendiamo proprio questo: la misura di quanto velocemente i dati vengono raccolti.

Se si vuole processare, archiviare, catalogare e analizzare un grande volume di dati, allora gestire la velocità diventa fondamentale.

Anche in questo caso, con l’aumentare della tecnologia, la velocità con cui nuovi dati verranno raccolti aumenterà in modo esponenziale.

Gestire in modo efficiente questa velocità è fondamentale per garantire un’analisi efficace, per battere sul tempo la concorrenza, e per rilevare la presenza di eventuali minacce informatiche.

Varietà

Come ho già sottolineato, i dati hanno origine da un grande numero di diverse fonti (sensori, fotografie, GPS, software…).

Ognuna queste fonti produce dati molto diversi tra loro, e variano da applicazione in applicazione.

Per esempio, pensate ai 500 milioni di post che vengono pubblicati ogni giorno su Twitter.

Questi post, ovviamente, non sono tutti uguali: ciascuno di loro contiene testi, immagini e video diversi l’uno dall’altro.

Oppure pensate alle 227 miliardi di email che vengono mandate ogni giorno (2,3 milioni al secondo!).

Anche nel caso in cui il corpo delle mail sia identico, ci sarebbero comunque variazioni nell’indirizzo email del destinatario, o nell’orario di invio.

Ecco quindi cosa intendiamo per “varietà“: la grande diversità di dati che possono essere generati.

C’è un piccolo punto da sottolineare: i dati provenienti da risorse come email, registrazioni vocali o documenti vari sono in larga parte non strutturati.

Per rendere chiara la distinzione, “Il mio nome è Michael” è un esempio di dato non strutturato; mentre “Nome: Michael” è un dato strutturato.

Nel primo caso capire che il mio nome è Michael richiede la comprensione di una frase; un’operazione non così tanto banale per un computer.

Nel secondo caso, invece, al campo “Nome” è assegnato in modo semplice e diretto la stringa “Michael”, e non è necessario analizzare alcuna frase.

Questo vuol dire che un punto critico della “varietà” è la necessità di classificare tutti i dati nella corretta categoria.

Big Data nella sanità

Quando parliamo di sanità, ovviamente, stiamo parlando di salvare vite umane; un argomento molto delicato e degno di approfondimento.

I big data nella sanità stanno letteralmente rivoluzionando il modo in cui identifichiamo e trattiamo le patologie.

In particolare, questa tecnologia si sta dimostrando molto efficace nel rilevare anche soltanto i più piccoli segnali di una malattia.

Individuare una patologia prima che questa si sviluppi in modo preoccupante è fondamentale per garantire cure efficaci e meno costose.

Con i big data raggiungere questo obiettivo è fattibile, in quanto permette di comprendere quanto più possibile sul paziente nel più breve tempo possibile.

Tramite l’uso di sensori biometrici e tecnologia indossabile, infatti, è possibile tenere d’occhio svariati parametri sullo stato di salute del paziente.

Sulla base di questi parametri, eseguire diagnosi personalizzate e incredibilmente efficaci con il machine learning diventa un gioco da ragazzi.

L’uso dell’analisi dei dati si sta dimostrando estremamente efficace in svariati campi: dalla diagnosi e il trattamento del cancro, fino alla cura dei neonati prematuri.

Per esempio, svariate tecniche di big data possono essere usate per monitorare il battito e il respiro di un bambino prematuro, così da rilevare eventuali problematiche.

O ancora, i big data possono decodificare intere stringe di DNA in pochi minuti, anziché in giorni, così da aiutarci a identificare il sorgere di eventuali patologie.

Molte compagnie, tra cui anche Google, Apple e Samsung, sono al lavoro per migliorare questo tipo di tecnologia, che nei prossimi anni potrà portare la qualità della sanità a livelli mai visti prima.

Persino gli smartwatch o gli orologi per il fitness, ad oggi, tengono traccia dei nostri battiti cardiaci per rilevare eventuali problematiche.

smartwatch-big-data

Big Data nella logistica e nei trasporti

Nei magazzini, le telecamere vengono già usate per tenere traccia dell’inventario, e per allertare quando determinati prodotti necessitano di venir riforniti.

I big data possono portare queste tecnologia a un livello superiore.

In quale modo? Utilizzando i dati provenienti dalla medesima telecamera, un algoritmo di machine learning può essere in grado di predire quando un rifornimento sarà necessario (prima ancora che il prodotto inizi a scarseggiare).

Quando questa tecnologia avrà raggiunto la sua maturità (in un futuro non troppo distante), i magazzini e i centri di distribuzioni potranno essere gestiti in maniera completamente autonoma, senza quindi la necessità di interventi umani.

Per quanto riguarda la logistica, invece, i big data possono enormemente migliorare l’efficienze delle compagnie che operano in questi settori.

Per esempio, raccogliendo e analizzando i dati telemetrici dai camion dei dipendenti, è possibile capire come migliorare i comportamenti alla guida, ottimizzare il tragitto, e migliorare la manutenzione dei veicoli.

Tenendo traccia del traffico o delle condizioni meteorologiche, in aggiunta, è possibile in tempo reale calcolare il tragitto ideale per ottimizzare i tempi di consegna e minimizzare i consumi.

Non dimentichiamoci poi della guida autonoma, che con ogni probabilità rivoluzionerà completamente il mondo dei trasporti del futuro.

Senza i big data non sarebbero possibili automobili a guida autonoma, o persino droni in grado di volare oltreoceano senza alcun pilota.

Big data nel retail

Il modo in cui acquistiamo prodotti si sta evolvendo rapidamente, sia nel mondo online che offline.

Le compagnie che si stanno muovendo verso una data-strategy stanno beneficiando di grandi vantaggi.

Per esempio, queste aziende sono in grado di comprendere al meglio le preferenze dei propri clienti, così da potergli consigliare i prodotti giusti al momento giusto (e aumentare le vendite).

I big data possono essere usati anche per predire i trend del futuro, immaginare quale sarà la domanda per determinati prodotti, e ottimizzare i prezzi sul lato competitivo.

In realtà, i retailers hanno a che fare con i dati strutturati da anni, e molti di loro hanno imparato come beneficiarne in modo efficace.

Per esempio, Amazon ha sviluppato un algoritmo di product recommendation piuttosto accurato, e in grado di incrementare le vendite del proprio e-commerce.

Immaginate l’utilizzo di una tecnologia simile in un negozio fisico, o in un supermercato.

Funzionerebbe più o meno così: ogni volta che inserite un nuovo prodotto nel carrello, un piccolo display potrebbe consigliarvi svariate ricette che potreste preparare (e di conseguenza i prodotti di cui potreste avere bisogno).

Oppure, il dispositivo potrebbe consigliarvi il vino che meglio si abbina con la cena che avrete intenzione di preparare.

Tuttavia ultimamente i retailer stanno imparando l’importanza dei dati non strutturati, che finora sono stati presi sotto gamba perché troppo complessi da gestire.

In questo caso, i “dati non strutturati” sono i commenti sui social media, i video, le recensioni, la localizzazione GPS, ecc.

Per approfondire la questione della data analytics nel retail, ho scritto un intero articolo a riguardo.