Innovazione

Big Data Challenge. Il futuro è una sfida (che dobbiamo vincere)

4 Giugno 2015

I supermercati Target sanno prima di te che tua figlia è incinta. Nel febbraio 2012 Charles Duhigg attirava l’attenzione dei lettori del New York Times sul fenomeno dei Big Data con un messaggio di questo tipo. La seconda catena americana per dimensioni di fatturato, nel settore della grande distribuzione, si era proposta l’obiettivo commerciale di raggiungere prima dei concorrenti le coppie in attesa di un figlio. Sapeva che lo scontrino medio delle gestanti tende a crescere, non solo per effetto del passaggio dai volumi da single ai formati-famiglia, ma anche per l’abitudine di concentrare tutti gli acquisti presso un solo punto vendita: quello che offre i prodotti specializzati per la gravidanza e per il periodo neonatale. I Big Data si sono rivelati la via maestra per individuare le future mamme: il team di data scientist guidato da Andrew Pole ha incrociato le notizie provenienti dalle preferenze abitudinarie e dai trend di cambiamento nelle decisioni di acquisto, finendo per scoprire un piccolo nucleo di «scelte civetta» che identificano le gestanti fin dalle primissime fasi della maternità. È capitato in questo modo che venissero recapitati i volantini promozionali all’indirizzo dei genitori (ancora inconsapevoli) delle puerpere, infuocando i sentimenti di orrore e pietà che Aristotele attribuisce agli spettatori della tragedia classica.

La parabola di Target mette in luce tutti gli aspetti dirompenti legati all’innovazione dei Big Data. Non solo archivi con miliardi di bit: quella che si prospetta è un’intera rivoluzione culturale, che investirà i settori dell’economia, della scienza, della politica – dopo aver già trasformato fin dalla radice il campo dei media. Tutti i nostri comportamenti lasciano tracce su dispositivi digitali, come accade con i registratori di cassa e le carte di credito nella catena di supermercati. L’enorme varietà di segnali impressi nei server, dalla lista della spesa ai check-in su Foursquare, passando per le immagini e i video postati sui social media, confluisce in serbatoi di indicazioni da cui i data scientist tentano di estrarre un’informazione coerente sulle preferenze e sulle necessità che sperimentiamo nella vita quotidiana. Per lo più senza esserne nemmeno troppo consapevoli. Se i team di analisti ne sanno più di noi sui nostri bisogni e sulle nostre abitudini, significa la questione della privacy ha assunto contorni inediti rispetto ad ogni forma di controllo esercitata nel passato.

Vastità delle raccolte di segnali, varietà della loro struttura di contenuto e di formato, velocità di aggiornamento: sono questi i caratteri essenziali dei Big Data. Ma questa indicazione formale non cattura ancora il tratto essenziale del fenomeno, che risiede nell’intelligenza degli algoritmi di interrogazione progettati dai data scientist: spetta a loro ritagliare le informazioni che si nascondono tra le infinite correlazioni brulicanti nella massa di tracce stipate nei server. Come osserva Nate Silver, quando cresce il volume di nozioni da esaminare, aumenta in modo esponenziale il «rumore» cognitivo in cui annega la verità che si sta cercando. Le leggi di correlazione che si stabiliscono tra gli elementi del corpus di dati sono moltissime, ma solo poche tra loro individuano dei rapporti effettivi di causa-effetto, e dispongono quindi di un vero potere di previsione. Le regolarità effimere che si accumulano in archivi molto ampi distraggono gli analisti meno perspicaci, e possono produrre effetti più o meno devastanti (o più o meno comici) in vari settori della vita internazionale. Silver riferisce che per trent’anni, a partire dal 1967, la vittoria al Superbowl di una squadra della vecchia NFL ha «predetto» un progresso di oltre 14 punti percentuali di Wall Street per l’anno successivo. Ma esiste anche un nesso stringente tra la variazione di spesa pubblica degli USA nell’ambito tecnico-scientifico e l’andamento dei suicidi per soffocamento, o il trend di divorzi nel Maine e quello del consumo pro capite di margarina. Le «correlazioni spurie» sono molto più numerose di quelle significative, e il compito degli analisti è quello di costruire algoritmi con regole sicure di individuazione dei pattern reali.

Passiamo con un balzo dallo scenario americano a quello europeo. Nel salto inglobiamo anche la distanza di concezione della privacy, pensata negli Stati Uniti come un diritto del consumatore, nei paesi UE invece come un diritto fondamentale dell’individuo. Telecom Italia è uno degli attori principali dell’innovazione tecnologica nel nostro Paese che investe nel settore strategico dei Big Data. Dal 2014 ha avviato un’iniziativa per coinvolgere le menti più brillanti della nazione, in una sfida che premia i progetti di maggiore interesse su tre segmenti strategici dell’analisi dei dati: quello più accademico della formulazione di nuovi algoritmi, quello dell’ingegnerizzazione di prodotti e servizi per il mercato, quello dell’allestimento di infografiche efficaci per la visualizzazione e l’interazione con i dataset.

Abbiamo parlato del Big Data Challenge con Fabrizio Antonelli, che in Telecom Italia si è occupato di analisi dei dati, prima a livello di ricerca fondamentale presso il JOL di Trento, poi a livello di organizzazione dei processi che avviano al mercato prototipi di servizio e di prodotto. Il suo percorso professionale coincide d’altra parte con l’evoluzione della strategia del Gruppo, e con quella dei Big Data in generale: dopo un lungo periodo esplorativo, sta arrivando il momento della concretezza, in cui ipotesi e idee devono impegnarsi a provare la loro sostenibilità economica nel confronto con la società reale. Antonelli ricostruisce i due approcci di fondo con cui Telecom Italia avvicina il tema dei Big Data.

Il primo è quello costruito sulle «informazioni anonime»: i dati provengono dai servizi mobili, senza ereditare alcuna nozione personale sui clienti coinvolti. Le tracce archiviate permettono di mappare la densità di soggetti presenti in un’area, e le caratteristiche dei loro comportamenti di spostamento, senza la necessità di collegare questi dati collettivi alle singole identità individuali. Gli obiettivi che possono essere perseguiti riguardano l’ottimizzazione delle risorse per la gestione dei servizi nell’area sotto osservazione: le matrici che emergono dall’analisi permettono di rispondere a domande come la distribuzione più efficace dell’orario dei treni regionali, o la localizzazione ideale dei punti vendita sulla base della densità e dei movimenti dei clienti potenziali. Insomma, per i pendolari delle Ferrovie Nord e dei treni locali che ogni giorno arrivano a Milano, i Big Data sono la terra promessa.

Il secondo è sviluppato sui «personal data», un segmento di attività che invece prevede un’autorizzazione esplicita da parte del soggetto che viene tracciato. Le operazioni innescate da questo genere di segnali si propongono come un’estensione dei servizi di ciò che ricade classicamente sotto l’etichetta «cloud»: solo che ora non ci si limita più a conservare le fotografie e il materiale connesso alla vita sociale, ma si archiviano anche i dati relativi all’intero vissuto personale, inclusi consumi, salute e spostamenti. Si costruisce in questo modo un vero e proprio personal store, la cui custodia è l’effetto di un conferimento di fiducia controllata da parte dell’utente. Il proprietario dei dati gode di un accesso trasparente all’utilizzo effettivo delle informazioni che lo riguardano, tramite un cruscotto che inquadra nel dettaglio le autorizzazioni concesse e le funzioni attivate. Telecom Italia usa in proprio questo genere di tracce per migliorare l’esperienza dell’utente attraverso il perfezionamento dell’organizzazione e delle risorse interne. Dalla collocazione delle antenne alla segmentazione delle richieste dei clienti, l’analisi dei dati permette di offrire il servizio migliore con la gestione più oculata degli investimenti necessari.

Entrambi gli approcci richiedono una maturazione culturale da parte del pubblico, che oggi sembra poco preparato sui rischi allegati alla cessione dei dati personali: la consuetudine che è stata imposta da soggetti come Facebook e Google sembra aver attutito la sensibilità degli utenti web intorno a questo tema, invece di risvegliare la loro attenzione.

Antonelli conferma che il Big Data Challenge è un’occasione per sondare i focus di interesse da parte degli esperti italiani. Il concorso del 2014 ha messo in luce una maggiore concentrazione sul segmento accademico della ricerca: le elaborazioni più interessanti sono quelle che provengono ancora dal settore della ricerca fondamentale su nuovi algoritmi e su automatismi di analisi. L’intelligenza non è certo il tipo di risorsa che possa mai venire a noia; tuttavia il fatto che il terreno privilegiato nella partecipazione al concorso fosse ancora quello dell’esplorazione teorica, può evocare alcuni sospetti sull’immaturità in cui ancora versavano i Big Data italiani l’anno passato. Con una sana dose di ottimismo la sfida di quest’anno è vincolata all’obbligo di un tema che impone un maggiore confronto con il mercato: le soluzioni sviluppate devono dimostrare di poter accrescere la competitività.

Al contrario di ciò che accade di consueto nelle competizioni che coinvolgono analisi di Big Data, Telecom Italia mette a disposizione un archivio di tracce appartenenti a molti settori differenti, in modo da stimolare la creazione di ipotesi che facciano leva sulla varietà dei contenuti concettuali e dei formati, e non solo sulla loro quantità. La collaborazione con partner nazionali che presidiano altre branche di mercato serve a costruire scenari cross-industry, in cui nascano e si sviluppino opportunità inedite nell’offerta di servizi. Il progetto che si è laureato vincitore nel 2014 è un algoritmo che riesce a prevedere, con un grado elevato di affidabilità, i consumi energetici di una determinata area geografica, a partire dai dati di traffico telefonico. Ma grazie all’incrocio di dati provenienti da aree diverse, sono state illustrate molte altre intuizioni, come le previsioni sul traffico turistico a Milano esaminando i tabulati di ricorso al roaming internazionale, o la stima della ricchezza di un territorio sulla base del traffico di chiamate in mobilità.

La proprietà intellettuale di tutte le elaborazioni proposte rimane dei soggetti che le hanno sottoposte alla commissione. Telecom Italia sostiene lo sforzo di industrializzazione dei progetti che ritiene più interessanti per lo sviluppo del proprio business e di quello dei partner che hanno partecipato alla costruzione del dataset di partenza, convocando tutti gli attori (dai candidati che hanno rivaleggiato nella competizione ai protagonisti del panel di giuria) ad un tavolo in cui si possa disegnare un orizzonte di impresa di ampio respiro. Il tema del Challenge 2015 dovrebbe essere capace di attirare l’attenzione di un maggior numero di startup e di piccole e medie imprese rispetto all’anno scorso, con una vocazione più prossima alle soluzioni immediatamente implementabili per il mercato.

Antonelli sottolinea che l’organizzazione di una competizione sui Big Data intende promuovere una diversa cultura su questa tema, sradicando il pregiudizio che si tratti di una questione da stregoni della tecnologia, da lasciare rinchiusa nei meandri dei reparti informatici. L’errore più grave che ha scavato il ritardo europeo rispetto all’avanguardia americana è stata la convinzione che tutto potesse risolversi nella disponibilità di computer più potenti, capaci di eseguire con maggiore velocità gli stessi compiti macinati da sempre negli uffici dei nerd. Al contempo, l’accesso ai dati che sono davvero utili per elaborare le nuove strategie economiche (di impresa, ma anche di pubblica amministrazione), è reso molto più opaco di quanto avvenga oltreoceano, per lo più perché chi li possiede li considera una roccaforte del proprio potere personale, o dell’istituto che rappresenta. Sarebbe davvero auspicabile che le imprese si rendessero conto che la risorsa più importante per la ripresa dalla crisi, e per l’aspirazione al successo, risiede proprio nelle tabelle che tengono chiuse nei loro cassetti. La rivoluzione dei Big Data non è veicolata dalla tecnologia, ma dai dati e dall’intelligenza che li sonda e li interroga.
Il futuro è nella nostra curiosità, e nella disciplina con cui sapremo metterla al lavoro sulla realtà dei comportamenti della gente. Allora, cominciamo a giocare?