Contact

Big data e valutazione dei rischi (risk assessment)

Big data e valutazione dei rischi (risk assessment)

May 26th, 2014

Big data e valutazione dei rischi

Riskope ringrazia Federico Fontolan per la traduzione italiana di questo blogpost.

Tutto è iniziato alcuni anni fa con le analisi, da parte di Google, dei dati riguardanti l’influenza, analizzando le correlazioni tra le ricerche effettuate sul motore di ricerca (per esempio: “sintomi dell’influenza”, “consegna a domicilio di Kleenex”) e la propagazione dell’epidemia.
Google affermava: “Abbiamo trovato una stretta correlazione tra il numero di persone che effettuano ricerche legate all’influenza ed il numero di persone che effettivamente hanno i sintomi della malattia. Ovviamente, non ogni persona che cerca “influenza” è realmente malata, ma emerge un certo schema quando tutte le ricerche legate all’influenza vengono messe in correlazione. Abbiamo comparato le nostre analisi sulle ricerche web con i sistemi tradizionali di monitoraggio dell’influenza ed abbiamo scoperto che molte ricerche tendono a diventare popolari esattamente quando inizia la stagione dell’influenza. Analizzando la frequenza con cui osserviamo queste ricerche, siamo in grado di stimare il tasso di infulenza che sta circolando in diversi stati e regioni nel mondo.

Magnifico, vero? Semplice mix di dati, nessuna teoria, veloce, economico!
I big data erano nati!

In realtà si dovrebbe parlare di “Found Data” (Dati Trovati), poiché è ciò che è stato fatto: dati pubblici, dati cercati e rovistati dal web, dati per lo più non verificati, raccolti da dispositivi per determinati obiettivi, che possono essere compatibili o meno con lo scopo per cui l’algoritmo dei “big data” è stato progettato.

Pensare che in ragione del fatto che si è in possesso di una grande quantità di dati le informazioni sbagliate e gli errori svaniscano è davvero credere allo scenario più roseo. Più grandi sono i volumi di dati, più grandi sono gli errori: non c’è ragione di pensare diversamente.

Un esempio?
Quando si compila un questionario e si è annoiati, si è spesso portati ad alterare alcuni dati, quali guadagni, età, etc, per semplice divertimento… bene, tutti questi “dati di fantasia”, magari assai frequenti, sono raccolti dall’algoritmo e… gestiti come dati corretti. Pensiamo inoltre a potenziali errori sistematici: se i big data provengono da specifici tipi di utenti (Linkedin, Twitter, etc), è molto probabile che bene o male i dati siano polarizzati (età, status socio-economico, etc.).

Inoltre, gli algoritmi dei big data sono basati su correlazioni, non su nessi di causalità. Ad esempio una parola può diventare “di moda” e molte persone possono essere portate a cercarla anche se non sono realmente interessate ad un suo senso specifico (immaginiamo che ci sia una malattia chiamata Febbre Gang Nam e che il rapper Psy esca quell’anno con la sua hit Gangnam…. Ovviamente, a causa della grande popolarità della canzone si presenteranno delle correlazioni “big data” che in realtà non esistono!).
Pensate che siamo pazzi?
La cosa si è verificata nel 2012 quando molte persone “sane” erano preoccupate per l’influenza, senza però essere malate… Le analisi di Google sull’influenza sovrastimarono del doppio l’epidemia! L’algoritmo sarà stato sicuramente ritarato, ma ormai l’errore era stato fatto.

Questo ragionamento ci porta al Risk Assessment. Nei nostri corsi noi ribadiamo costantemente il concetto che il passato non sempre si ripresenta tale e quale nel futuro, che le statistiche (frutto del passato) possono essere corrette (quelle reali, in cui tempo e denaro vengono spesi per verificare set di dati, per provare le correlazioni, etc), ma non possono essere le uniche basi su cui si poggia il Risk Assessment poiché esse illustrano il passato, non il futuro.

Utilizzare i big data, oltre ai limiti appena descritti, certamente non illumina riguardo ciò che potrà accadere nel futuro, non aiuta a immaginare scenari inaspettati, a pensare all’imponderabile, elementi fondamentali per una buona gestione dei rischi.

Tagged with: , , , , ,

Category: Italiano

Leave a Reply

Your email address will not be published. Required fields are marked *

Riskope Blog

  • LATEST BLOG POST
  • Cadia tailings facility failure expert review and risk considerations allow us to discuss InSAR application and low seismicity considerations for…
  • Read More

More Info

  • Get in Touch
  • Learn more about our services by contacting us today
  • t +1 604-341-4485
  • +39 347-700-7420

Vancouver Digital Creative Agency Ballistic Arts Media Studios.