Big data e valutazione dei rischi (risk assessment)

Big data e valutazione dei rischi (risk assessment)

May 26th, 2014

Big data e valutazione dei rischi

Riskope ringrazia Federico Fontolan per la traduzione italiana di questo blogpost.

Tutto è iniziato alcuni anni fa con le analisi, da parte di Google, dei dati riguardanti l’influenza, analizzando le correlazioni tra le ricerche effettuate sul motore di ricerca (per esempio: “sintomi dell’influenza”, “consegna a domicilio di Kleenex”) e la propagazione dell’epidemia.
Google affermava: “Abbiamo trovato una stretta correlazione tra il numero di persone che effettuano ricerche legate all’influenza ed il numero di persone che effettivamente hanno i sintomi della malattia. Ovviamente, non ogni persona che cerca “influenza” è realmente malata, ma emerge un certo schema quando tutte le ricerche legate all’influenza vengono messe in correlazione. Abbiamo comparato le nostre analisi sulle ricerche web con i sistemi tradizionali di monitoraggio dell’influenza ed abbiamo scoperto che molte ricerche tendono a diventare popolari esattamente quando inizia la stagione dell’influenza. Analizzando la frequenza con cui osserviamo queste ricerche, siamo in grado di stimare il tasso di infulenza che sta circolando in diversi stati e regioni nel mondo.

Magnifico, vero? Semplice mix di dati, nessuna teoria, veloce, economico!
I big data erano nati!

In realtà si dovrebbe parlare di “Found Data” (Dati Trovati), poiché è ciò che è stato fatto: dati pubblici, dati cercati e rovistati dal web, dati per lo più non verificati, raccolti da dispositivi per determinati obiettivi, che possono essere compatibili o meno con lo scopo per cui l’algoritmo dei “big data” è stato progettato.

Pensare che in ragione del fatto che si è in possesso di una grande quantità di dati le informazioni sbagliate e gli errori svaniscano è davvero credere allo scenario più roseo. Più grandi sono i volumi di dati, più grandi sono gli errori: non c’è ragione di pensare diversamente.

Un esempio?
Quando si compila un questionario e si è annoiati, si è spesso portati ad alterare alcuni dati, quali guadagni, età, etc, per semplice divertimento… bene, tutti questi “dati di fantasia”, magari assai frequenti, sono raccolti dall’algoritmo e… gestiti come dati corretti. Pensiamo inoltre a potenziali errori sistematici: se i big data provengono da specifici tipi di utenti (Linkedin, Twitter, etc), è molto probabile che bene o male i dati siano polarizzati (età, status socio-economico, etc.).

Inoltre, gli algoritmi dei big data sono basati su correlazioni, non su nessi di causalità. Ad esempio una parola può diventare “di moda” e molte persone possono essere portate a cercarla anche se non sono realmente interessate ad un suo senso specifico (immaginiamo che ci sia una malattia chiamata Febbre Gang Nam e che il rapper Psy esca quell’anno con la sua hit Gangnam…. Ovviamente, a causa della grande popolarità della canzone si presenteranno delle correlazioni “big data” che in realtà non esistono!).
Pensate che siamo pazzi?
La cosa si è verificata nel 2012 quando molte persone “sane” erano preoccupate per l’influenza, senza però essere malate… Le analisi di Google sull’influenza sovrastimarono del doppio l’epidemia! L’algoritmo sarà stato sicuramente ritarato, ma ormai l’errore era stato fatto.

Questo ragionamento ci porta al Risk Assessment. Nei nostri corsi noi ribadiamo costantemente il concetto che il passato non sempre si ripresenta tale e quale nel futuro, che le statistiche (frutto del passato) possono essere corrette (quelle reali, in cui tempo e denaro vengono spesi per verificare set di dati, per provare le correlazioni, etc), ma non possono essere le uniche basi su cui si poggia il Risk Assessment poiché esse illustrano il passato, non il futuro.

Utilizzare i big data, oltre ai limiti appena descritti, certamente non illumina riguardo ciò che potrà accadere nel futuro, non aiuta a immaginare scenari inaspettati, a pensare all’imponderabile, elementi fondamentali per una buona gestione dei rischi.

Tagged with: , , , , ,

Category: Italiano

Leave a Reply

Your email address will not be published. Required fields are marked *

Riskope Blog latests posts

  • ORE2 tailings deployment steps
  • 22-09-2021
  • ORE2 Tailings deployment steps: 5.1 Failure definition We designed ORE2_Tailings™  to support RIDM for tailings dams portfolios reliability enhancements. One…
  • Read More
  • first steps ORE2 tailings workflow
  • 15-09-2021
  • First steps ORE2 tailings workflow: 2 – ARCHIVAL DOCUMENT SEARCH METHODOLOGY The archival documents delivered by the client to Riskope…
  • Read More
  • ORE2 tailings technical explanations
  • 8-09-2021
  • The first ORE2_Tailings™ deployment for a given client and selected TSF portfolio is an a priori endeavor insofar it delivers…
  • Read More
  • Get in Touch
  • Learn more about our services by contacting us today
  • t +1 604-341-4485
  • +39 347-700-7420

Hosted and powered by WR London.