📈

Perché le statistiche sono sempre sbagliate

Tag
Data analytics
Biases
Data
Nov 4, 2022
URL
Sto preparando una Weekly Hack su un tema controverso: il gender pay gap.
A prescindere dalla tua posizione a riguardo, su una cosa possiamo tutti concordare: non è così facile da calcolare perché la statistica è deliziosamente subdola.
Fare errori non è solo facilissimo—è inevitabile.
La cosa che più mi infastidisce è chi parla di statistica come se fosse una scienza esatta—o meglio—come se le sue statistiche fossero "esatte".
Non mi fraintendere: la statistica è una scienza esatta, IN TEORIA. Se un prodotto di un'azienda ha un peso 175g +/- 5g, si può calcolare esattamente il numero di prodotti tra i 170 e i 180g, dando un preciso tasso di tolleranza.
Il problema si ha con le statistiche relative alla popolazione, dove gli errori vengono fatti sia nella produzione delle statistiche che nell'analisi.
Un vecchio saggio una volta mi ha detto: "I numeri non mentono mai, ma se li torturi abbastanza, confessano sempre".
Infatti io, ingegnere, appassionato di dati, che lavora sui dati 10 ore al giorno da 3 anni, quando devo usare delle statistiche fatte da altri ho il terrore.
Ora ti racconto perché dovresti averlo anche tu.
1. Bias di selezione
notion image
Se dovessi fare un sondaggio chiedendo: "Ti piace rispondere ai sondaggi?", avrei risposte quasi esclusivamente positive.
È facile trovare il bias: le persone a cui non piace rispondere ai sondaggi non partecipano proprio al sondaggio; per cui non avrò i loro "No" nel totale delle risposte.
Questo significa che il campione selezionato non è rappresentativo della popolazione, e pensa a quanto è difficile averne uno:
  • Facendo sondaggi su internet avresti solo risposte di chi ha un computer—il campione non è rappresentativo
  • Facendo sondaggi su Facebook non avresti risposte dalla Gen Z idem per Instagram con i Boomer—il campione non è rappresentativo
  • Facendo sondaggi in università avresti persone più istruite della media etc.
Se questa condizione non è rispettata tutte le statistiche che ne conseguono—e le conclusioni—sono inutili. Quindi la prima cosa da chiedere è: "Ma il campione che hanno preso, è rappresentativo?"
2. Correlazione
notion image
Quando vediamo due statistiche correlate, ci sono 4 scenari:
  • A causa B
  • B causa A
  • Una terza variabile Z causa sia A che B (Detto anche collider bias [Link])
  • A e B sono indipendenti e per caso crescono in modo simile
E capire lo scenario è più difficile di quanto ci piaccia ammettere.
La figura sopra è un esempio del quarto caso, il più facile: ovviamente le diagnosi di autismo sono indipendenti dalle vendite di cibo organico, sono semplicemente "correlate".
La seconda cosa da chiedersi è: "In che scenario di correlazione siamo?". Ancora meglio: "Di cosa deve convincermi il mio interlocutore?".
3. Le relazioni non durano per sempre
"Di questo passo, entro il 2050, tutto il mondo sarà..."
Certo, va bene—ammesso che il campione sia rappresentativo della popolazione, e ammesso che la correlazione sia causale, non è detto che la relazione tra le variabili continui in questo modo fino al 2050.
Un bambino neonato cresce di peso di circa il 20% a settimana. Significa che, "di questo passo", un bambino medio dopo un anno dovrebbe pesare 18 tonnellate.
Abbi sempre del sano scetticismo anche per le statistiche a lunga data.
4. Mostrami le tue statistiche e ti dirò in cosa credi
Questi due grafici mostrano esattamente gli stessi dati:
notion image
L'unica differenza è l'unità di grandezza nell'asse y.
Se per due anni l'utile della mia azienda crescesse del 20% e il terzo anno "solo" del 10%, si potrebbe dire "Wow, crescita del 10% anche quest'anno" oppure "Crescita dimezzata rispetto al solito, indice di crisi".
La domanda da porsi è: "Che obbiettivi il mio interlocutore? Quali sono i suoi incentivi? In base a cosa viene pagato?"
Ecco che diventa facile individuare i bias dei giornalisti (fingiamo siano in buona fede). Non si salva nemmeno il New York Times o il Wall Street Journal. Ricorda che loro sono pagati a click e che il loro Chief Editor ha un'agenda da portare avanti.
Se un giornale ha una posizione politica, dichiarata o meno, puoi stare certo che gli articoli la favoriranno. A prescindere dalle statistiche.
5. Qualsiasi analisi non multi-variabile è inutile
Immagina venga fatto questo studio, con un campione rappresentativo della popolazione:
Acquisto medio di deodoranti: 3€/mese
Acquisto medio di deodoranti per gli ingegneri: 4€/mese
Conclusione: gli ingegneri puzzano di più.
Tralasciando il fatto che effettivamente potrebbero puzzare di più, quella sopra è un'analisi a singola variabile.
L'unica variabile che è stata presa in considerazione è l'essere ingegnere. Ci sono altri fattori che possono incidere sull'acquisto di deodoranti come genere, età, lavoro, sportività etc.
Però diciamocelo: "Gli ingegneri puzzano" è un titolo molto più accattivante della storia completa multi-variabile.
Fare un'analisi multi-variabile è complesso, costoso, difficile, e soggetta ad errori. Ma un'analisi a variabile singola è automaticamente sbagliata.
  • -
La settimana prossima ti proporrò una visione controversa e non accurata al 100%. Non può esserlo, proprio per quello che ti ho appena raccontato.
Però ti assicuro che ho letto molto perché il Gender pay gap è un tema che mi sta molto a cuore, tanto che mi ha fatto co-fondare GenQ [Link] più di un anno fa.
See you next week 💙🦊