# snumbers
[adottato da: zeyev, da rugantio e da freebird]
[da report assemblea:]
Storie di come ti rigiro i numeri per farti credere tutto e il contrario di tutto.
Di come sia possibile manipolare la percezione che tutto vada bene e che andrà tutto bene, mentre il mio vicino di casa viene portato in ospedale.
Un uso indiscriminato della gaussiana e delle previsioni di cosa succederà senza neanche capire su quale modello ci stiamo basando.
Storie di statistiche e bigdata che falliscono ma che graficano da paura e infatti un po’ dovrebbe farci paura e svegliarci.
[bozza testo:]
Numeri, dati, statistiche e poi ancora altri numeri, dati, statistiche. La pandemia ci ha bombardati di informazioni numeriche, ma spesso dare un senso a queste informazioni non è facile. Partiamo dal numero piú facile e difficile di tutti: zero.
Zero: il numero. Suggestivo è il concetto di numero secondo Dedekind: un numero è una sezione, un “taglio” (che divide l’asse dei numeri reali in due parti). Astraendo il termine “taglio” dal contesto geometrico-matematico si potrebbe dire che un numero è sempre una rappresentazione parziale (e quantitativa) di un oggetto sottostante, mirato a evidenziare *solo una certa* proprietà e inoltre sempre accompagnato da una particolare incertezza (o intervallo di confidenza). Ad es. in vocabolario scientifico si dice: “sono alto 1.80 ± 1 cm”, se il nostro metro di misura ha delle tacche distanti 1cm (sensibilità dello strumento). In particolare quindi il numero, in rapporto a qualsiasi oggetto della realtà, è sempre un qualcosa di relativo e mai assoluto (c’è sempre qualcosa che non coglie). Relativo a un osservatore, a uno strumento di misura e a un discorso che identifica un oggetto e ne motiva la correlazione quantitativa.
Nella questione contingente del covid-19, i “malati” (oggetti di interesse) vengono contati usando il “tampone” (strumento di misura). Ma essendo questa un’operazione binaria malato-non malato (classificazione) per essere una rappresentazione significativa (oggettiva) dovrebbe prevedere come insieme di interesse l’intera popolazione e dovrebbe essere misurata contemporaneamente; ovviamente questo sfugge alla praticità, che viene quindi surrogata introducendo una temporalità fittizia (“malati al giorno”, “malati rispetto a un anno fa” etc.) di un campione particolare, scelto non casualmente nella popolazione, potenzialmente già sintomatico, introducendo un pesante bias metodologico.
Anche il numero dei morti presenta un dilemma simile, ma in un certo senso ribaltato. È molto più semplice contare il numero dei morti dell’intero insieme di interesse, ma è invece molto difficile classificare i “morti da covid” rispetto ai “morti non da covid”; lo strumento di misura è efficace, ma è invece il nostro oggetto di interesse a essere mal definito.
Per analizzare il modo in cui i numeri diventano una buzzword possiamo spacchettare la questione su quattro livelli: raccolta, analisi, comunicazione e rappresentazione.
Primo, la raccolta.
Questa puó avvenire da parte di soggetti pubblici (es: il servizio sanitario nazionale) oppure privati (es: la GMAFIA – Google, Microsoft, Amazon, Facebook, IBM, Apple). L’impressione è che i primi non ne abbiano raccolti abbastanza, mentre i secondi (come sempre) ne abbiano raccolti troppi. Mentre Google pubblica i suoi “Covid-19 Community Mobility Reports”[1], per molte persone potenzialmente affette da Covid è stato difficilissimo ottenere un tampone e quindi entrare nei conteggi ufficiali. Lo stesso vale per il conteggio di chi non ce l’ha fatta: non sempre le morti sono state contate come morti da Covid, perché non tutte le persone decedute in situazioni “a rischio” sono state testate. Vale quanto detto, ma anche il contrario e cioè, quante delle persone che sono state dichiarate decedute a causa del Covid (che poi vuole dire che sono decedute con il Covid) e che erano già affette da almeno altre 3 patologie croniche [2] sarebbero ugualmente decedute, magari un mese dopo di quanto è accaduto? Una domanda alla quale è impossibile rispondere. Il problema della raccolta diventa ancora piú grande quando si provano a fare comparazioni. Anche solo a livello nazionale, confrontare dati tra regione e regione può non risultare corretto. Se la regione “A” oggi fa 20.000 tamponi e riscontra +1.500 positivi mentre la regione “B” fa 5.000 tamponi e riscontra 150 positivi, quale valenza ha confrontarne i dati? Come è stato scelto il campione sul quale effettuare il test? Cosa rappresentano quei numeri? Questo è ciò che è avvenuto e sta avvenendo quotidianamente durante la pandemia. La situazione diventa chiaramente ancora piú complicata sul piano internazionale: paesi diversi hanno conteggiato in maniera diversa, quindi confrontare le percentuali sulla mortalitá e gli indici di contagio fornisce spesso un quadro non accurato della situazione globale.
Secondo, l’analisi.
La statistica si basa sull’applicazione di modelli, ma non tutti i modelli sono adeguati per tutti i tipi di analisi. La statistica si basa anche su indicatori, per i quali vale lo stesso discorso dei modelli. Anche avendo tutti i dati dell’universo non è detto che da questi si possa ricavare “la veritá” sull’universo: dipende da quali modelli si usano e da quali indicatori si scelgono. Per esempio si parla da molto, da prima del virus, delle aberrazioni delle intelligenze artificiali che basano la loro classificazione a partire dai dati che vengono forniti in ingresso, introducendo degli orientamenti “a priori”, dei pregiudizi, in gergo chiamati *bias*, che hanno dato luogo a veri e propri esempi di “razzismo algoritmico” [3]
Cosí si puó dire che la “Didattica A Distanza“(DAD) dopotutto non è cosí male perché il modello del riferimento è la prole della classe media che vive in un contesto urbano. Le famiglie che abitano in campagna o in montagna, che non possono permettersi un computer o neanche un tablet, che vivono in Italia ma non sono “italiane” secondo lo stato, non sono sono parte dell’analisi sulla DAD. A volte basta molto poco per fare funzionare l’analisi statistica: basta scegliere i campioni giusti.
Terzo, la comunicazione.
Su questo punto si è davvero toccato il fondo come solo il giornalismo italico sa fare. Titoli sensazionalistici, numeri e dati buttati a caso, gaussiane everywhere, grafici senza senso. L’importante è fare notizia e generare click e angoscia. L’approccio al giornalismo scientifico sulle piattaforme di informazione mainstream era giá indecoroso: con il covid è diventato vergognoso.
Numeri, numeri e ancora numeri, spesso con scarso valore scientifico, riempiono le pagine dei giornali e di praticamente tutti i canali di informazione. Numeri letti (interpretati) in modi diversi ed utilizzati per strategie diverse ma sempre numeri, usati per giustificare l’una o l’altra posizione.
Perchè il numero dà forza, il numero è “tecnico” il numero è “puro”, il numero è “oggettivo”. Ma, come per la tecnologia, neanche i numeri sono neutri.
Questi numeri diventano ancora meno neutri quando vengono usati non per tracciare un quadro della realtá, ma per immaginare il modo in cui cambierá nel futuro. Solo un esempio, tra le centinaia di proiezioni comparse all’inizio della pandemia, quando tutti, ma proprio tutti tutti, compresi i portali di previsioni meteo, si sono buttati a capofitto nella grande e meravigliosa giostra dei numeri. Un articolo del 21 marzo 2020 [4]. Guardate le previsioni, confrontatele con i dati reali e traetene le conclusioni che volete. Accanto a questo esempio, ce ne sono tanti altri sulle ipotetiche conseguenze economiche, politiche, addirittura psicologiche che il covid-19 avrá sul genere umano. Queste previsioni ci vengono spesso presentate come “il modo in cui le cose sicuramente andranno” (almeno per chi le ha elaborate), ma i dati non escono da una sfera di cristallo infallibile, anzi: a seconda di chi la usa, e perché, possono mostrare futuri molto diversi tra di loro. La sfera non ci mostra la realtá, ma una rappresentazione di essa: questa rappresentazione è sempre relativa [5].
Quarto. la rappresentazione.
Vorremmo adesso far vedere meglio con un esempio cosa significa che il dato è una “rappresentazione relativa”. Prendiamo adesso un numero fra i più discussi, il tasso di letalità: num morti / num malati. Questo dato è offerto dall’ISS in correlazione con le categorie più naif della persona umana, il sesso maschile-femminile e l’età (in fasce di 10 anni). Osservando i numeri si potrebbe desumere che “a parità di fascia di età il covid sia notevolmente più letale per gli uomini che per le donne (circa il doppio)” [6]. Un risultato assolutamente sorprendente che i virologi hanno provato a interpretare nei modi più fantasiosi. Sembra assolutamente incontestabile, nella sua semplice rappresentazione.
Ciò che vorremmo (provocatoriamente) contestare stavolta non è né l’oggetto in sé (il tasso di letalità) né lo strumento di misura (il rapporto da cui deriva) ma la presentazione in categorie che incasella il numero stesso e ne fa derivare un’interpretazione potenzialmente fallace; in particolare diciamo che non convince la divisione in fasce di età. Iniziamo col notare che l’aspettativa di vita di un uomo è notevolmente inferiore a quella di una donna (di almeno 5 anni per le stime italiane – altrettanto contestabili), per svariati motivi non sempre chiari, che vanno dallo stile di vita, alla produzione di ormoni etc. Giá le stesse categorie di “uomo” e “donna” non sono definibili in maniera univoca: si vedano gli ultimi decenni di teoria queer e anche la biologia. Per il momento però, teniamo per buona questa distinzione in quanto rappresentata nei dati ufficiali sui quali ci interessa fare una critica ulteriore, a partire dal concetto di etá.
Ovvero bisogna riconoscere che l’età cronologica è appunto nient’altro che una produzione assolutamente umana, e che l’orologio biologico di un individuo possa seguire dei ritmi ben diversi da quelli scanditi dal certificato anagrafico. In effetti è impossibile, anche per la più avanguardista scienza moderna attuale, datare l’età di un essere umano in vita: i fattori sociali, ambientali, psicologici e biologici che influenzano il funzionamento e lo “stato” del nostro corpo sono molti ed interagiscono in maniera complessa ed inprevedibile. In un certo senso è proprio questa un’assolutizzazione numerica che il covid-19 non (ri)conosce. Se proviamo quindi a “relativizzare” l’età, (esagerando), ovvero a spostare la tabella delle morti maschili mezza riga più in basso e poi ad unirla con la tabella delle morti femminili, noteremmo che il tasso seguirebbe una progressione piuttosto ordinata (a parte le code) e si dovrebbe concludere non più che “il covid ammazza maggiormente gli uomini” ma dato che “gli uomini invecchiano più velocemente delle donne” “il covid ammazza tutte le persone progressivamente con l’età relativa, indipendentemente dal sesso”. Ma vi pare possibile rinunciare alla nostra età? Al nostro compleanno? Alla più ovvia assolutezza del *nostro* numero, che da sempre ci caratterizza? In cambio del fumoso e opinabile concetto di “aspettativa di vita”, poi! Tsk tsk!
Conclusioni
La tecnologia ha un ruolo fondamentale nella raccolta di numeri, ma i processi attraverso cui questi numeri diventano dati, poi informazioni, poi conoscenza sono estremamente complessi. I numeri vengono usati come buzzword per convincere il pubblico su cosa sia giusto o non giusto fare, piú che per informarlo. In veritá, prima di poter trarre conclusioni sensate sui numeri del covid-19 passerá molto tempo: ci vorranno mesi, piú probabilmente anni, per selezionare, armonizzare, analizzare l’enorme mole di dati raccolta a livello globale. Questo non significa che dobbiamo disinteressarci ai numeri della pandemia, né che dobbiamo rigettare tutte le analsi quantitative fatte fino a oggi. Ma nella lettura dei numeri e delle analisi basate su di essi dobbiamo sempre avere un occhio attento verso chi le sta proponendo, per quale motivo, a partire da quali assunzioni e visioni del mondo. Sopratutto, dobbiamo differenziare tra i dati che registrano un fatto oggettivo (esempio: il numero dei morti), e i dati che vengono usati per elaborare modelli e previsioni (esempio: le previsioni sui danni economici del virus). I primi sono dati tangibili e piú difficilmente “interpretabili” ed in alcuni casi forse anche sottostimati [7]. I secondi sono quelli che piú si prestano a manipolazioni e interpretazioni che non necessariamente hanno come prioritá la salute pubblica o il bene comune.
[4]
***************************************************************************************