Presentazione dei dati statistici e distorsioni interpretative

by gabriella

trenoLe statistiche si prestano a distorsioni di tutti i tipi. In questo articolo di Ann van Ackere, docente alla London Business School, i metodi più diffusi di presentazione dei dati, quelli più appropriati e le tecniche di manipolazione più comuni.

tab1In questo articolo prendiamo in esame la trasformazione dei dati in informazioni. La parola dato indica i numeri così come questi vengono raccolti.

Ad esempio, la Tabella I  mostra dei dati sui ritardi dei treni relativi a 120 viaggi lungo uno specifico percorso. In questa forma, i dati forniscono ben poche informazioni. Un’occhiata alla tabella mostra che alcuni treni arrivano in orario e pochi subiscono ritardi molto lunghi.

tab2La Tabella 2 (colonne di frequenza) presenta gli stessi dati con l’aspetto di una tabella delle frequenze: con quale frequenza si verifica ciascun ritardo? I dati presentati in questa maniera offrono informazioni più precise: una rapida occhiata indica che 24 treni arrivano in orario, circa 60 (24 + 15 + 12 + 10) arrivano con circa tre minuti di ritardo rispetto all’orario programmato e solo quattro arrivano con più di due ore di ritardo.

Il significato della frase “24 treni arrivano in orario” dipende da quanti treni vengono presi in considerazione; in questo esempio sono 120. Spesso è uti­le generalizzare definendo le frequenze come “frequenze relative”, cioè come un numero riferito al totale espresso in percentuale. È quanto viene fatto nell‘ultima colonna della Tabella 2, che indica che il 20% dei treni arrivano in orario, il 50% arrivano con un massimo di tre minuti di ritardo e meno del 4% arrivano con oltre due ore di ritardo. I dati della Tabella 2 vengono riepilogati graficamente nelle Figure 1 e 2, relative però ai soli treni che hanno ritardi fino a 40 minuti. Tali grafici vengono chiamati istogrammi. Dato che la maggior parte dei punti di dati sono concentrati in una piccola parte dell’inte­ro intervallo di valori, rappresentare tutti i dati in un grafico completo avrebbe significato una grande confusione nella prima colonna di sinistra, e l’inseri­mento di tutti i punti di dati rimanenti in numerose colonne a destra. Per questa ragione i dati sono stati analizzati con un maggiore livello di dettaglio. Spes­so infatti una rappresentazione più aggregata si ri­vela più adatta.

tab3La Tabella 3 mostra le “frequenze raggruppate”: per i ritardi minori sono stati consi­derati intervalli di cinque minuti, mentre per gli in­tervalli più lunghi sono stati considerati intervalli di 20 minuti o di un’ora. La Figura 3 rappresenta un istogramma delle frequenze raggruppate. Va notato che l’area di ciascun rettangolo è proporzionale alle frequenze corrispondenti: il primo rettangolo ha una larghezza di 5 e un’altezza di 14, occupando un’area pari a 70. Allo stesso modo il rettangolo 40- 59 ha una larghezza di 20 e un’altezza di 0,15 e occupa un’area pari a 3. Finora, l’obiettivo è stato quello di mostrare tutti i dati in un formato comprensibile. Spesso è utile descrivere i dati con alcune misure di riepilogo che colgono la maggior parte delle informazioni e rendono possibile un facile confronto con altri insiemi di dati (ad esempio i 120 viaggi corrispondenti dell’anno precedente).

figu3Le misure più frequentemente utilizzate si divido­no in due categorie: “misure di posizione”, che for­niscono informazioni su ciò che succede in media,“misure di variabilità”, che descrivono la quantità della variazione tra punti di dati. Esistono tre misu­re di posizione comunemente utilizzate: la “media” (o media matematica), la “mediana” e la “moda (o valore modale)”.

La media è quella più utilizzata; si tratta della semplice media fra tutti i punti di dati. La mediana è il valore centrale: per arrivare a tale valore è necessario ordinare i punti di dati dal più piccolo al più grande e scegliere quello centrale. La moda è il va­lore che si ripete con la maggior frequenza.

tab4Il valore di queste misure per l’esempio del ritardo dei treni viene indicato nella colonna “Tutti i dati” della Tabella 4: i treni hanno in media un ritardo di 20.4 minuti; la metà dei treni ha almeno 3 minuti di ritardo (mediana) e il ritardo osservato con la mag­giore frequenza equivale a zero (moda). L’ammini­strazione delle ferrovie potrebbe obiettare che l’utilizzo di tutti questi dati non è corretto, e che i calcoli sono pesantemente influenzati da due “valo­ri estremi” (352 e 486 minuti), che distorcono le ci­fre. La colonna “senza valori estremi” mostra le mi­surazioni rilevate senza questi due valori. La media­na e la moda non cambiano, ma la media è notevolmente inferiore. Questa è un’osservazione generica: la mediana e la moda sono influenzate raramente dai valori estremi, mentre la presenza anche di un solo valore estremo può avere un forte impatto sulla media. Non è sempre semplice stabilire se la misura media, mediana o la moda sono quelle più adeguate alle varie situazioni. Come illustrato prima, la mediana e la moda sono meno sensibili alla presenza di valori estremi. La moda ha inoltre il vantaggio di far riferimento a risultati rea­listici: ad esempio, la famiglia tipica ha due figli (la moda) mentre il numero medio di figli per famiglia è 2,2 (la media).

La scelta del tipo di misurazione dipende dal tipo di informazione che si desidera fornire. Prendiamo in considerazione un dipartimento del personale che intende fornire informazioni sui salari. Potrebbe stabilire che un lavoratore tipo guadagna 14.000 sterline all’anno (moda); che metà della forza lavoro guadagna almeno 17.000 sterline (la mediana); o che il salario medio equivale a 32.000 sterline (la media). Tutte e tre le affermazioni sono “corrette”, ma le informazioni che esse contengono sono molto differenti. Ciò dimostra che la scelta delle misu­re crea un margine significativo di possibili sfumature nella condivisione delle informazioni.

La Tabella 4 mostra cinque misure di deviazione. Il “campo di variazione” è la differenza tra i punti di dati più piccoli e quelli più grandi. L’”interquartile” è l”intervallo che rimane dopo aver eliminato il quarto superiore e il quarto inferiore dei dati. Lo “scarto assoluto medio” (mean absolute deviation, MAD) rappresenta la media tra la differenza tra ciascun punto di dati e la media in termini assoluti (cioè omettendo il segno + o -). Va notato che lo scarto medio (cioè senza omettere il segno) sarebbe uguale a zero. A volte poche grandi deviazioni sono peggiori di molte piccole deviazioni. Pensiamo ad esempio agli errori sulle previsioni di vendita: dei piccoli errori possono rivelarsi problemi di magazzino, ma errori più grandi possono risultare in quantità significative di prodotti invenduti o avariati.

La “varianza” è simile nella sostanza al Mad, ma penalizza i valori estremi: è la media delle deviazioni quadrate rispetto alla media aritmetica. La “deviazione standard” è la radice quadrata della varianza. E’ la misura della varianza più utilizzata in statistica. Ad eccezione dell’intervallo interquartile, sono tutte influenzate pesantemente dalla presenza di valori estremi.

Selezionando adeguatamente un sottoinsieme di queste misure, è possibile fornire una buona illustrazione dei dati. Ad esempio, conoscendo la media, la mediana, il campo di variazione e l’interval­lo interquartile (e sapendo che i ritardi non possono avere valori negativi) sarà possibile offrire uno schema ragionevolmente accurato dei dati. Fino ad ora abbiamo osservato un solo insieme di dati: i ri­tardi; spesso può essere utile capire se esiste una relazione tra due (o più) insiemi di dati.

figu4Ad esempio, l’amministrazione delle ferrovie potrebbe chiedersi se i ritardi coincidono con i viaggi nei quali i treni risultano essere particolarmente affollati. In questo caso i dati sono costituiti da 120 cop­pie di numeri: ritardo e numero dei passeggeri. In questo contesto, una misura da utilizzare potrebbe essere il coefficiente di correlazione. Si tratta di un numero compreso tra -1 e +1 che misura il rapporto (lineare) tra due variabili (ad esempio ritardi e passeggeri). Il coefficiente pari a zero indica che non c’è rapporto lineare. Un coefficiente positivo indica che i valori più grandi di una variabile sono associati ai valori più grandi dell’altra. Più il coefficiente è vicino a 1 e più stretto è il rapporto. Un coefficiente con valore negativo indica che i valori più grandi di una variabile sono associati ai valori più piccoli del­l’altra. La Figura 4 riporta i ritardi sull’asse orizzontale e il numero dei passeggeri sull’asse verticale. Il coefficiente di correlazione equivale a 0,71: e quindi i ritardi più lunghi tendono ad essere associati ad un numero maggiore di passeggeri.

Il coefficiente di correlazione gioca un ruolo chiave, ad esempio, nell’analisi del portafoglio: per di­versificare i rischi, gli investitori cercano i titoli i cui profitti mostrano un livello di correlazione basso. La correlazione non implica la causalità. Un coefficiente di correlazione vicino a +1 o a -1 può verificarsi anche per caso (la popolazione dell’In­dia e il numero delle automobili negli Stati Uniti ad esempio hanno una correlazione positiva). In questo caso si parla di “correlazione spuria”. Due variabili possono anche essere strettamente correlate perché sono guidate entrambe dagli stessi fattori. Ad esempio, è risaputo che nel Regno Unito c’è un alto grado di correlazione tra il numero dei posti in cui si possono fare scommesse e il numero di chiese presenti in una città! Fino a qui, abbiamo focalizzato l’attenzione solo sui punti di dati, senza prestare attenzione alla dimensione temporale. Quando anche il tempo è importante, abbiamo a che fare con dati a “serie temporale”. Ad esempio, una società può considerare l’evoluzione dei propri profitti nel tempo. La maggior parte degli indicatori macroeconomici sono esempi di serie temporali (inflazione, disoccupazione, tassi di interesse e così via).

figu5Quando si valuta questo tipo di dati può essere utile distinguere tra la crescita in termini assoluti e il tasso di crescita. Consideriamo i tre profitti a serie temporale della Figura 5. La prima società mostra un tasso di crescita costante: ogni anno i profitti sono più alti del 20 per cento rispetto al­l’anno precedente. La società più in basso mostra una crescita assoluta costante (o crescita lineare): ogni anno i profitti aumentano di 200.000 sterline. Nel primo anno quindi la crescita è pari al tasso di crescita del 20 percento, ma al decimo anno ciò equivale ad un tasso di crescita pari solo al 7 per cento. La terza società sembra cavarsela bene, ma in realtà ha un tasso di crescita in calo, che passa dal 20 per cento del primo anno al 14 per cento del quattordicesimo anno; ciò vuol dire che i profitti aumentano, ma ad un tasso decrescente, I grafici sono degli strumenti di comunicazione eccezionali, se utilizzati correttamente. È incredibilmente faci­le fare in modo che i dati dicano esattamente ciò che si desidera, se si scelgono attentamente le informazioni da mostrare e le modalità per farlo. Prendiamo in considerazione la Figura 6.

figu6Nel Riquadro A viene mostrato il grafico che appare accanto al “Discorso del Presidente” nella prima pagina di una relazione annuale, e che indica una crescita sostanziosa dei profitti. La società è però meno attraente se leggiamo la nota a piè di pagina del Riquadro B. Il grafico del Riquadro A soffre di ciò che si chiama “errore sistematico di selezione”.


Leave a Reply


%d blogger hanno fatto clic su Mi Piace per questo: