Capitolo 15 Appendice C: Intervalli di confidenza per una proporzione

15.1 Popolazioni gaussiane e non

Nel capitolo 6 abbiamo imparato come costruire intervalli di confidenza per stime la cui sampling distribution è, almeno approssimativamente normale. Abbiamo anche visto che questa approssimazione è buona quando (1) gli errori sono gaussiani e quando (2) i soggetti sono molto numerosi. In altre circostanze

DA RIVEDERE

casi potrebbe non essere così. Ad esempio, immaginiamo di avere una popolazione di insetti, nella quale il rapporto tra maschi e femmine è ignoto. Campioniamo 40 insetti e contiamo 14 femmine. Qual è la proporzione di femmine nella popolazione originaria?

Stiamo studiando una grandezza che, almeno nel principio, non può essere gaussiana, ma, nonostante questo, grazie al teorema centrale del limite, possiamo utilizzare la stessa tecnica per la stima dell’intervallo di confidenza; basta sapere che la proporzione osservata è \(p = 14/40 = 0.375\), mentre la deviazione standard di una proporzione (che non abbiamo finora incontrato) è pari a \(\sigma = \sqrt{0.375 \times (1 - 0.375)} = 0.484\) (Snedecor e Cochran, 1989). L’errore standard è \(0.484 / \sqrt{40} = 0.077\) e l’intervallo di confidenza, considerando che il campione è molto numeroso, potrà essere approssimato come:

0.375 - 2 * 0.077
## [1] 0.221
0.375 + 2 * 0.077
## [1] 0.529

15.2 Cosa fare se il teorema centrale del limite non funziona?

Nel caso precedente, avevamo a che fare con una distribuzione non gaussiana, ma avevamo comunque un campione numeroso, oltre ad una formula per il calcolo dell’errore standard. In altri casi, non abbiamo nessuno di questi elementi e quindi non possiamo calcolare l’intervallo di confidenza classico, come suggerito da Neyman. L’esempio tipico è la varianza, per la quale non sappiamo come calcolare un errore standard attendibile (anche se sono disponibili in letteratura alcune formule di uso comune).

Ad esempio, immaginiamo di avere un campione di 30 soggetti, la cui media è pari a 7.0 e la cui varianza è 0.5. Possiamo dire che la media della popolazione che ha generato il campione è presumibilmente compresa tra:

7 - qt(0.975, 29) * sqrt(0.5)/sqrt(30)
## [1] 6.735962

e

7 + qt(0.975, 29) * sqrt(0.5)/sqrt(30)
## [1] 7.264038

Invece, in relazione alla varianza della popolazione, possiamo solo dire che la stima puntuale è pari a 0.5, ma non abbiamo una formula attendibile per stimare l’errore standard e quindi per calcolare l’intervallo di confidenza. In questo caso, possiamo determinare una sampling distribution empirica, con una simulazione di Monte Carlo, come indicato nel codice sottostante:

# Simulazione Monte Carlo - Varianza
set.seed(1234)
result <- rep(0, 100000)
for (i in 1:100000){
  sample <- rnorm(30, 7, sqrt(0.5))
  result[i] <- var(sample)
}
mean(result)
## [1] 0.5004283
sd(result)
## [1] 0.1313021

Vediamo che la sampling distribution empirica ha media pari a 0.5 circa (questo non ci sorprende) e che l’errore standard è pari a 0.131. Possiamo anche calcolare il 2.5-esimo e il 97.5-esimo percentile ed utilizzarli come margini dell’intervallo di confidenza, che comprende al suo interno il 95% dei valori:

quantile(result, probs = c(0.025, 0.975))
##      2.5%     97.5% 
## 0.2770264 0.7871032

Questo intervallo di confidenza empirico funziona piuttosto bene ed ha campi di impiego abbastanza vasti, anche quando il teorema centrale del limite non vale; tuttavia, l’intervallo di confidenza così ottenuto può non essere simmetrico rispetto alla media, il che non dovrebbe stupire, dato che la sampling distribution non è gaussiana e può essere più o meno asimmetrica.