Titolo

Il margine di errore nei sondaggi della consistenza elettorale di un partito piccolo

6 commenti (espandi tutti)

L'analisi riportata è fatta in ambito probabilistico, non statistico.

In ambito statistico l'analisi si può fare come segue.

Neanche io mi intendo tanto di campionamento casuale, perché essendo un fisico, nrmalmente, facendo bene gli esperimenti, ci   pensa madre natura a fornire un campione casuale.

Supponiamo quindi di avere un campione casuale di 1500 elettori e di avere ottenuto una proporzione del 2.5%, cioè 37,5 voti.

L'interpretazione che viene data nell'articolo:

 Quando un partito viene dato al 35% con un intervallo di confidenza al 95% di ±3%, l'interpretazione corretta è che SE il partito avesse davvero il 35% dei consensi nella popolazione, e SE avessimo la possibilità di effettuare molti sondaggi campionando casualmente sempre lo stesso numero di elettori (ma non necessariamente gli stessi), ALLORA questo partito riceverebbe in ciascuno di quei campioni fra il 32% ed il 38% dei voti nel 95% di questi campioni (95% circa, in realtà la percentuale di campioni con questa caratteristica si avvicina al 95% all'aumentare del numero dei campioni effettuati). In altre parole, solo nel 5% dei campioni si otterrebbe un numero di votanti per quel partito inferiore al 32% o superiore al 38%.....

non è del tutto corretta. Secondo la interpretazione frequentista di Neyman, che è spiegata bene  qui, la spiegazione è la seguente: quando un partito viene dato al 35% con una incertezza del ±3%, cioè in un intervallo [32%,38%], vuole dire che l'intervallo trovato ha una probabilità del 95% di contenere il valore vero della popolazione.

Ovvero, l'intervallo è stato ottenuto con una tecnica che ha il 95% di successo.

Ovvero, se ripeto 100 volte il campionamento con la stessa tecnica di analisi, il valore vero starà dentro l'intervallo 95 volte (in media).

Questa probabilità si chiama anche probabilità di ricoprire il valore vero da parte dell'intervallo (coverage). Con le variabili binomiali a spettro discreto, questa probabilità deve essere un po' modificata, e le formule danno in realtà una probabilità ≥95% (overcoverage probability).  La formula più famosa che fa questo è quella di Clopper-Pearson, riportata sempre nel sito di wikipedia.

In rete i calcolatori di Clopper-Pearson ci sono, ma quelli che ho trovato non accettano prove >1000.

Ho scritto un programma scilab, che potete trovare qui (è il mio libro, scusate la debolezza imperdonabile), che calcola l'intervallo di confidenza con la formula di Clopper-Pearson e con la formula approssimata  di Wilson con correzione di continuità. Il risultato è il seguente:

Numero prove 1500, successi 37.5, CL 95%

    Clopper-Pearson  [0.0177, 0342]

    Wilson+c.c   [0.0185, 0.0338]

cioè un valore tra 1.8% e 3.4%  con copertura ≥95%.

 

 


Ottimo

andrea moro 13/1/2013 - 02:36

grazie dell'appendice, era esattamente la discussione filosofica che volevo evitare ma va benissimo affrontarla se si vuole. A me questa interpretazione non dice molto (non capisco cosa significhi la frase "vuole dire che l'intervallo trovato ha una probabilità del 95% di contenere il valore vero"), ma e' un limite mio e ma capisco che qualcuno puo' avere gusti diversi. 

vuole dire che l'intervallo trovato ha una probabilità del 95% di contenere il valore vero della popolazione.

Caro Alberto R., i due ovvero sono corretti, ma la precisazione che li precede no.

Quando si dice al 95%  la media è compresa in un intervallo di confidenza non significa che vi è una probabilità del 95% che il "vero" parametro della popolazione che si sta stimando giaccia in quell'intervallo, ma invece che il metodo adottato produce un intervallo corretto nel 95% di tutti i possibili campioni, proprio come Andrea Moro indica. Lo spaccamento del capello sta nel fatto che l'intervallo di confidenza al 95% una volta estratto il campione in questione ha due sole possibilità, contiene il vero parametro di interesse oppure no. Cioè prima vi è il 95% di probabilità di creare un intervallo che contenga il parametro, dopo no.

certo

alberto rotondi 14/1/2013 - 00:27

... certo, intendevo dire che l'intervallo è stato trovato con una tecnica che ha almeno il 95% di probabilità di produrre intervalli che contengono il valore vero, come spero sia risultato chiaro dalla discussione successiva.

Grazie per la precisazione.

Colgo l'occasione per dire a Moro che qui non si tratta di filosofia e di gusti. Se si pubblica un intervallo con un livello di confidenza, c'è una sola interpretazione, ed è quella frequentista di Neyman che ho riportato.

L'interpretazione di Moro è influenzata dall'approccio Bayesiano, che si può anche usare, ma allora si parla di intervalli soggettivi di credibilità dipendenti da prior soggettivi, non di intervalli di confidenza.

Non c'e' niente di bayesiano nella mia interpretazione. L'interpretazione che ho dato (che non e' "95% e' la proporzione di volte in cui l'intervallo cosi' costruito contiene il valore vero") e' puramente frequentista, ed e' vera per costruzione. Le altre interpretazioni sono pure valide, ma dipendono dall'interpretazione (soggettiva) che uno vuole dare alla parola "probabilita"

A questo punto forse  non ha molto senso continuare qui perché stiamo andando fuori tema, ma do' la mia ultima risposta.

L'intrepretazione da te riportata:

SE il partito avesse davvero il 35% dei consensi nella popolazione, e SE avessimo la possibilità di effettuare molti sondaggi campionando casualmente sempre lo stesso numero di elettori (ma non necessariamente gli stessi), ALLORA questo partito riceverebbe in ciascuno di quei campioni fra il 32% ed il 38% dei voti nel 95% di questi campioni

 è si frequentista, ma probabilistica.

Qui però siamo in statistica, non nel calcolo delle probabilità. Infatti non dai (ti prego di accettare il tu, non riesco a parlare di statistica dando del lei) un risultato compatto (come invece faccio io: stima tra 1.8% e 3.4%  con copertura ≥95%.) ma dai invece  una tabella ed un istogramma, validi solo sotto certe ipotesi, come si fa nel calcolo delle probablità.

Ripeto, l'intervallo di confidenza ha una sola interpretazione, quella di Neyman.

Sono pronto a ricredermi se mi quoti dei testi o degli articoli dove all'intervallo di confidenza viene data la tua interpretazione.