Titolo

Il margine di errore nei sondaggi della consistenza elettorale di un partito piccolo

1 commento (espandi tutti)

Modello

Leonardo Padovan 13/1/2013 - 21:40

Ieri non avevo granché tempo, ora invece cerco di esser più concreto, faccio un mini-modello e illustro la distribuzione dei risultati.

Il modello di Moro suppone che la distribuzione dei voti e delle interviste sia omogenea rispetto alla popolazione (che chiamerò Caso "omogeneo"). Io provo invece a modellizzare il caso in cui nè il voto nè le interviste siano omogeneamente distribuite all'interno della popolazione (che chiamerò Caso "disomogeneo").
Prendiamo il caso di un ipotetico "Partito dei pensionati", il quale raggiunge il 4% dei consensi, ma tutti concentrati nella fascia di popolazione over 65 (il 25% dell'elettorato), la quale a sua volta, per le modalità di intervista, va a rappresentare solamente il 5% delle interviste.
L'idea è che per correggere la rappresentatività degli over 65 bisogna "stirare" il relativo sotto-campione, col risultato di dilatare pure il margine di errore (qui considerando che delle 1500 interviste solamente 75 raggiungono gli over 67, si raggiunge lo stesso errore che si avrebbe avuto con sole 300 interviste nel Caso "omogeneo").

Come sopra: popolazione di 5,000,000, 5000 interviste, campione di 1500 (per avvicinarmi di più al caso Swg).
- Caso "omogeneo":
https://docs.google.com/file/d/0Bx2Ppq7WYxleaE9hUmFobWdVZ3M/edit
- Caso "disomogeneo" con 1500 interviste
https://docs.google.com/file/d/0Bx2Ppq7WYxleSndwQW5oY0d3WDg/edit
- Caso "disomogeneo" con 4900 interviste
https://docs.google.com/file/d/0Bx2Ppq7WYxleZUFfUGhJd1dMaXc/edit

Ovviamente se non si corregge il sotto-campione over 65 in base alla rappresentatività reale nella popolazione si arriva a sottostimare il risultato di circa 3 punti percentuali.
Per concludere era per questo motivo che ritenevo come un campione molto grande possa aiutare a raggiungere risultati più precisi, lasciando più spazio di manovra nel selezionare il campione finale (ammesso che si sappia come ponderare).

Riassumendo:
Scenari Politici usa il metodo CAWI, domandando sesso, età, regione, ampiezza comune, occupazione, frequenza messa. Inoltre chiede prima e seconda preferenza, e partito votato alle precedenti elezioni. Campione di 3828 casi su 6039 interviste.
Swg usa un metodo misto CAWI-CATI, domanda sesso, età, zona, ampiezza del comune di residenza. Campione di 1500 intervistati su 4900 contatti complessivi (non saprei dire se include chi non ha voluto rispondere).

Quindi Scenari Politici ha a disposizione, oltre che più intervistati, pure più informazioni su cui vincolare i risultati. Inoltre affermano di integrare con le serie storiche. Manca da vedere come e quanto correggono i dati.

Per Brusco:
ho ricontrollato, Scenari Politici ha aperto come blog nel 2008, i sondaggi in casa hanno cominciato a redigerli più tardi e solo ultimamente con frequenza costante, non ho trovato riscontri sull'affidabilità.
Per il track record Termometro Politico ha un database molto più ampio (fino al 2006) e sì, guardando le elezioni del 2008 hanno sbagliato tutti nella stessa direzione: sovrastima de La sinistra l'arcobaleno di almeno il 3% (hanno raggruppato secondo le nuove coalizioni, quindi la chiamano SEL, vabbé) e forte sottostima della Lega del 3-4%. Tutti in sovrastima (più ridotta) di PdL, PD e Udc, sottostima de La Destra. Idv non saprei (anche qui hanno raggruppato con "Arancioni", comunque sottostimato). Da notare che "Altri" sono stati sottostimati del 2-3% con l'eccezzione di Demos, Dinamiche e ISPO che hanno sottostimato di appena 1%.