Titolo

Il margine di errore nei sondaggi della consistenza elettorale di un partito piccolo

4 commenti (espandi tutti)

Qualcuno sa dove trovare dati sul track record delle varie case di sondaggi?

La mia impressione è che tendano tutte a sbagliare nella stessa direzione. Gli episodi che ricordo sono la sovrastima di Sinistra Arcobaleno nel 2008 (tutti sbagliarono predicendo 3-4 punti in più di quello veramente preso), la sovrastima del PdL alle Europee (stessa storia, tutti attribuirono 3-4 punti in più) più altri episodi limitati (tutti sbagliarono sottostimando di parecchio Pisapia a Milano, per esempio).  Non credo che Scenari Politici fosse operativo nel 2008 (mi sbaglio?), ma se lo è stato sarebbe interessante vedere se la metodologia che usano ha permesso loro di non fare gli stessi errori fatti da tutti gli altri (anche se magari ne ha fatti di diversi).

2008

Francesco Forti 12/1/2013 - 22:03

in effetti sono nati nel 2008

Qui come già indicato sopra si parla della metodologia e nelle risposte alle domande piu' sotto puoi avere qualche dettaglio.

Si possono vedere i loro sondaggi del 2008 (link in fondo alla pagina).

Interessante questo "perche i sondaggi politici sbagliano"

Nella FAQ che ho linkato all'inizio affermano di essere nati nel 2008. Comunque qualcosa spiegano nei commenti e sono aperti alle domande degli utenti. Riguardo alla grandezza del campione gliel'ho domandato ieri, sia nazionale che veneto, ma non mi hanno risposto (probabilmente non rispondono sulla pagina facebook, riproverò direttamente sul sito).
Per i track record sempre Scenari Politici si occupa di raccogliere tutti i dati di tutti gli istituti sondaggistici, elaborando pure confronti tra i dati. Per esempio lo storico di Swg, e una rielaborazione della distribuzione dei risultati.

Per Moro:
su come il guadagno in termini di margine d'errore si assottigli al crescere del campione concordo e non discuto. Comunque se affermano che sono arrivati ad avere in 3 giorni una partecipazione di 6000 persone risulta comunque il quadruplo di Swg. Poi se si nota che non fanno solo sondaggi nazionali, ma pure regionali, immagino che si trovino ad usarne il più possibile.
Comunque quello che mi ha colpito non è tanto la grandezza del campione al fine di ridurre il margine di errore statistico, ma la possibilità di scartare e selezionare all'interno dei 6000 dati quelli meglio rappresentativi, insomma, un campione sovrabbondante al fine di ottimizzare la selezione del campione finale (quello che lei mette al punto 2), cosa più difficile da fare partendo da "appena" 1500 dati.

PS: rileggendo mi viene il dubbio sui miei 20mila. A parte il discorso che non tutti quelli nel database rispondono, comunque all'inizio l'avevo interpretato come 6mila occasionali + quelli che rispondono dal database. Probabilmente invece è 6000 in totale. Comunque le considerazioni rimangono.

Modello

Leonardo Padovan 13/1/2013 - 21:40

Ieri non avevo granché tempo, ora invece cerco di esser più concreto, faccio un mini-modello e illustro la distribuzione dei risultati.

Il modello di Moro suppone che la distribuzione dei voti e delle interviste sia omogenea rispetto alla popolazione (che chiamerò Caso "omogeneo"). Io provo invece a modellizzare il caso in cui nè il voto nè le interviste siano omogeneamente distribuite all'interno della popolazione (che chiamerò Caso "disomogeneo").
Prendiamo il caso di un ipotetico "Partito dei pensionati", il quale raggiunge il 4% dei consensi, ma tutti concentrati nella fascia di popolazione over 65 (il 25% dell'elettorato), la quale a sua volta, per le modalità di intervista, va a rappresentare solamente il 5% delle interviste.
L'idea è che per correggere la rappresentatività degli over 65 bisogna "stirare" il relativo sotto-campione, col risultato di dilatare pure il margine di errore (qui considerando che delle 1500 interviste solamente 75 raggiungono gli over 67, si raggiunge lo stesso errore che si avrebbe avuto con sole 300 interviste nel Caso "omogeneo").

Come sopra: popolazione di 5,000,000, 5000 interviste, campione di 1500 (per avvicinarmi di più al caso Swg).
- Caso "omogeneo":
https://docs.google.com/file/d/0Bx2Ppq7WYxleaE9hUmFobWdVZ3M/edit
- Caso "disomogeneo" con 1500 interviste
https://docs.google.com/file/d/0Bx2Ppq7WYxleSndwQW5oY0d3WDg/edit
- Caso "disomogeneo" con 4900 interviste
https://docs.google.com/file/d/0Bx2Ppq7WYxleZUFfUGhJd1dMaXc/edit

Ovviamente se non si corregge il sotto-campione over 65 in base alla rappresentatività reale nella popolazione si arriva a sottostimare il risultato di circa 3 punti percentuali.
Per concludere era per questo motivo che ritenevo come un campione molto grande possa aiutare a raggiungere risultati più precisi, lasciando più spazio di manovra nel selezionare il campione finale (ammesso che si sappia come ponderare).

Riassumendo:
Scenari Politici usa il metodo CAWI, domandando sesso, età, regione, ampiezza comune, occupazione, frequenza messa. Inoltre chiede prima e seconda preferenza, e partito votato alle precedenti elezioni. Campione di 3828 casi su 6039 interviste.
Swg usa un metodo misto CAWI-CATI, domanda sesso, età, zona, ampiezza del comune di residenza. Campione di 1500 intervistati su 4900 contatti complessivi (non saprei dire se include chi non ha voluto rispondere).

Quindi Scenari Politici ha a disposizione, oltre che più intervistati, pure più informazioni su cui vincolare i risultati. Inoltre affermano di integrare con le serie storiche. Manca da vedere come e quanto correggono i dati.

Per Brusco:
ho ricontrollato, Scenari Politici ha aperto come blog nel 2008, i sondaggi in casa hanno cominciato a redigerli più tardi e solo ultimamente con frequenza costante, non ho trovato riscontri sull'affidabilità.
Per il track record Termometro Politico ha un database molto più ampio (fino al 2006) e sì, guardando le elezioni del 2008 hanno sbagliato tutti nella stessa direzione: sovrastima de La sinistra l'arcobaleno di almeno il 3% (hanno raggruppato secondo le nuove coalizioni, quindi la chiamano SEL, vabbé) e forte sottostima della Lega del 3-4%. Tutti in sovrastima (più ridotta) di PdL, PD e Udc, sottostima de La Destra. Idv non saprei (anche qui hanno raggruppato con "Arancioni", comunque sottostimato). Da notare che "Altri" sono stati sottostimati del 2-3% con l'eccezzione di Demos, Dinamiche e ISPO che hanno sottostimato di appena 1%.