Alguns comentários sobre pesquisas eleitorais

Por OTAVIANO HELENE*

Considerar dados de diferentes agências de pesquisa tem a vantagem de aumentar a quantidade de informação, mas aumenta a flutuação

Pesquisas sobre as preferências eleitorais da população dão indicações do que poderia ocorrer se a eleição ocorresse naquele momento. Entretanto, para avaliar de forma mais geral os resultados das pesquisas, em especial quanto a possíveis tendências que elas possam revelar, alguns cuidados devem ser tomados. Vamos exemplificar isso com base nos resultados das preferências pelos quatro principais candidatos nas pesquisas eleitorais para presidente feitas por diversas organizações nos meses de fevereiro a março de 2022,[1] antes, portanto, das alterações partidárias, das definições das chapas e da consolidação das candidaturas, ainda que não em definitivo, coisas ocorridas no início de abril.

Os dados a serem analisados aparecem na figura 1. A ordenada (eixo y) de cada um dos pontos da figura 1 mostra as preferências manifestadas pelas pessoas consultadas em uma pesquisa realizada na data correspondente à abscissa (eixo x).[2] Quando, em uma mesma pesquisa, eram considerados mais do que um conjunto de candidatos (usualmente chamado de cenário pelos meios de comunicação), os vários resultados foram representados na mesma abscissa.

Figura 1 – Resultados de pesquisas eleitorais; candidatos com maiores preferências.

Usualmente, os resultados das pesquisas são apresentados juntamente com uma estimativa grosseira da “margem de erro”, tipicamente da ordem de 2% ou 3%. Essa “margem de erro” significa que, caso a pesquisa fosse feita no mesmo dia, usando os mesmos procedimentos e abordando pessoas com os mesmos perfis (idade, sexo, escolaridade, renda, região geográfica, religião etc.), os resultados poderiam ser diferentes dentro daquela faixa. Essas “margens de erro” são apenas de caráter estatístico, ou seja, não incluem incertezas devidas à metodologia adotada ou às hipóteses quanto ao perfil da população eleitora. Além disso, aquelas margens são válidas para candidatos com boas preferências; no caso de candidatos com taxas menores de preferência, as “margens de erro” são menores, como discutido mais adiante.

Portanto, variações inferiores à margem de erro entre duas pesquisas sucessivas feitas por uma mesma empresa não permitem supor que tenha havido, segura e realmente, uma variação na preferência do eleitorado. Essa conclusão só seria possível se pelo menos uma das seguintes condições for satisfeita: a variação ter sido superior à “margem de erro”; uma variação no mesmo sentido volte a ocorrer em uma nova pesquisa feita pela mesma empresa; uma variação equivalente tenha ocorrido em pesquisas feitas por outra empresa nas mesmas datas.

Aqueles usuais 2 ou 3% são uma estimativa grosseira da margem de erro. Tal margem depende, de fato, do grau de preferência do candidato. Por exemplo, como pode-se observar na figura 1, enquanto as preferências máximas e mínimas pelos dois possíveis candidatos mais cotados (Lula e Bolsonaro) variaram, respectivamente, dentro de uma faixa 13% e 12% no período, as preferências pelos candidatos Ciro e Moro variaram dentro de faixas bem menores, 5% e 4%, também respectivamente. Aquela margem de erro, da ordem de 2% a 3%, é válida para candidaturas com alta preferência.

Como regra, quanto mais próximo de 50% for a preferência por uma candidatura, maior é essa “margem de erro”. Assim, uma variação de 3% na preferência por uma candidatura, de 50% para 53%, por exemplo, pode não significar nada, enquanto a mesma variação em uma candidatura pouco cotada, digamos, de 5% para 8%, pode ser bastante significativa.

Quando são comparadas pesquisas feitas por empresas diferentes, as faixas de variação (“margens de erro”) podem ser maiores, como discutido a seguir.

Além das variações meramente aleatórias, pode haver diferenças dos resultados também por causa da adoção de diferentes metodologias e hipóteses quanto ao perfil da população que irá votar (como ela se distribui pelas faixas de renda, de escolaridade, de idade, de regiões do país etc.).

Por exemplo, entre os dados que aparecem na figura 1, há dois tipos de pesquisa: uma presencial e outra por telefone. As diferenças entre esses dois resultados são bastante significativas. Nas pesquisas feitas por telefone, o candidato Lula tinha, em média, cerca de 2 a 3% menos votos do que nas pesquisas feitas presencialmente. Quanto ao candidato que aparece em segundo lugar, a situação se inverte, tendo mais votos nas consultas por telefone do que nas presenciais.

Fatos como esse devem ser considerados quando comparamos resultados divulgados por diferentes empresas de pesquisa.

Os dados que aparecem na figura 1, divulgados ao longo dos meses de fevereiro e março, não evidenciam nenhuma tendência nas preferencias pelos quatro possíveis candidatos ao longo do tempo.[3] Se a eleição ocorresse ao longo daquele período e com aqueles candidatos incluídos nas pesquisas, os resultados indicariam uma votação entre 39 e 42% para Lula e entre 26 e 29% para o outro candidato. Quanto aos votos válidos, Lula teria entre 45 e 49% deles.

É necessário dizer que o fato de os dados não indicarem nenhuma evidência de variação significativa ao longo dos dois meses considerados não é evidência que não tenha havido alguma variação: ausência de evidência de um efeito não é evidência de sua inexistência.

Além das variações aleatórias típica de processos de amostragem e as diferenças entre resultados obtidos por diferentes empresas de pesquisa por causa das diferentes metodologias e hipóteses sobre o perfil dos eleitores, há um efeito de correlação entre os resultados que pode induzir a conclusões erradas.

Para entender isso, suponha uma situação que tenha apenas dois candidatos. Mil pessoas são entrevistadas e, digamos, 600 dizem preferir A e 400, B: 60% e 40%, respectivamente. Alguns dias depois, na mesma rua, outras 1000 pessoas são entrevistadas (pela mesma empresa, usando as mesmas metodologias e hipóteses etc.). Mesmo que não tenha havido diferença alguma entre a preferência do eleitorado, a quantidade de pessoas que dizem preferir A pode ser um pouco maior ou um pouco menor do que 600 apenas por fruto do acaso. Digamos que sejam 630 (63%). Sendo assim, necessariamente o número de pessoas que dizem preferir o candidato B será menor, 370 (37%). Isso poderá dar a impressão que a preferência do eleitorado variou: aumentou a preferência por uma das candidaturas e, “confirmando essa a mudança de posição do eleitorado”, diminuiu a preferência pelo outro; a diferença entre eles aumentou em 6%, bem mais do que as típicas margens de erro.

Mas os dados não permitem essa conclusão e a frase entre aspas acima está errada. O fato de B ter diminuído, em lugar de “confirmar a tendência”, apenas reflete o fato que a soma das preferências percentuais pelas duas candidaturas é fixa, 100%: se uma cresce, a outra, necessariamente, diminui.

Quando há mais do que dois candidatos, esse efeito é menos marcante; entretanto, quando dois deles têm uma grande proporção dos votos totais, como ocorre com os dados mostrados na figura 1, o efeito é significativo. Esse efeito faz com que, embora as preferências pelos dois principais candidatos variaram dento de uma faixa de 12% a 13%), a diferença entre as preferencias de ambos variou, no mesmo período, de 22%.

Uma combinação de todos os efeitos descritos deve ter ocorrido nas pesquisas no período considerado. Por exemplo, na região destacada mais à esquerda na figura 2, parece que a candidatura Lula teria caído, e muito, havendo mesmo quase uma inversão de posição ao longo da primeira quinzena de fevereiro.

Entretanto, esse fato pode ser apenas uma combinação dos efeitos considerados. Primeiro, variações da ordem de 3% na aparente preferência por um candidato não são significativas. Em segundo lugar, por causa do efeito discutido acima, o crescimento, apenas por flutuação aleatória, na pontuação de um desses dois candidatos mais votados implica, muito provavelmente, no decrescimento do outro, o que faz com que variações na diferença da ordem do dobro daquele valor, 6%, possam não ser estatisticamente significativas. Um terceiro efeito é o fato que no final do período destacado na figura 2 estão incluídas pesquisas feitas por telefone; pesquisas por telefone deram, no período analisado, em média, menos votos para Lula e mais para Bolsonaro.

Portanto, os dados não permitem concluir que houve uma variação sistemática durante aquele período.

Figura 2 – Mesmo que figura 1, mas apenas para os dois candidatos com maiores preferências. A região destacada poderia sugerir, erroneamente, uma tendência: queda da preferência por uma candidatura e crescimento pela outra.

 

Conclusão

Podemos analisar os resultados de pesquisas eleitorais olhando apenas os resultados apresentados por uma única empresa ao longo do tempo, o que evita que as variações observadas sejam afetadas por diferentes hipóteses quanto ao perfil socioeconômica da população eleitora e pelas metodologias adotadas (telefone e presencial, por exemplo). Entretanto, fazer isso limita a quantidade de informações que podemos analisar.

Considerar dados de diferentes agências de pesquisa tem a vantagem de aumentar a quantidade de informação, mas aumenta a flutuação por causa das diferentes hipóteses e metodologias adotadas.

Qualquer que seja a opção de análise, é necessário evitar conclusões apressadas. É importante também lembrar que as preferências eleitorais variam lentamente ao longo do tempo, a menos que surjam fatos ou notícias, verdadeiras ou falsas, muito marcantes.

*Otaviano Helene é professor sênior do Instituto de Física da USP.

 

Notas


[1] Pesquisas feitas pelas seguintes agências: Quaest, Ipespe, Datafolha, Paraná Pesquisas, MDA, Ideia, Futura, PoderData, Gerp.

[2] As datas correspondem às da realização das pesquisas, não às da divulgação dos resultados.

[3] Isso não significa que não esteja havendo alguma variação das preferências dos eleitores; apenas não há evidência disso.