Sobre Aleatorização e Amostras Grandes

Zinho
9 min readMar 26, 2023

--

A aleatorização da amostra é extremamente essencial para qualquer pesquisa estatística de qualidade. Mas um aluno mais astuto talvez possa vir a questionar a necessidade desse processo lento e custoso invocando coisas como as leis dos grandes números e o teorema central do limite. Então estaria certo esse aluno? Poderíamos dispensar a randomização uma vez que nosso N tende ao infinito? Vamos no presente texto mostrar o porque isso não se segue usando o exemplo mais clássico de previsão errada na história de pesquisas eleitorais, a da eleição da presidência americana em 1936 feita pela Digest.

Antes de propriamente adentrarmos no texto precisamos contextualizar o cenário de nossa análise. Tal constitui-se na eleição presidencial de 1936 entre o até então presidente em exercício, Franklin D. Roosevelt, contra Alf Landon, o desafiante republicano. Roosevelt já havia ganhado a eleição prévia com uma porcentagem considerável tanto no colégio eleitoral quanto no voto popular, uma porcentagem de 57.4% de Roosevelt contra 39.6% de Hoover. Muito como consequência da percebida inação de Herbert Hoover com quanto a Grande Depressão, entretanto o avanço de políticas contra cíclicas fiscais, denominadas de new deal acarretaram uma reação negativa do público republicano. Essa reação possivelmente indicava uma certa turbulência com relação a percepção de Roosevelt na presidência, algo que seria corroborado aos leitores da revista The Literary Digest.

A revista Digest foi uma influente revista semanal de interesse geral americana fundada por Isaac Kaufmann Funk em 1890 e publicada pela Funk & Wagnalls. A partir de 1916, realizou uma pesquisa sobre o provável resultado da eleição presidencial quadrienal, tendo um histórico de acerto em relação às suas estimativas até o fatídico ano de 1936.

O ano em si é atípico para a pesquisa feita por um conjunto de fatores, dentre eles temos que a revista entrevistou dez milhões de pessoas, sendo que desse total 2,27 milhões responderam, um total astronômico para qualquer pesquisa de opinião, uma vez que o padrão hoje em dia nas pesquisas americanas é uma amostra da 1500–2000. A revista pesquisou primeiro seus próprios leitores, um grupo com renda disponível bem acima da média nacional da época e duas outras listas prontamente disponíveis, as de proprietários de automóveis registrados e de usuários de telefones, ambas também mais ricas do que o americano médio na época.

Outro fator anômalo do ano é o desastroso resultado da pesquisa a despeito da sua amostra gigantesca. A conclusão da Digest depois de todas as análises estatísticas e descritivas foi de que o candidato republicano, o governador Alfred Landon, do Kansas, provavelmente seria o vencedor esmagador contra o atual presidente Franklin Delano Roosevelt. Em novembro, Roosevelt venceu a eleição com uma vitória esmagadora sem precedentes, vencendo todos os estados, exceto Maine e Vermont, ao mesmo tempo em que conquistou o voto popular por 24,26%. A magnitude do erro da revista — 19,54% para o voto popular em Roosevelt v Landon, e ainda mais em alguns estados — destruiu a credibilidade da revista e ela fechou 18 meses após a eleição.

Mas porquê isso aconteceu?

Viés de Não Resposta e Amostragens Não Aleatórias

Como o título da seção já adianta, há dois erros presentes na amostragem da pesquisa, que são respectivamente o viés de não resposta e amostragens não aleatórias. Ambos estão relacionadas na forma como os dados foram coletados, ilustrando o fato de que independente da sua amostra ser dez, cem ou mil vezes maior que o número de participantes padrões de uma amostra padrão, isso não é suficiente para resolver o seu problema se é acometido por amostras não-aleatórias e se houver um grande viés de não resposta.

Para prosseguir é preciso entender o que é uma amostra aleatória, portanto fica fácil entender sua negação assim como o que é o viés de não resposta.

Amostra Aleatória

Primeiro para algumas definições: População é o conjunto de todos os elementos ou resultados sob investigação. Amostra é qualquer subconjunto da população.

Exemplo tirado de Morettin & Bussab (2017, p. 262–263): Consideremos uma pesquisa para estudar os salários dos 500 funcionários da Companhia MB. Seleciona-se uma amostra de 36 indivíduos, e anotam-se os seus salários. A variável aleatória a ser observada é “salário”. A população é formada pelos 500 funcionários da companhia. A amostra é constituída pelos 36 indivíduos selecionados. Na realidade, estamos interessados nos salários, portanto, para sermos mais precisos, devemos considerar como a população os 500 salários correspondentes aos 500 funcionários. Consequentemente, a amostra será formada pelos 36 salários dos indivíduos selecionados. Podemos estudar a distribuição dos salários na amostra, e esperamos que esta reflita a distribuição de todos os salários, desde que a amostra tenha sido escolhida com cuidado.

Seguindo de perto novamente Morettin & Bussab (2017, p.267–268), a estatística nos mostra que a maneira de se obter a amostra é extremamente importante, e há muitos modos de fazê-lo, mas poderíamos simplesmente dividir os procedimentos científicos de obtenção de dados amostrais em três grandes grupos:

  1. Levantamentos Amostrais, nos quais a amostra é obtida de uma população bem definida, por meio de processos bem protocolados e controlados pelo pesquisador.
  2. Planejamento de Experimentos, cujo principal objetivo é o de analisar o efeito de uma variável sobre outra. Requer, portanto, interferências do pesquisador sobre o ambiente em estudo (população), bem como o controle de fatores externos, com o intuito de medir o efeito desejado.
  3. Levantamentos Observacionais: aqui, os dados são coletados sem que o pesquisador tenha controle sobre as informações obtidas, exceto eventualmente sobre possíveis erros grosseiros.

Tendo isso em vista, uma amostragem aleatória (simples) é uma maneira para selecionarmos uma amostra probabilística de uma população, no qual utilizando-se um procedimento aleatório, sorteia-se um elemento da população, sendo que todos os elementos têm a mesma probabilidade de ser selecionados. Repete-se o procedimento até que sejam sorteadas as n unidades da amostra (Morettin & Bussab 2017, p.269). É digno de nota, que a amostragem aleatória é diferente de uma variável aleatória. Sendo que uma variável aleatória é aquela que assume valores numéricos e tem um resultado que é determinado por um experimento, sendo este por sua vez qualquer procedimento que pode, pelo menos em teoria, ser repetido infinitamente e tem um conjunto bem definido de resultados.

Diz Morettin & Bussab (2017, p. 264):

“[…] o objetivo da Inferência Estatística é produzir afirmações sobre dada característica da população, na qual estamos interessados, a partir de informações colhidas de uma parte dessa população. Essa característica na população pode ser representada por uma variável aleatória. Se tivéssemos informação completa sobre a função de probabilidade, no caso discreto, ou sobre a função densidade de probabilidade, no caso contínuo, da variável em questão, não teríamos necessidade de escolher uma amostra. Toda a informação desejada seria obtida por meio da distribuição da variável.”

Ou seja, uma amostragem não-aleatória simplesmente indica que estamos sendo mais prováveis de selecionar um determinado grupo de indivíduos que outros. O problema dessa seleção é justamente o fato dela enviesar nossa inferência. Para mais preciso, não há garantia teórica de convergência ao resultado certo. Para entender isso é preciso saber que pela lei forte dos grandes números, a proporção amostral converge quase certamente para proporção populacional (em particular, a probabilidade empírica converge para probabilidade teórica). Então, existe uma justificativa teórica para o uso de amostras aleatórias.

Dito isso, vamos às duas situações em que não louve houve o uso da amostra aleatória:

  1. Você usou uma amostra não probabilística: Se a sua amostra é não probabilística, então sequer faz sentido falar que, quando n tende ao infinito, ela converge em probabilidade (ou quase certamente ou certamente etc) pra algum valor ou distribuição
  2. Você usou uma amostra probabilística diferente da distribuição alvo (por exemplo, você está usando apenas pessoas da sua cidade): Como a distribuição da amostra é diferente, você não necessariamente tem garantia de que você está convergindo pros valores da população alvo.

Consequentemente, embora não há como argumentar que o resultado necessariamente vai ser errado, tudo que conseguimos apontar é que, ao contrário da amostra aleatória, a amostra não aleatória não possui nenhuma garantia teórica de que ela te leva ao resultado certo. Gerando apenas um estimador não consistente e enviesado.

Esse problema aparece na pesquisa da revista pelo fato de que as fontes de amostras não são aleatórias. Os leitores da revista Digest como pontuado acima tem uma renda elevada com relação a renda média da população americana. Assim como, as pessoas com carros e telefones na década de 30 durante a Depressão, possuíam também uma renda mais elevada que a média. Portanto, dado que estamos olhando para um estrato mais rico da população, naturalmente certas características estão sendo privilegiadas de modo que enviesa a amostra. Por exemplo, pelo estudo de Powdthavee & Oswald (2014) temos motivos empíricos para acreditar que pessoas mais ricas tendem ter crenças políticas mais à direita. Consequentemente, é de se esperar que na amostra selecionada visões pró-republicanas estejam sendo privilegiadas.

No estudo, os pesquisadores ao olharem para ganhadores da loteria ao longo do tempo, fornecem evidências longitudinais de que as escolhas de voto são feitas por interesse próprio e, em seguida, passam a ser bordadas na mente com uma forma de retórica moral. No conjunto de dados, muitas centenas de indivíduos recebem por acaso ganhos significativos da loteria. Descobriu-se que quanto maior é o ganho na loteria, maior é a tendência subsequente dessa pessoa, depois de controlar outras influências, de mudar suas opiniões políticas da esquerda para a direita. Também fornecemos evidências de que os ganhadores da loteria são mais simpáticos à crença de que as pessoas comuns “já recebem uma parte justa da riqueza da sociedade”. Para um resumo do estudo leia aqui.

A visão acima ficou consagrada na literatura, entretanto, segundo Lusinchi (2012), evidências empíricas, na forma de uma pesquisa Gallup de 1937, mostram que essa “explicação convencional” está errada (ou incompleta), porque os eleitores com telefones e carros apoiaram Franklin D. Roosevelt e porque foram aqueles que não participaram da pesquisa (esmagadoramente apoiadores de Roosevelt ) que foram os principais responsáveis ​​pela previsão defeituosa.

Portanto, decorrente ao fator acima, olhamos para o segundo erro.

Viés de Não-Resposta

Como o nome diz, o viés de não-resposta acontece quando aqueles que não querem ou não podem participar de um estudo de pesquisa são diferentes daqueles que o fazem. Mais especificamente, ele ocorre quando respondentes e não respondentes diferem categoricamente de maneiras que impactam a pesquisa. Portanto, a ausência de respostas gera uma amostra não-aleatória e consequentemente não-representativa. Como consequência o estimador difere do parâmetro verdadeiro que se buscava estimar.

Note, o problema não é a não resposta em si, mas o fato dos indivíduos que responderam e não responderam diferem entre si em características relevantes para o que se busca estudar. Foi justamente esse problema que primordialmente afetou a pesquisa eleitoral feita em 36, como mostram as tabelas abaixo de Lusinchi (2012, p. 36–37)

O autor chega então nas seguinte conclusões:

  1. Se todos na lista original da Digest tivessem devolvido sua cédula de votação, a revista estaria em posição de prever o vencedor correto da eleição: Roosevelt.
  2. Os que responderam e os que não responderam às pesquisas favoreceram candidatos opostos: enquanto três quintos dos que não responderam votaram no titular, apenas dois quintos dos que responderam o fizeram.
  3. Os partidários de Landon eram muito mais propensos a devolver suas cédulas do que as de Roosevelt: quase um terço contra apenas um quinto.
  4. A maior parte do erro de previsão feito pelo Digest pode ser atribuída ao viés de não resposta. A participação real de Roosevelt na votação bipartidária foi de 62,5%; sua parcela prevista pelo Digest foi de 42,9 por cento: uma diferença de 19,6 pontos — essa é a extensão do erro total cometido pelo Digest. Como consta na tabela 2, o erro pode ser dividido em dois componentes aditivos: a parte devido ao viés da amostra (5,9 = 62,5–56,6) e a parcela resultante do viés de não resposta (13,7 = 56,6–42,9).

Conclusão

Em suma, uma amostra grande não é um remédio para a ausência de aleatorização, entretanto é digno de nota que uma amostra aleatória, porém pequena também é sujeito a problemas. Para uma estimação consistente e não-viesada é também necessário possuir uma amostra adequada, e neste caso, pela lei fortes dos grandes números conseguimos as propriedades desejáveis que gostaríamos de um estimador. Para saber mais sobre achar o tamanho da amostra ideal, leia aqui e recomenda-se o já citado Morettin & Bussab (2017).

Espero que tenham gostado e até a próxima!

Referência

Lusinchi, Dominic. ““President” Landon and the 1936 Literary Digest Poll: were automobile and telephone owners to blame?.” Social Science History 36.1 (2012): 23–54.

Morettin, Pedro A., and Wilton O. Bussab. Estatística básica. Saraiva Educação SA, 2017.

Powdthavee, Nattavudh, and Andrew J. Oswald. “Does money make people right-wing and inegalitarian? A longitudinal study of lottery winners.” (2014).

--

--

Zinho

Mestrando em Estatística pela IMECC - Unicamp, bacharel em ciências econômicas FEA-USP. Sonho em ser acadêmico/professor.