Causalidade nas ciências sociais.

Zinho
25 min readJan 29, 2022

--

Causalidade, a ciência da causa e efeito.

Todos que tiveram algum contato com estatística já ouviram do mantra “correlação não implica causalidade”. E de fato, não é o caso. Mas um aluno mais curioso, quando abre seu livro-texto de estatística, se vê órfão quando busca tentar entender o que diabos é essa causalidade. Por exemplo, no famoso livro introdutório “Estatística Básica” de Bussab & Morettin (2010) a palavra “causalidade” sequer aparece. O que é esse conceito que um dos desenvolvedores da estatística diz: “Além de fundamentos descartados como ‘matéria’ e ‘força’ existe ainda outro fetiche entre os inescrutáveis ​​arcanos da ciência moderna, a saber, a categoria de causa e efeito” (Pearson, 1911).

Então, o que é causalidade? Essa é uma pergunta que atormentou por anos os cientistas e filósofos. Por muitos séculos foi considerada apenas uma questão metafísica, na medida em que fala sobre um aspecto último da realidade. Consequentemente, para um cientista ainda influenciado pelo anti-metafisicismo herdado dos empiristas lógicos (para quem quiser saber mais sobre esse movimento filosófico recomenda-se esse link ), pode ser levado apressadamente a descartar esse conceito sumariamente das ciências: “Banem a causalidade, vivemos muito bem até agora apenas com associações, porque reviver essas ideias arcanas e abstratas?” — questionaria nosso cientista ingênuo. Todavia, principalmente com o trabalho de Rubin (1974), com seu modelo Neyman-Rubin e o trabalho de Pearl (2000) e seu modelo Structural Causal Models, a causalidade ganhou finalmente uma gramática para qual os cientistas finalmente pudessem vencer os dogmas que os impeliram tantos anos de ousar pronunciar sobre causa e efeito.

Antes de adentrarmos nos modelos, vamos prover a intuição por trás deles. Tais modelagens adotam a teoria contrafactual de causalidade, uma posição metafísica primeiramente elaborada na literatura filosófica por David Lewis em seu clássico paper Causation (Lewis, 1974). Antes de Lewis, a definição padrão de causalidade foi aquela provida por Hume (1748): “Podemos definir uma causa como sendo um objeto seguido por outro, e onde todos os objetos, semelhantes ao primeiro, são seguidos por objetos semelhantes ao segundo. Ou, em outras palavras, onde, se o primeiro objeto não tivesse sido, a segunda nunca existiu.”.

Um leitor astuto perceberia que existem duas definições dentro da formulação de Hume. A primeira é a parte que diz “uma causa como sendo um objeto seguido por outro, e onde todos os objetos, semelhantes ao primeiro, são seguidos por objetos semelhantes ao segundo.”. Essa parte define causalidade como uma análise de regularidade, na qual existe uma lei causal em que dada certas condições, um objeto ao ser instanciado por essas leis, produz um certo efeito. Sendo essa definição a que a literatura filosófica se preocupou por séculos, mas Lewis finalmente alerta a comunidade filosófica que se todas as tentativas de se produzir uma filosofia da causalidade consistente tem sido falha, seria melhor tentar explorar a segunda definição humeana, que é “ se o primeiro objeto não tivesse sido, a segunda nunca existiu.”. Sendo essa a teoria contrafactual da causalidade.

Para entender o que é um contrafactual, ao meu ver, fica mais fácil entender o conceito traduzindo para a semântica modal de mundos possíveis. Um mundo possível é uma descrição completa e consistente de como as coisas poderiam ter sido ou de como as coisas são. A estória é consistente no sentido em que seus enunciados não implicam em contradições; ela descreve um conjunto de situações possíveis que são todas possíveis juntas. A estória pode ser ou não ser verdadeira. O mundo atual é a estória que é verdadeira — a descrição de como as coisas são de fato. Então digamos que você está num impasse, tomar a decisão A ou não-A. Digamos ainda que no mundo atual você tomou a decisão A, logo existe um mundo possível, na qual você tomou não-A. O contrafactual de tomar a decisão A é tomar a decisão não-A. Para saber mais sobre essa literatura, recomendo Mortari (2001), sendo uma introdução geral na lógica proposicional clássica e suas extensões, enquanto para uma introdução mais matemática a lógica modal recomenda-se Coscarelli (2008) e para uma leitura mais filosófica, recomenda-se Williamson (2013).

Qual é essa gramática da causalidade? Deixo aqui o disclaimer que usarei (e talvez abusarei) do modelo de Resultados Potenciais, ou conhecido como modelo Neyman-Rubin, que foi sintetizado nos livros Imbens & Rubin (2015) e Angrist & Pischke (2008). Embora para um tratamento da abordagem SCM, recomenda-se o Pearl (2000), Pearl et al. (2016) e Pearl & Mackenzie (2018) para uma introdução mais leve. Para uma abordagem mais geral e introdutória de ambas abordagens, recomenda-se Cunningham (2020), Huntington-Klein (2021) e Morgan & Winship (2015).

Retornando ao que importa: Antes de qualquer tratamento (exemplo, tomar aspirina) você tem dois resultados potenciais. O resultado Y^(1) no qual vc tomou aspirina e o Y^(0) no qual você não tomou aspirina.

Num mundo ideal os pesquisadores querem pegar uma população e clonar ela. Primeiro, se faz com que todo mundo (menos os clones) tomem aspirina, enquanto isso, os clones que não tomaram servem como nosso grupo controle. Depois disso, tiramos a média e a diferença nos efeitos vai ser justamente o efeito causal médio. Todavia, ao tomar a aspirina ou não, um dos seus resultados potenciais se realiza. Logo seu resultado atual é Y = Y^(1) ou Y = Y^(0).

Num mundo ideal, na verdade, o cientista quer pegar apenas o segmento da população de interesse. Afinal, na realidade só parte dela vai tomar. Uma vez que a outra vai servir de grupo controle. Mas, no mesmo princípio, desse segmento da população nós os clonarmos, para os originais se dá o tratamento e nos clones não dá. Tira se a média dos grupos, aí temos o efeito causal médio de tratamento nos tratados.

Super bacana, infelizmente aí chegamos no problema fundamental da inferência causal: não temos dados o suficiente. Apenas um dos resultados potenciais, quais que sejam, vai efetivamente ser realizado. Mas magicamente se vc abrir a matemática chegamos na seguinte fórmula:

i.e, Diferença observada de resultados = Efeito causal médio de tratamento nos tratados + {viés de seleção}. Para saber como derivar essa fórmula, veja o apêndice matemático.

Notação: Y^(a) é o resultado que seria observado caso o tratamento seja estabelecido para A = a

Cada indivíduo tem dois resultados potenciais: Y^(0), Y^(1).

Se meu tratamento foi A = 1, então meu resultado contrafactual será Y^(0).

Se meu tratamento foi A = 0, então meu resultado contrafactual será Y^(1).

Recapitulando:

Antes do tratamento, meus resultados potenciais são Y^(0), Y^(1).

Depois do tratamento, meu resultado observado é Y = Y^(a), e meu resultado contrafactual é Y^(1-a).

Em princípio, A tem um efeito causal em Y, se Y^(0) =/= Y^(1).

Da nossa equação temos que:

E[Y|A=a] é a média do resultado observado condicionado que o tratamento foi estabelecido A = a.

E[Y^(1) — Y^(0)| A= 1] é o efeito causal médio do tratamento nos tratados.

E[Y^(0)| A= 1] — E[Y^(0)| A= 0] é o viés de seleção

Viés de seleção: Segundo Delgado-Rodriguez & Llorca (2004, p.631) “[o] conceito de viés é a falta de validade interna ou avaliação incorreta da associação entre uma exposição e um efeito na população-alvo em que a estatística estimada tem uma expectativa que não é igual ao valor verdadeiro.”. Tendo isso em mente, um viés de seleção é “[o] erro introduzido quando a população do estudo não representa a população alvo.” (Delgado-Rodriguez & Llorca, 2004, p.631)

Segundo Heckman (1990, p.201): “O problema do viés de seleção nas estatísticas econômicas e sociais surge quando uma regra diferente da amostragem aleatória simples é usada para amostrar a população subjacente que é o objeto de interesse. A representação distorcida de uma população verdadeira como consequência de uma regra de amostragem é a essência do problema de seleção. As regras de seleção distorcidas podem ser o resultado de decisões de estatísticos de pesquisa por amostragem, decisões de auto-seleção dos agentes estudados ou ambos.”

Então para a diferença dos valores que os pesquisadores efetivamente têm (entre a média do grupo de tratamento e a média do grupo controle) seja o efeito causal médio basta eliminar o viés de seleção. Consequentemente, a causalidade é dar o tratamento para um grupo, enquanto outro grupo contrafactual serve de controle e ver a diferença do efeito médio, sendo que esses dois grupos tendem a ser iguais na média. O problema disso tudo, é que nos falta dados então temos que usar umas técnicas para eliminar o viés de seleção e aproximar os grupos de tal modo que eles sejam de fato, na média, iguais.

Se conseguimos fazer experimentos, então a randomização (física) é nossa amiga.

Se não conseguimos fazer experimentos, então temos problemas. Mas não há por que entrar em pânico ainda.

Antes de adentrarmos em possíveis soluções ao problema da inferência causal em cenários não experimentais, precisamos discorrer um pouco mais profundamente sobre o modelo Neyman-Rubin. Quando estamos trabalhando com o modelo dos resultados potenciais, para que a matemática funcione, desejamos que certas hipóteses valham para que o efeito causal seja identificável, e infelizmente para o pesquisador, essas hipóteses não são testáveis. Não nos é de muita importância ficar explicitando todas as hipóteses causais, mas vale destacar a hipótese de ignorabilidade.

Tal hipótese nos diz que dado as covariáveis X pré tratamento, a atribuição de tratamento é independente dos resultados potenciais. Ou seja, entre as pessoas com o mesmo valor de X, podemos pensar o tratamento A como sendo atribuído aleatoriamente. Isto é:

Isto é relevante pois num cenário não-experimental (ou seja, um no qual o pesquisador não pode aleatorizar a atribuição do tratamento) se faz necessário controlar por confundidores nas variáveis de interesse. Informalmente um confundidor é uma variável que afeta tanto o tratamento quanto o resultado. Nesse caso, controlamos por confundidores justamente para preservar a hipótese de ignorabilidade! Para entender esse conceito, fica mais fácil por intermédio de um DAG.

Mas o que são DAGs? DAGs ou grafos direcionadas acíclicos são representações de um modelo causal, ou seja, são gráficos causais. Um exemplo bobo seria o seguinte:

Esse gráfico nos diz que A afeta (casualmente) Y.

Um confundidor pode ser representado por esse simples DAG:

A variável X é um confundidor na medida que está afetando a variável de interesse A e seu efeito correspondente Y, para tornar esse gráfico ainda mais intuitivo podemos pensar A como sendo fumar cigarro, Y como sendo câncer e X como um gene específico. Ou seja, nessa interpretação, A está gerando um efeito que é ter câncer, mas existe um gene que afeta a pessoa tanto a fumar quanto a ter câncer. Tendo em vista isso, o que de fato está causando o câncer é o gene ou o fumar? (Para quem não sabe esse DAG representa o clássico debate sobre se o cigarro causa câncer, no qual o estatístico Ronald Fisher defendeu a hipótese da genética como variável confundidora, mais pode ser lido aqui )

Por isso, se o modelo está certo. E a modelagem SCM nos força a colocar a teoria em primeiro lugar, ao invés da busca cega de dados [“data are profoundly dumb” — Pearl & Mackenzie (2018, p.13)]. Então devemos controlar o confundidor X, para achar o efeito causal médio entre fumar e câncer. Um jeito bem simplista é fazer um pareamento entre os segmentos da população de interesse, ou seja, fazer um matching, que nada mais é que um método que busca aproximar estudos observacionais de um experimento aleatorizado. Essa aproximação se dá pelo fato que com o matching, queremos alcançar um balanceamento de covariáveis, i.e, a distribuição da variável X pré-tratamento que afeta Y tem que ser a mesma nos dois grupos (controle e tratamento).Consequentemente, se a distribuição do resultado for diferente, a causa não vai ser o X.[Para quem tiver interesse em saber mais como isso é possível, recomenda-se Stuart (2010).]

No nosso exemplo, um jeito de controlar pelo confundidor gene é eliminar da nossa amostra os tratados e não tratados que não possuem o gene em questão, sendo assim, ficamos com o efeito puro do cigarro no câncer. Desta maneira efetivamente bloqueamos o backdoor path (“caminho porta dos fundos”, em tradução livre), que são os caminhos de A até Y que viajam pelas setas indo até A. No presente cenário, A ← X → Y é um backdoor path, ou seja, esse caminho confunda a relação entre A e Y, por isso precisa ser bloqueado. Graficamente ao fazer o procedimento descrito, efetivamente eliminamos a transmissão de informação de X até A, isto é, do gene até o fumar.

Lembre-se: para controlar suficientemente os confundidores é preciso identificar um conjunto de variáveis que bloqueiam todos os backdoor paths de tratamento até o resultado.

Técnicas como propensity score matching [para quem tiver interesse em estudar sobre PSM recomenda-se Heinrich et al.(2010)] e outras, nos aproximam o máximo possível de um RCT (“Randomized Control Trial” ou “Estudo clínico randomizado controlado” em português). Sendo assim, fazendo como se o estudo observacional fosse aleatorizado. Randomizar sem randomizar.

Técnicas de inferência causal

Dentre as várias técnicas de inferência causal, temos as seguintes:

Difference in difference: O design de difference-in-differences é uma estratégia de identificação quase experimental, ou seja, delineamentos de pesquisa que não têm distribuição aleatória dos sujeitos pelos tratamentos, nem grupos-controle. A lógica dessa técnica é razoavelmente simples, e podemos entendê-la se apropriando do clássico paper Card & Krueger (1994). Em 1989 o congresso americano passa uma lei que aumenta o salário mínimo. Mas, decorrente do federalismo do país, alguns estados resolvem implementar a lei e outros não. Queremos saber quais são os efeitos do salário mínimo no emprego, então o que fazer? Poderíamos ver a série histórica de um dos estados que aplicou a tal política, mas isso seria insuficiente, pois não temos nada a comparar com o efeito visto, isto é, nos falta um contrafactual. A estratégia adotada por Card e Krueger foi ver a séries históricas paralelas de emprego nas redes de fast-food entre dois estados razoavelmente parecidos (Nova Jersey e Pensilvânia) que adotaram políticas diferentes sobre salário mínimo.

Enquanto o estado da Pensilvânia mantém o salário mínimo constante, Nova Jersey aumenta este. A partir do momento no tempo em que a lei é aplicada, podemos extrapolar as diferenças nas séries paralelas como a causa da política, ceteris paribus. Então, num cenário contrafactual a diferença entre as linhas paralelas se preservaria, todavia qualquer desvio, tendo em vista a diferença original, representa o efeito médio estimado dos tratados. Sendo justamente por isso que se chama difference-in-difference (“diferença em diferença”, em uma tradução livre). Algo que pode ser observado na seguinte imagem.

Ou seja, o efeito médio estimado do tratamento é igual à diferença de resultado da série histórica do grupo de tratamento após intervenção menos a diferença das séries históricas (paralelas) entre o grupo de tratamento e grupo controle extrapolado para após a intervenção. Isto é, C = B — A.

É bom ter uma noção dessa técnica para não cair na tentação de simplesmente avaliar os efeitos de uma política, vendo a série histórica do sujeito que efetivamente recebeu o tratamento. Para fazer uma inferência causal robusta, precisamos comparar essa série com sua série contrafactual na qual não recebeu o tratamento.

Para saber mais sobre DiD e seus avanços na literatura aplicada, recomenda-se Roth et al. (2022).

Controle sintético: Segundo Athey & Imbens (2017, p.9): “[a] abordagem de controle sintético […] é sem dúvida a inovação mais importante na literatura de avaliação de políticas nos últimos 15 anos.” Tais modelos foram desenvolvidos para abordar questões contrafactuais envolvendo apenas uma unidade tratada e algumas unidades de controle. Uma abordagem que fez uma contribuição fundamental para estudos comparativos quantitativos, sendo uma generalização simples, porém poderosa dos métodos de difference-in-difference.

Segundo Cunningham (2020, p. 512): “Modelos de controle sintético escolhem de forma otimizada um conjunto de pesos que, quando aplicados a um grupo de unidades correspondentes, produzem um contrafactual estimado de forma otimizada para a unidade que recebeu o tratamento. Esse contrafactual, chamado de “unidade sintética”, serve para delinear o que teria acontecido com a unidade tratada agregada se o tratamento nunca tivesse ocorrido.”

Além disso, de acordo com Cunningham (2020, p.513): “O método de Abadie e Gardeazabal (2003) usa uma média ponderada de unidades no pool de doadores para modelar o contrafactual. O método baseia-se na observação de que, quando as unidades de análise são algumas unidades agregadas, uma combinação de unidades de comparação (o “controle sintético”) geralmente reproduz melhor as características de uma unidade tratada do que usar uma única unidade de comparação. sozinha. A unidade de comparação, portanto, neste método é selecionada para ser a média ponderada de todas as unidades de comparação que melhor se assemelham às características da(s) unidade(s) tratada(s) no período de pré-tratamento.”

Para ser mais exato, segundo o próprio artigo de Abadie & Gardeazabal (2003, p.116–117): “Na década de 1960, em relação a todo o país, o País Basco tinha maior renda per capita, maior razão de investimento (investimento/produção), era mais densamente povoada, com maior percentual de produção industrial e mão de obra mais instruída. Como resultado, uma simples comparação do desempenho econômico do País Basco e do resto da Espanha durante os anos do terrorismo pode refletir não apenas o impacto do terrorismo, mas também outras diferenças pré-terrorismo que afetaram o crescimento econômico subsequente.

Abordamos este problema comparando a evolução econômica do País Basco durante a era do terrorismo com a de uma combinação ponderada de outras regiões espanholas escolhidas para se assemelhar às características do País Basco antes do terrorismo. Conceituamos essa média ponderada de outras regiões espanholas como um País Basco “sintético” sem terrorismo, contra o qual podemos comparar o atual País Basco com terrorismo.

Como dito acima, os pesos são escolhidos para que o país basco sintético se assemelhe mais ao real antes do terrorismo.”

Ou seja, tendo nosso grupo sintético representando nosso grupo controle e um grupo de tratamento, segue-se o mesmo raciocínio do método diff-in-diff. Para saber mais dessa literatura e de seus avanços, recomenda-se Abadie (2021).

Variáveis Instrumentais: IV (“Instrumental variables”) é provavelmente a técnica mais antiga de inferência causal. Tal técnica foi desenvolvida pela primeira vez por Phillip G. Wright em seu livro The Tariff on Animal and Vegetable Oils (Wright, 1928) num contexto de equações simultâneas. Curiosamente, neste livro se tem a primeira aparição de DAGs na economia, ou path diagrams, como eram chamados os modelos gráficos desenvolvidos pelo seu filho em seu paper de 1921 (Wright, 1921) [Para saber mais sobre path diagrams e sua história recomenda-se ler o já citado Pearl & Mackenzie (2018)]

A figura acima é o DAG desenvolvido pelo Wright pai, para representar as famosas curvas de oferta e demanda. [A figura pode ser encontrada em Wright (1928, p. 315)]

IV é geralmente usado quando não podemos fazer um experimento controlado, ou seja, não conseguimos atribuir aleatoriamente o tratamento às unidades, assim como quando não é possível mensurar todo confundidor. Consequentemente, é uma técnica para aprender sobre causalidade usando dados observacionais (i.e, dados não experimentais).

Para realizar a análise de variáveis instrumentais temos 6 etapas, que são as seguintes:

  1. Nós observamos uma variável chamada instrumento, que é correlacionada com o resultado.
  2. Assuma que o instrumento não possui efeito causal no resultado. A correlação está capturando o efeito de uma variável de confundimento.
  3. Assuma que o instrumento tem um efeito causal no tratamento.
  4. Assuma que o instrumento é aleatoriamente atribuído (ou é como se fosse) para as unidades.
  5. Pela etapa 4, o efeito causal do instrumento no tratado é a correlação nos dados.
  6. Como o instrumento é atribuído aleatoriamente, ele não é correlacionado com qualquer confundidor possível exceto o tratamento.

Então, temos essa variável chamada de instrumento que é correlacionada com o resultado, mas essa correlação não é causal, sendo assim, está captando um efeito causal de um confundidor. Todavia, o instrumento tem um efeito causal no tratamento, então talvez estejamos pegando o efeito causal do tratamento no resultado na correlação da etapa 1. Como o instrumento é atribuído aleatoriamente (etapa 4), não pode ser correlacionado com qualquer outro confundidor a não ser o tratamento, portanto a relação da etapa 1 só pode ser consequência do efeito causal do tratamento no resultado.

Em outras palavras, buscamos uma fonte de variação exógena no tratamento. Após isso, isolamos apenas a parte do tratamento causada pela variação exógena. Olhamos a relação entre essa parte do tratamento e o resultado, e assim identificamos o efeito (causal) que queríamos. Para tornar mais fácil de ver, temos o seguinte DAG chamado de “o DAG canônico de IV” por Cunningham (2020):

Na figura Z é o instrumento, A é a variável de tratamento, U é uma variável de confundimento não observada e Y é o resultado.

Um exemplo de uso de IV é o paper de Leigh & Schembri (2004). Os autores buscam identificar o efeito causal do consumo de cigarro nas habilidades físicas dos fumantes, então nossa variável de tratamento é o consumo de cigarro e a variável de resultado foi adota o resumo do componente físico (PCS) do formulário SF-12. Para achar o efeito causal médio foi adotado o instrumento preço dos cigarros, uma vez que altamente correlacionada com o tratamento e não há razão lógica para que o instrumento esteja diretamente relacionado ao resultado além do efeito do instrumento no tratamento. Assim, utilizando as técnicas econométricas apropriadas foi possível encontrar o efeito de fumar na saúde física.

Para saber mais da literatura sobre IV, recomenda-se Angrist & Krueger (2001). Assim como, recomendo esse meu seguinte texto.

Regressão descontínua: Um RDD (“regression-discontinuity design”) é a técnica mais robusta de inferência causal logo atrás de um experimento controlado. Seu apelo vem em grande parte na sua habilidade de convincentemente eliminar o viés de seleção. Consequentemente, com esse procedimento somos capazes de estimar o efeito causal médio do tratamento nos tratados, a partir da estimação da diferença simples das média dos resultados observados condicionado ao tratamento.

Para tornar o RDD intuitivo é ideal mostrar sua representação gráfica. Tal DAG foi inspirado no gráfico feito por Steiner et al. (2017):

A figura (A) representa o modelo de geração de dados para um design RD perfeitamente implementado, onde X é uma variável de atribuição contínua que determina diretamente o status do tratamento A (X → A). A atribuição é baseada em uma pontuação de corte c0, de modo que os indivíduos com pontuação abaixo do limite, X < c0, sejam atribuídos à condição de controle e os indivíduos com pontuação acima ou igual ao limite, X ≥ c0, sejam atribuídos à condição de tratamento (ou vice-versa).

Para evitar o risco de falar bobagens, eis aqui uma tradução livre de Cunningham (2020, p.242–245): “A própria variável de atribuição pode afetar independentemente o resultado através do caminho X → Y e pode até estar relacionada a um conjunto de variáveis ​​U que determinam independentemente Y. Observe no momento que o status de tratamento de uma unidade é determinado exclusivamente pela regra de atribuição. O tratamento não é determinado por U.

Este DAG mostra claramente que a variável de atribuição X — ou o que é frequentemente chamado de “variável em execução” (“running variable”) — é um confundidor observável, pois causa A e Y. Além disso, como a variável de atribuição atribui tratamento com base em um ponto de corte, nunca somos capazes de observar unidades tanto no tratamento quanto no controle para o mesmo valor de X.

No entanto, podemos identificar efeitos causais usando RDD, que é ilustrado no gráfico limitante. Podemos identificar efeitos causais para aqueles sujeitos cuja pontuação está em uma vizinhança próxima em torno de algum ponto de corte c0. Especificamente, como mostraremos, o efeito causal médio para esta subpopulação é identificado como X→c0 no limite. Isso é possível porque o ponto de corte é o único ponto em que os sujeitos de tratamento e controle se sobrepõem no limite.

O corte em si não pode ser endógeno a alguma intervenção concorrente, ocorrendo exatamente no mesmo momento em que o corte está atingindo unidades na categoria de tratamento A. Essa suposição é chamada de continuidade e significa formalmente que os resultados potenciais esperados são contínuos no ponto de corte. Se os resultados potenciais esperados são contínuos no ponto de corte, então necessariamente exclui intervenções concorrentes ocorrendo ao mesmo tempo.

A suposição de continuidade é refletida graficamente pela ausência de uma seta de X→Y no segundo gráfico porque o corte c0 o cortou. Em c0, a variável de atribuição X não tem mais efeito direto sobre Y.”

A imagem acima representa um RDD genérico, no qual o ponto 0 do eixo X representa o ponto de corte do tratamento. Enquanto a série anterior à intervenção e posterior a esta, representa o grupo controle e o grupo de tratamento respectivamente.

Um exemplo de RDD na prática seria o paper de Brollo & Troiano (2016). No artigo os pesquisadores são confrontados com a seguinte problemática: Seriam as prefeitas menos corruptas que os prefeitos? Para responder isso, ao invés de depender de medidas de pesquisa de corrupção, foram usados uma medida objetiva de irregularidades em contratos e compras governamentais com base em auditorias aleatórias das administrações locais.

Uma comparação entre municípios com uma prefeita e aqueles com um prefeito provavelmente gerará estimativas viesadas devido a questões de endogeneidade. Por exemplo, as decisões políticas podem ser correlacionadas com características específicas do município, como atitudes em relação às mulheres ou características demográficas, que também podem influenciar o gênero do prefeito local. Porém estavam interessados ​​em estimar a diferença no resultado potencial em corridas de gêneros mistos. Mas é impossível conhecer as políticas que uma cidade que tem uma prefeita mulher teria adotado com um prefeito homem. A intuição da estratégia de identificação é que cidades em que uma mulher venceu um homem por uma margem estreita pode ser um bom contrafactual para aqueles lugares em que ocorreu o oposto (um homem venceu uma mulher por uma margem estreita). Nesse cenário, a identificação parte do pressuposto de que em disputas acirradas fatores aleatórios são cruciais para decidir as eleições. Portanto, a probabilidade de ganhar é a mesma para candidatos do sexo feminino e masculino.

Para ler mais sobre RDD recomenda-se Lee & Lemieux (2010).

Se quiser outra introdução para as técnicas de inferência causal recomenda-se Collischon (2021), que pode ser lido acessando esse link . Além do artigo, este possui os códigos das técnicas em R. Ademais, para uma revisão mais técnica da literatura, recomenda-se Abadie & Cattaneo (2018) e Athey & Imbens (2017).

Outra recomendação é o curso “A Crash Course in Causality: Inferring Causal Effects from Observational Data” oferecido pela University of Pennsylvania no site Coursera. Pode acessá-lo via esse link.

Uma versão do texto em forma de vídeo pode ser acessada por esse link

Após essa breve introdução as diversas técnicas de inferência causal, em conclusão:

Mesmo tendo em vistas diversas maneiras de abordar o problema da causa e efeito, no fundo tudo que queremos resolver é o maldito problema fundamental da inferência causal. Espero que com esse texto, tenha causado a curiosidade dos leitores e que se aprofundem cada vez mais nesse fascinante mundo da causalidade. Até a próxima.

Referências

Bussab, Wilton de O., and Pedro A. Morettin. “Estatística básica.” Estatística básica. 2010. xvi-540.

Pearson, Karl. “The Grammar of Science, 3rd.” London, England: A. and C. Black 153 (1911).

Rubin, Donald B. “Estimating causal effects of treatments in randomized and nonrandomized studies.” Journal of educational Psychology 66.5 (1974): 688.

Pearl, Judea. “Causality: Models, reasoning, and inference.” (2000).

Lewis, David. “Causation.” The journal of philosophy 70.17 (1974): 556–567.

Hume, David. “An enquiry concerning human understanding.” (1748).

Mortari, Cezar A. Introdução à lógica. Unesp, 2001.

Coscarelli, Bruno Costa. Introdução à Lógica Modal. Diss. Universidade de São Paulo, 2008.

Williamson, Timothy. Modal logic as metaphysics. Oxford University Press, 2013.

Imbens, Guido W., and Donald B. Rubin. Causal inference in statistics, social, and biomedical sciences. Cambridge University Press, 2015.

Angrist, Joshua D., and Jörn-Steffen Pischke. Mostly harmless econometrics. Princeton university press, 2008.

Glymour, Madelyn, Judea Pearl, and Nicholas P. Jewell. Causal inference in statistics: A primer. John Wiley & Sons, 2016.

Pearl, Judea, and Dana Mackenzie. The book of why: the new science of cause and effect. Basic books, 2018.

Cunningham, Scott. “Causal Inference.” The Mixtape 1 (2020).

Huntington-Klein, Nick. “The effect: An introduction to research design and causality.” (2021).

Morgan, Stephen L., and Christopher Winship. Counterfactuals and causal inference. Cambridge University Press, 2015.

Delgado-Rodriguez, Miguel, and Javier Llorca. “Bias.” Journal of Epidemiology & Community Health 58.8 (2004): 635–641.

Heckman, James J. “Selection bias and self-selection.” Econometrics. Palgrave Macmillan, London, 1990. 201–224.

Stuart, Elizabeth A. “Matching methods for causal inference: A review and a look forward.” Statistical science: a review journal of the Institute of Mathematical Statistics 25.1 (2010): 1.

Heinrich, Carolyn, Alessandro Maffioli, and Gonzalo Vazquez. “A primer for applying propensity-score matching.” Inter-American Development Bank (2010).

Card, David, and Alan B. Krueger. “Minimum Wages and Employment: A Case Study of the Fast-Food Industry in New Jersey and Pennsylvania.” American Economic Review 84.4 (1994): 772–93.

Roth, Jonathan, et al. “What’s Trending in Difference-in-Differences? A Synthesis of the Recent Econometrics Literature.” arXiv preprint arXiv:2201.01194 (2022).

Abadie, Alberto, and Javier Gardeazabal. “The economic costs of conflict: A case study of the Basque Country.” American economic review 93.1 (2003): 113–132.

Abadie, Alberto. “Using synthetic controls: Feasibility, data requirements, and methodological aspects.” Journal of Economic Literature 59.2 (2021): 391–425.

Wright, Philip G. Tariff on animal and vegetable oils. Macmillan Company, New York, 1928.

Wright, Sewall. “Systems of mating. I. The biometric relations between parent and offspring.” Genetics 6.2 (1921): 111.

Leigh, J. Paul, and Michael Schembri. “Instrumental variables technique: cigarette price provided better estimate of effects of smoking on SF-12.” Journal of clinical epidemiology 57.3 (2004): 284–293.

Angrist, Joshua D., and Alan B. Krueger. “Instrumental variables and the search for identification: From supply and demand to natural experiments.” Journal of Economic perspectives 15.4 (2001): 69–85.

Steiner, Peter M., et al. “Graphical models for quasi-experimental designs.” Sociological methods & research 46.2 (2017): 155–188.

Brollo, Fernanda, and Ugo Troiano. “What happens when a woman wins an election? Evidence from close races in Brazil.” Journal of Development Economics 122 (2016): 28–45.

Lee, David S., and Thomas Lemieux. “Regression discontinuity designs in economics.” Journal of economic literature 48.2 (2010): 281–355.

Collischon, Matthias. “Methods to Estimate Causal Effects-An Overview on IV, DiD and RDD and a Guide on How to Apply them in Practice.” (2021).

Abadie, Alberto, and Matias D. Cattaneo. “Econometric methods for program evaluation.” Annual Review of Economics 10 (2018): 465–503.

Athey, Susan, and Guido W. Imbens. “The state of applied econometrics: Causality and policy evaluation.” Journal of Economic Perspectives 31.2 (2017): 3–32.

Apêndice Matemático

Vamos relembrar o que o pesquisador busca:

No nosso exemplo da aspirina queremos saber se o que faz a dor de cabeça melhorar é o remédio, ou seja, se a variável resposta variou como consequência da variação da variável tratamento. Em nosso mundo ideal queriamos fazer o seguinte:

Isto é, clonar a população de interesse, para um dar o tratamento (A = 1) e para o outro não dar (A = 0). Queremos então tirar o efeito médio entre as populações e subtrair para achar o efeito causal médio. Pense essas médias estimadas como os resultados potenciais que comentamos no texto.

Mas a realidade que o pesquisador se depara é a seguinte:

Ou seja, dividimos parte da nossa população de interesse em tratados e uma outra parte em não tratados. Tirar a média e subtrair agora nos dá a diferença média de resultado entre subpopulações definidas pelo grupo de tratamento, para simplificar chamaremos apenas de diferença observada de resultados.

Infelizmente não podemos alterar essa realidade, porém ainda sim tendo em vista dela gostaríamos de mesmo tendo que lidar com subpopulações de tratados ou não, desejaríamos fazer o seguinte:

Isto é, gostaríamos de clonar a subpopulação que foi designada a receber o tratamento. Ao original seguimos com o planejado, já com o clone nós não damos o tratamento. Assim, com a média dos efeitos derivamos o efeito causal (médio) de tratamento nos tratados. Tendo essa expressão, gostaríamos de a partir da diferença observada de resultados, que é o que efetuamos conseguimos estimar, obter o efeito causal (médio) de tratamento nos tratados.

A felicidade para o nosso pesquisador é que com algumas hipóteses causais, podemos derivar esse resultado tão desejado. Consequentemente precisamos explicitar as hipóteses causais que estamos fazendo para que a equação (diferença observada de resultados = efeito causal médio) seja válida.

Hipótese 1: Stable Unit Treatment Value Assumption (SUTVA)

SUTVA em verdade são duas hipóteses em uma só, são essas:

  1. Não interferência:
  • As unidades não interferem umas às outras.
  • Atribuição de tratamento de uma unidade não afeta o resultado de outra unidade

2. Só há uma versão do tratamento.

Com o SUTVA podemos escrever o Resultado Potencial da i-ésima pessoa em termos apenas do tratamento dessa pessoa. Isto é:

Hipótese 2: Consistência

O resultado potencial em tratamento A = a, Y^a , é igual ao resultado observado se o tratamento dado foi A = a

Hipótese 3: Ignorabilidade

Dado as covariáveis X pré-tratamento, a atribuição de tratamento é independente dos resultados potenciais. Ou seja, entre as pessoas com o mesmo valor de X, podemos pensar o tratamento A como sendo atribuído aleatoriamente. Isto é:

Hipótese 4: Positividade

Essencialmente afirma que, para todo valor de X, a atribuição de tratamento não foi determinística.

Se, para alguns valores de X, o tratamento fosse determinístico, então não teríamos valores observados de Y para um dos grupos de tratamento para esses valores de X.

A partir dos dados observacionais conseguimos computar a seguinte expressão:

Somente com isso, queremos chegar nos resultados potenciais? Parece uma tarefa impossível, porém com as hipóteses feitas podemos derivar o resultado que queremos.

Pela hipótese SUTVA temos que:

Pela hipótese da consistência, temos que:

Pela hipótese de ignorabilidade, temos que:

Ou seja, chegamos que:

Assim conseguimos escrever os resultados observados em termos dos resultados potenciais.

Consequentemente, podemos montar nosso problema. Lembrando que:

Com base nisso, podemos escrever o resultado observado em termo dos resultados potenciais:

Para facilitar nossas contas, vou reescrever essa expressão da seguinte forma:

Então sabemos onde queremos chegar, isto é: Diferença de resultados observados = Efeito causal (médio) de tratamento nos tratados. Mas como fazer isso? Vamos ter que usar a equação acima. Nosso primeiro passo, podemos restringir esse valor observado a subpopulação que recebeu o tratamento A = 1, temos que o efeito médio foi:

Como A é uma constante, ficamos com:

Como restringimos para a população que foi atribuído o tratamento, necessariamente A = 1. Portanto:

Assim conseguimos o efeito médio observado na subpopulação que recebeu o tratamento em termos do efeito causal médio de tratamento nos tratados e mais um termo. Para chegar na diferença de resultados observados, isto é,

Precisamos achar o efeito médio observado na subpopulação que não recebeu o tratamento. Para fazer isso, basta repetir o processo anterior só que com a outra subpopulação. Restringindo esse valor observado a subpopulação que recebeu o tratamento A = 0, temos que o efeito médio foi:

Como A é uma constante, ficamos com:

Como restringimos para a população que foi atribuído o tratamento, necessariamente A = 0. Portanto:

Agora, com as expressões que desejávamos podemos prosseguir com o seguinte sistema de equações:

Subtraindo um no outro finalmente chegamos, onde queríamos que é:

Espero que tenha entendido! Até a próxima.

--

--

Zinho
Zinho

Written by Zinho

Mestrando em Estatística pela IMECC - Unicamp, bacharel em ciências econômicas FEA-USP. Sonho em ser acadêmico/professor.

No responses yet