Provavelmente já deve ter visto a frase “Correlação não implica Causalidade”. É um mantra que qualquer estudante de estatística em qualquer nível (ensino médio, graduação ou pós) teve de repetir em algum momento, até ficar cristalizado mesmo que sem um entendimento claro entre os dois termos.
Então vamos decompor os termos e depois para intuição:
Uma correlação mostra o grau de associação linear entre duas e apenas duas variáveis e tem o seu valor variando entre -1 a 1, onde -1 é uma relação inversa perfeitamente linear, 0 um relação linear inexistente, e 1 uma relação perfeitamente linear e positiva entre as variáveis.
Ou seja, essencialmente estamos olhando o grau de associação entre duas variáveis independente do motivo, independente do porquê. Então a correlação é apenas olhar como os dados andam juntos sem questionar a razão, apenas saber se existe uma causa comum acarretando em uma associação estatística. Isto é, estamos avaliando quão dependente uma variável é a outra, então caso a variável X se move qual o movimento veremos da variável Y? Será que varia na mesma direção (efeito positivo) ou varia na direção oposta (efeito negativo) ou algo no meio?
Relembrar é viver:
Tendo em vista a formula de Correlação de Pearson, vamos lembrar dos termos associados a esta. Seja μ o valor esperado (a média) da variável aleatória X com densidade f(x), i.e, é o primeiro momento da distribuição de X:
Seja σ o desvio padrão de X é definido como:
Causalidade é um termo complicado de se definir, pois por muitos anos foi meramente uma questão metafísica e qualquer definição mais científica implica em adotar um dado paradigma em específico, i.e, privilegiar uma modelagem a outra. Tendo isso em mente, podemos prosseguir. A literatura filosófica adotou provisoriamente a definição do filósofo escocês David Hume como guia para fazer sentido da causalidade:
“Podemos definir uma causa como sendo um objeto seguido por outro, e onde todos os objetos, semelhantes ao primeiro, são seguidos por objetos semelhantes ao segundo. Ou, em outras palavras, onde, se o primeiro objeto não tivesse sido, o segundo nunca existiria.”.
Em um outro texto discutimos como dessa definição podemos achar na verdade duas definições, o que nos importa é que a literatura de inferência causal tem privilegiado a teoria contrafactual de causalidade. Antes de uma definição formal é preciso de uma intuição sobre contrafactuais. Imagine o contrafactual como um mundo paralelo na qual tudo ou mais está constante menos a nossa variável de interesse, por exemplo, estou com dor de cabeça e quero tomar aspirina. Se eu efetivamente tomar aspirina, meu contrafactual seria o mundo alternativo em que eu não tomei aspirina e vice e versa. Portanto, o efeito causal é justamente a diferença entre o resultado observado e o resultado contrafactual. Isso é a causalidade para inferência causal.
Sendo mais formal, se adotarmos o modelo Neyman-Rubin (ou modelo de Resultados Potenciais) precisamos entender que antes da unidade receber o tratamento, por exemplo tomar aspirina ou não, este indivíduo tem dois resultados potenciais. Um dos resultados potenciais é Y^(a), que é o efeito após a unidade ser atribuído o tratamento A = a, seu outro resultado potencial vai ser Y^(1-a). Pensamos em apenas dois resultados potenciais, não só uma questão de praticidade, mas porque o tratamento é binário. Ou seja, você recebe aspirina (A = 1) ou não recebe aspirina (A = 0).
Assim, podemos ir para uma definição. Lembrando que Y é o resultado observado após a atribuição do tratamento, que se iguala ao resultado potencial deste mesmo tratamento, ou seja, um resultado potencial (efetivamente) se realiza, enquanto o outro vira um resultado contrafactual.
Definição: O efeito causal ou efeito de tratamento (TE) para o indivíduo i é:
Note que causalidade é definida (neste modelo) em termos dos resultados potenciais.
Mas para termos de pesquisa, simplesmente não é possível achar o TE para indivíduo i, mas o efeito causal médio de uma população ou subpopulação de interesse, por isso:
Definição: O efeito causal médio ou efeito de tratamento médio (ATE) é:
Esta fórmula com algumas hipóteses pode ser derivada a partir dos dados observados. Para saber mais como, recomendo o seguinte texto.
Agora, se escolhemos uma outra modelagem para inferência causal, como por exemplo os Modelos Causais Estruturais (SCM), definimos causalidade da seguinte maneira:
Definição: variável X é uma causa direta da variável Y se X aparece na função que atribui valor a Y. Assim, X é a causa de Y se é uma causa direta de Y, ou qualquer causa de Y.
Tendo em vista as definições podemos prosseguir com a intuição. A ideia é que a correlação pega apenas a variação de variáveis de interesse de um pesquisador, enquanto a causalidade nos conta das estruturas profundas da realidade, que liga as duas variáveis e explicam o porquê elas variam na sequência temporal que achamos nos dados. Correlação é um fato objetivo do mundo, enquanto Causalidade é uma história que contamos para explicar esse fato. O que é essencialmente o processo científico, i.e, o pesquisador tenta descobrir como o mundo funciona, ou seja, o porquê das coisas, apenas tateando algumas facetas da realidade sem nunca saber suas verdadeiras estruturas.
Tendo em vista isto, de cara nos deparamos três situações para um dado fenômeno nos dados. Podemos ter correlação sem causalidade, correlação e causalidade e causalidade sem correlação. Comecemos com a mais trivial.
Correlação sem causalidade:
Esse é um fenômeno mais simples de se achar, por isso é o mais perigoso. Podemos representá-lo pelo seguinte DAG [para saber mais sobre DAGs, recomendo o seguinte texto]:
Um exemplo seria o seguinte, um pesquisador encontrou uma forte correlação entre uso de shorts e consumo de sorvetes. Seria o caso de que consumir sorvetes está causando o uso de shorts ou seria que usar shorts que está causando o consumo de sorvete? É um absurdo, pois pelo que sabemos como o mundo funciona, ou pelo nosso conhecimento provisório do mundo, sabemos que mais provavelmente há uma terceira variável que estamos ignorando, ou seja, há uma terceira variável que está causando essas duas outras (consumo de sorvete e uso de shorts). Essa variável ignorada mais provavelmente é a chegada do verão, pois com o calor as pessoas usam shorts e tomam sorvetes.
Outro exemplo é a seguinte imagem:
Que estima a associação entre gasto dos governo americano em ciência, espaço e tecnologia e suicídios por enforcamento, estrangulamento e sufocamento, perceba que o grau de associação é extremamente forte. Novamente um absurdo condicionado no nosso conhecimento provisório do mundo prévio. Aí que mora o problema, pois às vezes o pesquisador viaja por mares nunca dantes navegados, sendo assim, dizer a priori quando temos um caso causal ou apenas uma correlação espúria não é nada trivial. Mas se quiser ver mais correlações espúrias que sabemos serem dado sua absurdidade, recomendo o seguinte site.
Para saber mais sobre porque correlação não implica causalidade (ou seja, o porque do cenário correlação, mas não causalidade), recomendo o seguinte texto.
Correlação e causalidade:
Essa relação é razoavelmente trivial, pois na maioria dos casos na qual estabelecemos que tem uma relação causal entre a variável de tratamento (A) e a variável resposta (Y), espera-se que exista uma associação entre essas duas variáveis. Seria um exemplo do simples DAG a seguir:
Como assumimos esse ser nosso modelo do mundo entre as duas variáveis, presumimos que não há nenhum outro efeito viesando nossa associação, logo ela é causal por construção. É somente nesse caso que correlação implica causalidade, então nesse caso o mantra está errado. Mas temos bons motivos para acreditar que esse modelo não representa muitos eventos no mundo. Quase sempre há uma covariável, um confundimento atrapalhando nossa pesquisa empírica. Todavia, com inferência causal temos técnicas para bloquear esse viés e descobrir o efeito puro entre tratamento e resposta, mas isso são outros quinhentos.
Causalidade sem correlação:
Como sou uma pessoa profundamente preguiçosa vou meramente traduzir o seguinte trecho de Cunningham (2020, p. 7–8): “Quando o galo canta, o sol logo depois nasce, mas sabemos que o galo não fez o sol nascer. Se o galo tivesse sido comido pelo gato do fazendeiro, o sol ainda teria nascido. No entanto, muitas vezes as pessoas cometem esse tipo de erro ao interpretar ingenuamente correlações simples.
Mas, estranhamente, às vezes existem relações causais entre duas coisas e, no entanto, nenhuma correlação observável. Agora isso é definitivamente estranho. Como uma coisa pode causar outra coisa sem qualquer correlação discernível entre as duas coisas? Considere este exemplo, que é ilustrado na figura acima. Um marinheiro está navegando em seu barco pelo lago em um dia ventoso. À medida que o vento sopra, ela contra-ataca girando o leme de forma a compensar exatamente a força do vento. Ela move o leme para frente e para trás, mas o barco segue uma linha reta através do lago. Uma pessoa bondosa, mas ingênua, sem nenhum conhecimento de vento ou barcos, pode olhar para essa mulher e dizer: “Alguém dê a este marinheiro um novo leme! O dela está quebrado!” Ele pensa assim porque não consegue ver nenhuma relação entre o movimento do leme e a direção do barco.
Mas o fato de que ele não pode ver o relacionamento significa que não há um? Só porque não há relação observável não significa que não haja uma relação causal. Imagine que, em vez de contrariar perfeitamente o vento girando o leme, ela tivesse lançado uma moeda — cara ela vira o leme para a esquerda, coroa ela vira o leme para a direita. O que você acha que esse homem teria visto se ela estivesse navegando em seu barco de acordo com as moedas? Se ela movesse o leme aleatoriamente em um dia ventoso, ele veria um marinheiro ziguezagueando pelo lago. Por que ele veria o relacionamento se o movimento fosse aleatório, mas não fosse capaz de vê-lo de outra forma? Porque o marinheiro está movendo endogenamente o leme em resposta ao vento não observado. E, como tal, a relação entre o leme e a direção do barco é cancelada — mesmo que haja uma relação causal entre os dois.
Parece um exemplo bobo, mas na verdade existem versões mais sérias dele. Considere um banco central lendo folhas de chá para discernir quando uma onda recessiva está se formando. Vendo evidências de que uma recessão está surgindo, o banco entra em operações de mercado aberto, comprando títulos e injetando liquidez na economia. Na medida em que essas ações são feitas de maneira otimizada, essas operações de mercado aberto não mostrarão qualquer relação com a produção real. Na verdade, no ideal, os bancos podem se envolver em negociações agressivas para impedir uma recessão, e não poderíamos ver qualquer evidência de que estava funcionando, mesmo que estivesse!
Seres humanos engajados em comportamento ótimo são a principal razão pela qual as correlações quase nunca revelam relações causais, porque raramente os seres humanos estão agindo aleatoriamente. E, como veremos, é a presença de aleatoriedade que é crucial para identificar o efeito causal.”
Exemplo numérico para fazer sentido
Neste caso é fácil construir exemplos com associação 0 mesmo quando temos causalidade! Vamos nos apropriar da modelagem de SCM (Structural Causal Models) para o seguinte exemplo: Suponha X -> Y <- U, tudo binário. P(X=1) = 0.5 e P(U=1)= 0.5 e Y = xor(X, U). Nesse caso, o ATE de X em Y é obviamente 0, mas X causa Y.
xor(X, U) é uma variável “lógica” / booleana que denota o “ou” exclusivo. Portanto, só é verdade que X é verdadeiro e U falso ou quando X é falso e U verdadeiro. Nesse caso a gente pode representar verdadeiro como 1 e falso como 0.
Para prosseguir precisamos entender um pouco do cálculo do. Tal operador faz uma intervenção hipotética para ver os efeitos potenciais da nossa variável resposta, i.e,
P(Y = y| X = x) é a probabilidade de Y = y condicionado no achado X = x, i.e, reflete a distribuição populacional de Y entre indivíduos cujo valor de X é x.
P(Y = y| do(X = x)) é a probabilidade de Y = y quando intervimos para que X = x, i.e., representa a distribuição populacional de Y se todo mundo na população tivesse seu valor de X fixado em x.
Suponha que fizemos a seguinte intervenção: do(X = 1)
Temos então que Y = xor(1,U). Consequentemente:
P(Y= 1| do(X = 1)) = 0,5
Agora, suponha que fizemos a seguinte intervenção: do(X = 0)
Temos então que Y = xor(0,U). Consequentemente
P(Y= 1|do(X = 0)) = 0,5
Mas X -> Y, i.e., X é uma causa direta de Y. Lembrando da seguinte definição: variável X é uma causa direta da variável Y se X aparece na função que atribui valor a Y. Assim, X é a causa de Y se é uma causa direta de Y, ou qualquer causa de Y.
Portanto, temos causalidade Y = f(X,U), porém associação zero!
Outra maneira de provar é só usando estatística: Pelo nosso modelo gerador dos dados o processo estocástico é o seguinte:
1) X assume 1 ou 0, com probabilidade 0.5 cada.
2) U assume 1 ou 0, com probabilidade 0.5 cada.
(tanto faz a ordem dos dois primeiros passos, U e X são independentes).
3) Se (X, U) = (0,0) ou (1,1), então Y=0. Senão, Y=1.
X claramente causa Y, pois faz parte da lei geradora.
Pra serem estatisticamente independentes, basta que P(Y=1|X=1)= P(Y=1|X=0)
P(Y=1|X=1) = P(Y=1|X=1, U=1)P(U=1) + P(Y=1|X=1, U=0)P(U=0)
Isso é uma identidade probabilística, isso não usa nenhuma suposição sobre o processo estocástico:
P(Y=1|X=1) = P(Y=1|X=1, U=1)P(U=1) + P(Y=1|X=1, U=0)P(U=0) = 0 + 1*0.5
P(Y=1|X=0) = P(Y=1|X=0, U=1)P(U=1) + P(Y=1|X=0, U=0)P(U=0)= 1*0.5 + 0
De fato, P(Y=1|X=1)= P(Y=1|X=0).
Então, Y e X são estatisticamente independentes!
Para um exemplo empírico (real) de causalidade sem associação, leia aqui
Conclusão:
Espero mostrar com o texto que a causalidade não é tão simples nem tão difícil quanto parece. É um fenômeno complicado que demanda muita informação, conhecimento e engenho. Principalmente, espero que com esse texto, tenha causado a curiosidade dos leitores e que se aprofundem cada vez mais nesse fascinante mundo da causalidade. Até a próxima.