Exemplos de correlação vs causalidade

Penso que, fora de algumas correlações realmente intrigantes (por exemplo, taxa de divórcio no Maine e consumo per capita de margarina), sempre há um gráfico causal que explica a correlação. Entendo que a pergunta se refere à observação de um par de variáveis ​​que estão correlacionadas e que não estão diretamente relacionadas à causalidade. Nesses casos, geralmente há alguma conexão causal (por exemplo, uma causa comum ou um efeito comum observado) que explica a correlação.

Aqui estão três exemplos que eu uso no ensino de gráficos causais e, em geral, a relação entre causalidade e probabilidade. Eles usam dependência probabilística, que é mais geral que correlação. Correlação é uma medida de dependência linear e a dependência não precisa ser linear.

(1) Consumo de sorvete e afogamento. Os dois estão fortemente correlacionados, mas a correlação desaparece quando condicionamos a temperatura externa (sua causa comum). O condicionamento equivale a observar os dias quentes e os frios em separação.

(2) Correlação negativa entre ser um bom cirurgião e estatísticas de operação. Acontece que os melhores cirurgiões não têm as melhores estatísticas de sobrevida da operação (ou seja, eles têm uma taxa de mortalidade de pacientes maior que a média ou os cirurgiões ruins). Isso é explicado por uma causa comum: dificuldade de um caso. Os melhores cirurgiões recebem os casos mais difíceis. Mesmo sendo bons e nos casos da mesma dificuldade, eles terão melhor desempenho (portanto, quando você condiciona a dificuldade do caso, as estatísticas serão muito boas), os pacientes que tomam tendem a ser mais propensos a morte.

(3) Correlação negativa entre problemas cardíacos e pulmonares em pacientes em unidades de terapia intensiva (UTI). Isso é mais difícil de explicar, pois envolve dependência condicional e não independência condicional. O desembarque em uma UTI tem duas causas fortes: problemas com a respiração (pulmões) e problemas circulatórios (coração). É provável que os pacientes de UTI tenham os dois problemas, mas se tiverem problemas cardíacos, eles explicam por que chegaram à UTI e, portanto, diminuem a probabilidade de problemas pulmonares. Essa relação é simétrica, portanto, aprender que um paciente na UTI tem problemas pulmonares diminui um pouco a probabilidade de o mesmo paciente também ter problemas cardíacos (compare a primeira à segunda foto abaixo). A dependência condicional, que ocorre quando condicionamos um efeito comum de múltiplas causas, é muito mais difícil de entender intuitivamente, mas é tão importante quanto a independência condicional. Explica correlações induzidas que ocorrem em quase todos os conjuntos de dados coletados, pois cada coleção é condicionada a algo.

Se você quiser brincar com essas idéias, recomendo redes bayesianas que, enquanto formalismo matemático, podem ser interpretadas causalmente e permitem criar modelos e testar o que acontece na interseção entre probabilidade e causalidade. Meu pacote de rede bayesiano favorito, do qual tirei as fotos acima, é

Gênio

. Sou bastante tendencioso aqui, pois participei ativamente do desenvolvimento ao longo de mais de vinte anos no meu grupo de pesquisa na Universidade de Pittsburgh.

Gênio

atualmente é um produto comercial, mas ainda está disponível gratuitamente para usuários acadêmicos.

A causalidade é uma abstração matemática que não pode ser medida diretamente; somente a correlação pode ser medida.

Para que um evento x cause o evento y, x deve necessariamente ocorrer antes de y, e a ocorrência de x deve implicar necessariamente y. Dito de outra maneira, y não teria acontecido se x não tivesse ocorrido (x é necessário) e se x ocorre, y deve necessariamente ocorrer (x também é suficiente).

Você pode escrever expressões matemáticas que incorporam causalidade; por exemplo, você pode criar

Filtro causal

s que cumprem com a definição acima. Mas essas formulações não têm influência necessária no mundo natural.

Infelizmente, no uso comum, a 'causalidade' é frequentemente distorcida para adicionar autoridade falsa às proposições; isto é, 'causalidade' é usada para 'brincar com a linguagem'. Por analogia, você não pode provar nenhuma proposição científica, mas as pessoas costumam usar 'comprovada' para adicionar falsa legitimidade às proposições relacionadas ao mundo natural. Você não pode vender uma 'casa'; você só pode vender uma 'casa', mas as pessoas ainda afirmam vender casas, independentemente.

Tais usos de palavras de doninha não são apenas 'exageros por efeito' ou 'formas superlativas'; eles são fundamentalmente enganosos. Pode ser um uso razoável se não houver outras palavras disponíveis para transmitir um significado preciso, mas com humildade e diligência suficientes, você provavelmente poderá tecer expressões que realmente significam o que você está tentando dizer.

Primeiro, você deve separar 'causa' de 'fator'. Você pode ter fatores necessários ou suficientes que levam a um efeito, mas, por si só, eles não constituem uma causa.

Segundo, você deve separar a modelagem matemática da observação e medição. O mundo natural é altamente previsível, e modelos preditivos confiáveis ​​podem ser muito úteis. Mas você não pode medir 'causa'; você só pode medir a 'correlação'. Você pode observar perturbações em um sistema e, em seguida, medir o comportamento subsequente do sistema, mas nunca pode realmente isolar nenhum aspecto de qualquer sistema no mundo natural. Você nunca pode replicar exatamente as condições de um experimento / observação para futuros experimentos / observações. Isso significa que todos os comportamentos observados são o produto de uma série de influências que nunca podem ser explicadas ou controladas de maneira abrangente. Declarar um fator “parcialmente responsável” é uma maneira particularmente sem sentido de ver a causalidade.

Além disso,

Correlação e dependência

é uma medida estatística, que requer uma pluralidade de medidas e é uma questão de grau.

A correlação, no limite, não converge necessariamente em causalidade.

Isso sugere uma falha sutil, mas crucial no ditado comum: "correlação não implica causalidade". Você pode inferir erroneamente que existem outros meios para determinar a causa, mas não existem. A frase seria mais precisa / significativa se dissesse "a correlação não implica necessariamente causalidade".

Um bom exemplo é o chamado paradoxo do emaranhamento quântico.

Não há contradição da relatividade aqui, mas você precisa pensar cuidadosamente.

As duas partículas emaranhadas devem existir no futuro cone de luz do evento comum que as emaranhou. Isso significa que, em alguns quadros de referência, a observação da primeira partícula precede a observação da segunda partícula, enquanto em outros quadros de referência a observação da segunda partícula precede a observação da primeira partícula.

Assim, não se pode dizer que nenhuma observação cause algum resultado na observação do outro. As duas observações coexistem, os resultados de uma não têm precedência sobre os resultados da outra.

De acordo com a mecânica quântica, os resultados das duas observações serão correlacionados, e isso é verdade. Mas a correlação não implica causalidade.

Nenhum resultado da observação é influenciado causalmente pelo outro. Nenhuma observação envia um sinal para o outro. (Se você pensa o contrário, diga-me sem ambiguidade qual observação enviou o sinal e qual recebeu; qual observação foi a causa e qual o efeito?)

Isso parece preocupante. Certamente incomodou Einstein. Mas considere. Nenhum observador pode tomar conhecimento dos resultados de ambas as observações até que um sinal de velocidade da luz (ou menor) seja enviado dos observadores separados de ambas as observações para esse observador comum. Tudo o que a teoria quântica exige é que, quando o observador comum receber os dois sinais sobre os resultados das duas observações, ele registrará que os sinais lhe dizem que os resultados das observações foram correlacionados.

Mas não há comunicação mais rápida que a luz acontecendo aqui. Esse observador comum é, no futuro, cones de luz de ambos os eventos de observação. E o evento em que o observador comum recebe as informações é a primeira vez que alguém em todo o conjunto recebe essas informações. Os observadores das duas partículas não eram receptores de informação, eram geradores de informação.

Isso continua assustador, com certeza. Mas tudo o que a mecânica quântica exige é que a função de onda dos sinais que codificam os resultados das duas observações seja correlacionada até que entrem em colapso com o recebimento do observador comum e a observação dos dois sinais. Os resultados das observações separadas não podem ser observados por um único observador comum para verificar sua correlação até que esse observador comum esteja dentro da comunicação de velocidade normal da luz de ambos os dois eventos de observação.

Eu acho que Einstein poderia viver com isso, embora ainda não gostasse das funções de onda de sinal correlacionadas.

Há uma boa simetria aqui. É preciso um evento de interação passado comum para emaranhar as partículas, que sempre estarão no cone de luz futuro desse evento emaranhado. É preciso um evento de observação futuro comum para verificar a correlação prevista pela mecânica quântica entre as duas partículas, e ambas as observações, uma em cada partícula, devem estar dentro do cone de luz passado desse evento de observação que verifica a correlação.

Não sou físico o suficiente para saber, mas me pergunto se essa simetria se conecta de alguma forma às simetrias do CPT.

Vamos passar por isso em várias etapas, não é?

Primeiro de tudo, há muitos gráficos de vômito que expressam o fato de que a correlação não implica causalidade:

Nicholas Cage não é poderoso o suficiente para causar tal acontecimento ... é?

Não acredito que não é manteiga! Deus amaldiçoe Linda, quantas vezes tenho que lhe dizer que essa é uma casa só de manteiga? É isso aí! Eu quero um divórcio.

Honestamente, não consigo pensar em nada insignificante para este.

Mais gastos significam mais empregos, mais empregos significam mais estudantes de STEM, e se você já conheceu um estudante de STEM, isso realmente parece uma surpresa?


De qualquer forma, gráficos como esses são bastante populares ao mostrar, com muita clareza, por que a correlação nem sempre é igual à causalidade. Eles são apenas coincidentes por natureza, sem um tema abrangente conectando os dois, apesar de parecer haver uma correlação.

Dito isto, usar isso apenas como um método para explicar por que a correlação nem sempre é igual à causa parece um pouco artificial, então permita-me fornecer alguns exemplos mais realistas, mas "perigosos".

O estatisticamente racista, e o político com um complexo de superioridade, são dois grupos de pessoas que usam e abusam das estatísticas para provar um ponto, porque pelo valor de face algo pode mostrar uma correlação e uma causa, provando qual seja o seu ponto, quando na realidade é muito mais complexa e não verdadeiramente uma correlação de sua discrição.


Vamos começar com o estatisticamente racista.

Na verdade, isso vem de uma resposta do Quora que eu vi recentemente.

Eu não chegaria ao ponto de dizer que os escritores são racistas, mas o que eles estão fazendo é tocar uma música de “você nunca concorda comigo e me chama apenas de racista porque essa estatística prova meu ponto de vista e apenas isso estatística. Ha! Pegue isso!"

E aqui está o link para a tabela que é referenciada:

Quadro 21

Este escritor, em seguida, origina o seguinte mapa:

E adiciona a seguinte declaração:

Portanto, para este escritor, que darei o benefício da dúvida de não ser racista, encontra uma correlação entre ser negro e ter valores mais altos de atividade criminosa e ser não europeu e não asiático oriental com taxas mais altas de homicídio, como sendo a causa direta da raça.

E pelo valor de face, seria realmente fácil ver isso.

De fato, alguns de vocês que estão lendo isso agora podem estar inclinados a dizer “mas espere um minuto, isso deve significar pessoas negras e não-europeus / asiáticos do leste em geral devem ser mais inerentemente menos comportados e civilizados! Quero dizer, as estatísticas mostram isso, e os fatos não podem estar errados ”.

É fácil dizer isso, ver "x = y" e nem mesmo questioná-lo.

Deseja saber por que essa correlação não é igual a causação?

Porque no valor inicial da taxa de homicídios com base na raça, ele ignora completamente o nível educacional dos presos, seu nível de renda e o crime pelo qual foram presos.

Você deve me dizer que um homem negro com ensino superior, na classe média alta, terá a mesma taxa de encarceramento ou homicídio do que um abandono do ensino médio, um homem negro abaixo da linha da pobreza, apenas devido a eles sendo preto? Eu acho que não.

Existem muitos fatores que desacreditam a correlação entre essas estatísticas.

De fato, farei algo ainda melhor e me relacionarei com minhas próprias experiências. Muito do que eu estudo tem a ver com taxas de encarceramento, taxas de homicídio, complexo industrial prisional, guerra às drogas, etc.

Quer saber alguma coisa?

Admito que é muito mais provável que os negros cometam (certos) crimes e seja preso por eles. Deseja saber mais o que esses estudos mostram que é provável que os negros sejam?

É mais provável que lhes seja negado um emprego devido à raça ou raça percebida com base em coisas como o nome, mesmo com um histórico limpo e boa educação. Eles são muito mais propensos a serem pobres e nascidos na pobreza, muito mais propensos a viver em lares desfeitos, muito menos propensos a concluir o ensino médio e assim por diante quando comparados a outros dados demográficos.

E não é uma natureza inerente ao "ser negro" que essas coisas ocorram. São anos de uma história culminante.

E todos esses estudos não atraem a correlação entre taxa de criminalidade e encarceramento para a raça, eles atraem para todos esses vários fatores, porque nenhuma estatística ou estudo credível tentará reivindicar algo sem o exame cruzado para garantir que haja uma verdadeira correlação e causa provável. É por isso que qualquer estudo sério vale a pena não dizer que os negros são mais perigosos ou mais criminosos porque são negros.

Eles sabem que qualquer pessoa, dada a circunstância inerente a grande parte da comunidade afro-americana, terá uma maior taxa de atividade criminosa e maior taxa de encarceramento, independentemente da raça.

E isso é um eufemismo significativo, eu li mais de 100 estudos de páginas exclusivamente sobre esse tópico, de uma variedade de acadêmicos, liberais, conservadores etc., e todos parecem concordar com isso.

E o mapa posterior da taxa de homicídios é levado à corrida, mas é tão ignorante quanto ao PIB dessas nações, nível educacional, desenvolvimento, taxa de mortalidade infantil e níveis de corrupção do estado.

Por quê? Porque abordagens holísticas fazem declarações gerais preguiçosas e abusam de estatísticas muito mais.

É por isso que afirmo fortemente que a correlação estatística igual à causalidade é falha, com base em quantos racistas estatísticos (ou academicamente preguiçosos) podem abusar deles. E não no demérito da estatística ou de estudos acadêmicos.


Agora, o que dizer do político com um complexo de superioridade?

Vou abordar isso com brevidade principalmente porque acho que esse é um tópico mais fácil de entender, mas essencialmente, embora não seja tanto no Quora, já vi muitos escritores liberais usarem a linha comum "os liberais, em média, têm um QI mais alto do que os conservadores ”, como se implicasse que ter um QI acima da média aumenta a probabilidade de um liberal (não é). Outro que eu vi é que “as pessoas religiosas, em média, têm um QI mais baixo que o irreligioso”, o que mais uma vez não é inerentemente uma implicação de que um QI mais baixo se correlaciona com ser religioso.

Muitas dessas estatísticas ignoram gravemente a cultura da demografia pesquisada.

Por exemplo, os liberais demonstram, em média, um QI mais alto, mas isso não significa que as pessoas burras sejam inerentemente conservadoras, o que significa é que mais liberais vivem em áreas com melhor acesso à educação e são de uma cultura que talvez mais enfatiza fortemente a escolaridade, fazendo com que essas estatísticas ocorram.

Da mesma forma, a maior parte das pessoas religiosas são de países subdesenvolvidos, onde a escolaridade e o acesso são baixos, enquanto a maioria dos ateus vem de países desenvolvidos, onde o acesso à educação é alto, fazendo com que tecnicamente haja uma correlação, mas apenas pelo valor de face.

Muitos escritores conservadores têm seus próprios meios de abuso estatístico, por isso não é uma natureza inerente aos escritores liberais (veja? Estatísticas!).

Há muito mais nas estatísticas.


Portanto, toda essa resposta tem sido uma maneira muito longa de dizer que a correlação nem sempre é causal, mesmo quando parece ou soa muito promissora por causa de uma coisa que eu chamo de nuance.

E vocês sabem o quanto eu me amo algumas nuances.

De qualquer forma, a correlação nem sempre é igual à causalidade, porque as estatísticas não são tão inadequadamente binárias quanto muitas pessoas as imaginam, e muitas dessas estatísticas requerem um entendimento holístico para realmente criar uma causação plausível, efeito e toda a conversa fiada.

Isso não significa que as estatísticas são todas nulas, são incrivelmente úteis, especialmente na academia, mas muitas vezes há mais do que aparenta.

Atenciosamente, um homem que encara muitas estatísticas.

Você pode não estar procurando exemplos divertidos de estatísticas esquisitas correlacionadas aleatoriamente, mas sim exemplos em que a causa é aparentemente implícita pela correlação, mas um exame mais detalhado revela que pode ser de outra forma.

Certa vez, um amigo me disse para nunca beber Mountain Dew. Parece que algum outro amigo dele, um dentista na zona rural do Tennessee, havia lhe dito que muitos de seus pacientes bebiam muito Mountain Dew, e seus dentes estavam em péssimo estado.

É justo dizer que Mountain Dew é especialmente destrutivo para os dentes das pessoas? Eu diria que não, não mais do que Coca-Cola ou Kool Aid. Não é irracional esperar que as pessoas da região frequentemente não tenham conhecimento e acesso a atendimento odontológico adequado, talvez apenas procurando em situações de emergência. Considerando que também é bastante comum que essas mesmas pessoas bebam muito Mountain Dew, isso é correlação. O veículo exato de entrega de açúcar não é especialmente relevante. Eles estão prestando cuidados precários aos dentes de uma maneira ou de outra.

Eles provavelmente ouvem Dolly Parton mais do que o americano comum, mas a sugestão de que a música de Dolly (por mais doce que seja) apodrece é mais claramente uma conclusão falsa, mas não totalmente diferente.

Costumo salientar que as pessoas que bebem muito Gatorade têm uma incidência muito maior de lesões no joelho. Para esse assunto, eles experimentam taxas mais altas de concussão e ossos quebrados. Você me diz se é razoável afirmar que Gatorade torna o corpo mais frágil.

Vou contar a você uma discussão em que entrei com um amigo no Facebook há um ano ou mais. Ele postou um meme baseado neste artigo publicado pelo The Brookings Institute:

Três regras simples que adolescentes pobres devem seguir para ingressar na classe média

O artigo sugere que, se você 1) terminar o ensino médio 2) trabalhar em período integral e 3) se casar e tiver filhos somente depois dos 21 anos, não será pobre.

Especificamente, ele lê “… dos adultos americanos que seguiram essas três regras simples, apenas cerca de 2% estão na pobreza…”.

Eu disse ao meu amigo que achava que isso era uma confusão de correlação e causalidade. Embora, sem dúvida, essas coisas sejam úteis para o objetivo de evitar a pobreza, o que o estudo fez foi examinar os dados, encontrar alguns pontos que correspondiam bem à categoria "classe média" e raciocinar para trás a partir desses pontos de dados correspondentes que eram causais ao associação de classe social inicialmente selecionada. Assim, as características das pessoas da classe média se tornaram “regras” a serem seguidas para se juntar a elas.

Acho o raciocínio questionável, pois parece ignorar que a própria pobreza pode dificultar o cumprimento dessas “regras”, se não impossível, para aqueles que já são pobres. Você pode precisar sair da escola para ajudar a alimentar e sustentar sua família. Talvez você não consiga encontrar trabalho em período integral porque mora em uma comunidade economicamente deprimida (e ironicamente também tem falta de educação). Você pode não ter acesso adequado ao controle de natalidade e outras formas de tratamento de saúde. Cada falta se alimenta de outras, e simplesmente “seguir essas três regras simples” não é tão fácil quanto parece.

Não poderia estar em uma situação que permita seguir essas “regras” (ou seja, tornar essas três coisas mais possíveis e, portanto, mais comuns) ser um fator causal mais diretamente à aquisição real dessas três características * além * da quarta parte alcançar status de classe média? Em outras palavras, essas quatro coisas não poderiam ser causadas por encontrar-se em uma situação que permite que todas elas ocorram prontamente?

Admito que a análise completa é complicada e quanto mais você pensa sobre isso, mais você roda em círculos. E não desejo negar a idéia de que todas essas três “regras” são boas idéias para os jovens seguirem. No entanto, sinto fortemente que o raciocínio de causa / efeito é defeituoso ou, no mínimo, pode facilmente ser transformado em uma mentalidade de culpar a vítima. Você é pobre? Bem, você seguiu estas três regras simples? Não? Então a culpa é sua, você é pobre!

Há muitas pessoas que fizeram essas coisas e ainda são pobres. Há muitos que não fizeram essas coisas e, apesar disso, são da classe média. A sociologia é confusa, e como você desenha relacionamentos causais é importante. Se são apenas três regras, você pode apenas indicar quais são as regras e apontar o dedo para quem as quebra. Se se trata de ter ambientes que suportam vários resultados positivos para as pessoas, precisamos tentar criar esses ambientes. Também podemos ter que olhar para nós mesmos, se não houver pessoas suficientes atingindo esses resultados devido à falta de ambientes de suporte.

Precisamos ter bastante cuidado ao decidir o que causa o quê.

Por fim, vou deixar você com algo mais divertido. Em termos percentuais, muito mais usuários do Facebook morreram no ano passado do que usuários do Snapchat. Conclusão: o Facebook mata!

Uma maneira fácil de separar os dois é:

Causação sempre funciona em apenas uma direção.

A correlação geralmente funciona em ambas as direções.

Portanto, a causação sempre levará a correlações confiáveis, mas as correlações, mesmo que estatisticamente significativas, não podem alegar indicar causalidade confiável. Uma correlação entre duas coisas pode acontecer por outras razões; é por isso que a única conclusão que você pode tirar sobre dois fatores correlacionados é que eles covários e o coeficiente de correlação (r de Pearson, varia de -1 a 1) devem ser elevados ao quadrado para indicar a quantidade de covariância. (Portanto, um r de 0,7 explica menos de 50% da variação nos seus dados.)

Como exemplo, considere as taxas de assassinatos que se correlacionam estatisticamente em um nível significativo com as vendas de sorvete (de verdade).

O consumo de sorvete leva as pessoas a matar? Ou os assassinatos têm um grande apetite por sorvete? (Funciona nos dois sentidos!)

Ou, ambos covary com ainda outro fator? Nesse caso, a correlação é real, mas o terceiro fator é o calor e, de fato, ambos aumentam nos meses de verão. Mentes empreendedoras agora podem levar isso adiante e, por exemplo, encontrar correlações com a inclinação da terra. (todos os gráficos são cortesia da internet)

Além disso, as correlações são um caso especial e o refinamento da regressão linear e, portanto, estão sujeitas a valores extremos extremos na amostra medida, que podem distorcer a regressão e, portanto, r. Uma boa correlação (cerca de 0,85 a 0,90) entre duas variáveis ​​é semelhante a esta: (Observe que todos os valores de x e y dados baixos são arbitrários):

Agora considere um em que um outlier leva a um valor totalmente enganoso de, provavelmente r .2:

Um caso notório de distorção externa da relação entre duas variáveis ​​ocorreu na década de 1960, quando foi relatada uma correlação entre o tamanho do sapato e o QI, devido a um erro na amostra que era muito, muito inteligente e tinha tamanho de sapato 14. Portanto, enquanto essencialmente não existe correlação no restante da amostra, um único erro externo pode aumentar o valor de r. Graficamente, ficaria assim:

***** Existe, no entanto, uma correlação confiável entre QI e altura,

***** os múltiplos fatores que contribuem para isso são encontrados aqui

Por que as pessoas mais altas são mais inteligentes que as mais baixas?

?

Em suma, lembre-se dos 2 pontos no início:

Causação sempre funciona em apenas uma direção.

A correlação geralmente funciona em ambas as direções, além dos dois fatores medidos por r, pode haver vários fatores adicionais que contribuem para a correlação.

Diz-se que "correlação não significa causalidade".

Curiosamente, o oposto é verdadeiro: não há correlação sem causalidade. Portanto, se duas variáveis ​​(digamos A, B) estão correlacionadas, deve haver algum tipo de relação causal entre elas, mas não sabemos ao certo a direção dessa causalidade.

Mas (!!!): 1. A correlação observada nem sempre significa correlação ("real"); pode ser uma coincidência aleatória (ou erro de medição aleatório, se você preferir), chamada correlação espúria. Assim, você estuda as variáveis ​​não correlacionadas A e B e observa uma correlação positiva. Obviamente, neste caso, não há relação causal.

2. Não podemos saber a direção da causalidade a partir da correlação, pode ser A causa B, casos B A, algum C causa A e B ("fator comum"), ou, ainda que não seja bem conhecido, pode haver outros casos mais complicados. (como feedbacks).

3. Muito tempo A e B disseram estar correlacionados, mas na verdade não são. A correlação só faz sentido se A e B estiverem em pé. Portanto, se A e B têm uma tendência, pode haver uma correlação de 100% pela fórmula, mas isso não significa nada sobre as duas variáveis, elas podem ser (e geralmente são) independentes!

Portanto, se você vê figugers / parcelas sobre curral, existem mais possibilidades:

no caso de 3, você precisa fazer a diferença e calcular a correlação no caso de 1; você precisa de mais pontos de dados ou apenas suspeita que isso é resultado da mineração de dados, se não for você quem apresenta o figuras. no caso 2, evite dizer A-> B ou B-> A, pois isso não faz sentido (como a correlação é simétrica). você precisa descobrir com outro raciocínio, usando teorias, modelos ou criar mais experimentos para aprender mais.

Mas a correlação real é sempre o resultado de algum tipo de causalidade; no entanto, a correlação falsa não é. PS: posso dar mais detalhes e exemplos dos 3 pontos, se necessário nos comentários

Um exemplo que meu professor deu uma vez foi a altura e o peso das pessoas. Naturalmente, elas estão positivamente correlacionadas: uma pessoa mais alta provavelmente pesa mais e vice-versa, mas nenhuma causa a outra. Por exemplo, se você tomar muito sorvete no fim de semana, provavelmente ganhará peso, mas não espera que fique mais alto.

De fato, você pode substituir peso e altura em situações em que esteja interessado em inferência estatística sobre x e y. Por exemplo, aqui está um exemplo da mesma classe. Digamos que um estudo de países tenha encontrado uma correlação negativa entre taxa de desemprego e PIB. a) Podemos concluir que quanto maior a taxa de desemprego de um país, em média, menor o seu PIB? Sim. (peso substituto pela taxa de desemprego, altura pelo PIB. Quanto maior o peso de alguém, em média, mais alto ele é. A única ressalva aqui é que, por essa substituição, a correlação passou de negativa para positiva). b) Podemos concluir que um país que reduz sua taxa de desemprego em 1% pode obter algum aumento no PIB? Não, pelo menos não apenas por saber que há uma correlação negativa entre os dois. (faça a substituição novamente. Se alguém perder 10 libras, também espera que ele diminua?). Você pode fazer essa substituição em situações mais sutis para ver se é possível inferir algo da correlação. Pessoalmente, achei o conselho do meu professor muito útil.

“Correlação não é igual a causalidade” foi uma das coisas mais úteis que aprendi na aula de estatística. Refere-se basicamente à idéia de que, apenas porque dois eventos ocorrem juntos ou se aproximam no tempo, isso não significa que um causa o outro. Aqui estão alguns dos meus exemplos favoritos.

NOTA: Por favor, considere minhas porcentagens como minhas melhores estimativas, pois não tenho acesso aos números reais.

  • 75% dos assassinos comeram alguma forma de batata na semana anterior à morte de alguém. Comer batatas contribui para o assassinato?
  • Muitos políticos têm Transtorno da Personalidade Narcisística. Ser político causa transtornos de personalidade?
  • 60% das pessoas que morrem em acidentes de avião possuem carros. Ter um carro causa um acidente de avião?
  • 80% das pessoas que morrem de repente ouviram música durante a semana anterior à sua morte. Ouvir música causa morte súbita?

Você entendeu a foto. Penso que gerar exemplos que ilustrem que “Correlação não implica necessariamente causalidade” pode ser um jogo divertido para intelectuais ou adultos e crianças entediados durante longas viagens de carro.

Elinor Greenberg, PhD, CGP

Na prática privada em Nova York e o autor do livro: Adaptações Borderline, Narcisista e Esquizóide.

www.elinorgreenberg.com