Distribuição t vs distribuição normal

As distribuições normal e t são usadas para descrever o erro de amostragem: ou seja, as variações no valor de M (média da amostra) em milhares de amostras aleatórias (imaginárias) selecionadas na população da amostra.

Quando o desvio padrão da população é conhecido, a distribuição amostral de M pode ser representada por uma distribuição normal. Na prática, porém, nunca conhecemos sigma; estimamos o sigma usando o desvio padrão da amostra SD.

O problema que surge quando usamos o SD para estimar o sigma é que obtemos ainda mais erros de amostragem. A quantidade de erro de amostragem adicional depende de N, o tamanho da amostra; isso é convertido em df = N - 1.

Quanto menor o df, maior o erro de amostragem adicional (isso é consistente com qualquer intuição de que amostras maiores possam fornecer informações melhores).

Esta figura mostra como a forma das distribuições t com 3 df e 6 df difere da forma de uma distribuição normal. Observe que as distribuições com 3 e 6 df têm caudas "mais gordas" em comparação com uma distribuição normal.

Se usarmos o critério mais comum para significância estatística (p <0,05 bicaudal) e usarmos a distribuição normal, rejeitamos Ho para valores de t menores que -1,96 e maiores que +1,96 (veja esses valores marcados na figura) .

Se usarmos t com 3 df, nossos valores críticos deverão ser muito maiores para rejeitar Ho; só podemos rejeitar Ho para valores de t menores que -3,18 e maiores que +3,18.

Em certo sentido, t distribuições são "falsificadas" ou distribuições normais modificadas. Eles são modificados para levar em consideração o erro de amostragem adicional que surge quando o sigma não é conhecido e usamos uma amostra SD para estimar o sigma.

À medida que df para uma amostra aumenta (se df for maior que 120, por exemplo), a distribuição t converge para a distribuição normal.