LIVRO GRATUITO: ESTATÍSTICA PARA CIÊNCIA DE DADOS COM LINGUAGEM R

Distribuição Normal

 

Dizemos que X tem uma distribuição normal se sua função de probabilidade é da forma:


Figura 15: Distribuição Normal (FERNANDES)

Representada pela famosa curva em forma de sino, a distribuição normal é também conhecida como a distribuição gaussiana, porque o matemático alemão C. F. Gauss contribuiu largamente para o seu desenvolvimento matemático. Esta distribuição é usada frequentemente, seja a variável aleatória contínua ou discreta.

 

O modelo normal aparece na teoria de todos os tipos de fenômenos naturais, desde a maneira como as partículas de fumaça se dissipam em uma sala fechada, até a jornada de uma garrafa flutuando no oceano, até o ruído branco da radiação de fundo cósmica.

 

Caracterizada pela média µ = 0 e o desvio padrão σ = 1, dizemos que a variável aleatória tem uma distribuição normal padrão e geralmente escrevemos Z (norm(média = 0, desvio padrão = 1)).

 

Quando um conjunto de dados tem sua distribuição descrita pela curva normal, isso significa que temos uma distribuição dos valores de maneira simétrica ao longo da curva, e média, mediana e moda coincidem no valor que indica o pico da curva.

 

A média indica o centro da curva da distribuição, e o desvio padrão define a forma da curva. Quanto maior o desvio padrão, mais “achatada” a curva. A distribuição normal possui uma série de propriedades interessantes.

 

Alterar a média de uma distribuição normal não altera a forma, apenas “desloca” a curva ao longo dos eixos. Já uma alteralção no desvio padrão afeta o formato da curva. Em todos os casos, a curva normal das frequências tem amplitude correspondente a seis desvios padrões.

Em qualquer distribuição normal, podemos observar que:

  • metade das observações têm valores abaixo da média e a outra metade, maiores;
  • 68% das observações estão dentro de um intervalo limitado por um desvio padrão para cada lado da média;
  • 95% dos valores se encontram no intervalo de até dois desvios padrão para cada lado da média;
  • 7% dos valores pertencem ao intervalo limitado por três desvios padrão em relação à média.

Numa distribuição normal, o percentil 84 localizado um desvio padrão acima da média. Em outras palavras, 84% dos valores estão contidos na faixa abaixo do valor correspondente à media mais um desvio padrão.

 

A plataforma R disponibiliza algumas funções para trabalhar com variáveis de acordo com a distribuição normal, a exemplo de dnorm(), pnorm(), qnorm() e rnorm(), dentre outras. 

 

Seja o experimento aleatório que consiste em uma pessoa fazendo um teste de QI, e seja X a variável aleatória discreta que indica a pontuação no teste. As pontuações em tal teste são tipicamente padronizadas para ter uma média de 100 e um desvio padrão de 15, e os testes de QI têm (aproximadamente) uma distribuição em forma de sino. Qual a probabilidade P(85 ≤ X ≤ 115)?

 

Sabendo que a variável X segue a distribuição normal e que os limites 85 e 115 caem exatamente a um desvio padrão (abaixo e acima, respectivamente) da média de 100, temos que a resposta é de aproximadamente 68%.

 

Agora, assumindo o modelo de QI do exemplo anterior, qual é a menor pontuação de QI admissível para que uma pessoa esteja no top 1% de todas as pontuações de QI?

 

Se uma pessoa está no top 1%, isso significa que 99% das pessoas têm escores de QI mais baixos. Então, podemos expressar o problema como a busca pelos valores de x acima do percentil 99. O trecho de código abaixo resolve o problema:

> qnorm (0.99, mean = 100, sd = 15)

[1] 134,8952

Vejamos o trecho de código abaixo que ilustra a distribuição dos valores de QI:

> media=100

> desvio=15

> min=85

> max=115

> x <- seq(-3,3,length=100)*desvio + media

> dx <- dnorm(x,media,desvio)

> plot(x, dx, type=”n”, xlab=”Valores de QI”, ylab=””,

main=”Distribuição Normal”, axes=TRUE)

> i <- x >= min & x <= max

> lines(x, dx)

> polygon(c(min,x[i],max), c(0,dx[i],0), col=”red”)

> area <- pnorm(max, media, desvio) – pnorm(min, media, desvio)

> result <- paste(“P(“,min,”< IQ <“,max,”) =”, signif(area, digits=3))

> mtext(result,3)


Figura 16: Distribuição (normal) dos valores de QI (fonte própria)

Teorema Central do Limite

 

Existem muitas populações que não seguem a distribuição normal. Para estes casos, o teorema central do limite ou teorema do limite central estabelece características importantes para tais populações.

 

Teorema do Limite Central:

Sejam X1, X2,…,Xn uma amostra de valores aleatórios independentes de uma distribuição populacional com média µ e desvio padrão finito σ. Então, a distribuição amostral de Z = (X − µ) / (σ / √n) se aproxima de uma distribuição normal (média = 0, sd = 1), quando n → ∞.

Observe que a forma da distribuição da população subjacente não é mencionada no teorema. De fato, o resultado é verdadeiro para qualquer população que seja bem comportada o suficiente para ter um desvio padrão finito.

 

A implicação do teorema central do limite resulta na estatística Z. As ’estatísticas’ são muito importantes na análise de experimentos. Elas permitem tirar conclusões sobre populações baseadas na informação extraída das amostras (representativas das populações). Elas são bastante usadas na Estatística Inferencial.

 

Distribuições normais são bastante convenientes pelas suas muitas propriedades estatísticas interessantes, e especialmente porque podem ser dimensionadas para qualquer média ou desvio padrão, significando que você pode usar exatamente a mesma distribuição para peso, altura, pressão arterial e muitas outras situações de experimentos. Evidentemente, as médias e desvios padrão de cada amostra para cada situação são completamente diferentes. Para obter as distribuições padronizadas, as medições podem ser alteradas usando a estatística z.

 

A estatística Z pode servir como substituto para a medição real, e representa a distância de um valor em relação à média, sendo calculada em termos da quantidade de desvios padrão. Portanto, uma estatística z de 2,0 significa que a medida está a 2 desvios padrão da média.

 

Para ilustrar o uso da estatística Z, voltemos ao exemplo do QI. Suponha que queremos saber a probabilidade de que alguém tenha QI acima de 150. Veja o trecho de código abaixo:

> z = (150 – media) / desvio

> pnorm(z, lower.tail = FALSE)*100

0.0429060333196837

O que fizemos aqui foi apenas calcular a estatística Z para um valor de QI desejado, e depois utilizar este valor para obter a probabilidade através da função pnorm(). Note que tivemos que usar a opção “lower.tail = FALSE” para obter a cauda “superior” da curva. Isto porque o comportamento padrão da função pnorm() é retornar a cauda “inferior” da curva, ou seja, a probabilidade de que uma pessoa tenha um QI até 150, que não era adequado para o resultado que buscávamos. Por fim, note que o valor já está em percentual (multiplicado por 100), indicando que a chance de alguém ter um QI superior a 150 é de apenas 0,04%.

Distribuição Exponencial

 

Uma variável aleatória discreta que represente a quantidade de ocorrências de um evento, num intervalo definido de tempo, tem seu comportamento definido por uma distribuição de Poisson de parâmetro λ (lambda).

 

Se considerarmos uma variável aleatória discreta X, definida como o tempo entre sucessivas ocorrências desse acontecimento, tal variável terá seu comportamento determinado pela distribuição exponencial.

 

Assim, uma variável aleatória X tem uma distribuição exponencial (X ∼ exp (taxa = λ)), se:

fX(x) = λe −λx, para x > 0.

A distribuição exponencial está intimamente relacionada com a distribuição de Poisson, como vimos. Se os clientes chegam a uma loja de acordo com um processo de Poisson com taxa λ e se Y conta o número de clientes que chegam no intervalo de tempo [0, t), então Y ∼ pois (lambda = λt).

 

A diferença é que a distribuição de Poisson fornece a probabilidade de que N eventos ocorram durante um período de tempo, como a probabilidade de 5 eventos durante o período de 1 minuto. A distribuição exponencial dá como resultado o intervalo de tempo entre duas chegadas consecutivas e situações similares.

 

Diz-se que a distribuição exponencial é sem memória, porque variáveis aleatórias exponenciais “esquecem” o quão antigas elas são em cada instante. Ou seja, a probabilidade de esperarmos mais cinco horas para que um cliente chegue, uma vez que já esperamos sete horas, é exatamente a probabilidade de que precisássemos esperar cinco horas pelo primeiro cliente.

 

A plataforma R fornece as funções dexp() e dpois() para lidar com este tipo de distribuição, dentre outras.

Distribuição Qui-Quadrado

 

Uma variável aleatória X tem uma distribuição Qui-Quadrado, com n graus de liberdade, se puder ser escrita como uma soma de quadrados:

X = Y21 + … + Y2n ,

onde Y1, …, Yn são variáveis aleatórias normais mutuamente independentes.

 

Os graus de liberdade referem-se ao número de observações independentes em um conjunto de dados.

 

A distribuição do Qui-Quadrado é a distribuição da soma dos desvios padrão ao quadrado para distribuições normais. Os graus de liberdade da distribuição são iguais ao número de desvios padrão sendo somados. Portanto, Qui-Quadrado com um grau de liberdade, escrito como X2(1), é simplesmente a distribuição de um único desvio padrão da distribuição normal, ao quadrado. A área de uma distribuição de Qui-Quadrado abaixo de 4 é a mesma que a área de uma distribuição normal padrão abaixo de 2, pois 4 é igual a 22.

 

A média de uma distribuição de Qui-Quadrado corresponde aos graus de liberdade. À medida que os graus de liberdade aumentam, a distribuição Qui-quadrado aproxima-se de uma distribuição normal.

 

Esta distribuição é muito importante porque muitas estatísticas de teste são aproximadamente distribuídas como Qui-Quadrado. Dois dos testes mais comuns usando a distribuição do Qui Quadrado são testes de desvios de diferenças entre frequências teoricamente esperadas e observadas (tabelas unidirecionais) e a relação entre variáveis categóricas (tabelas de contingência). Numerosos outros testes são também baseados na distribuição do Qui Quadrado.

 

A plataforma R oferece algumas funções para lidar com dados distribuídos de acordo com Qui-Quadrado: chisq.test(), dchisq() e pchisq() são exemplos.

 

Para estabelecer que 2 variáveis categóricas são dependentes, a estatística Qui-Quadrado deve estar acima de um certo ponto de corte. Esse corte aumenta à medida que o número de classes dentro da variável aumenta. Alternativamente, você pode simplesmente executar um teste Qui-Quadrado e verificar o valor-p.

 

Como todos os testes estatísticos, o teste Qui-Quadrado assume uma hipótese nula e uma hipótese alternativa. Em geral, se o valor-p do resultado é menor do que um nível de significância pré-determinado (normalmente 0,05) então rejeitamos a hipótese nula.

 

H0: As duas variáveis são independentes.

H1: As duas variáveis estão relacionadas.

 

A hipótese nula do teste do qui-quadrado é que as duas variáveis são independentes e a hipótese alternativa é que elas estão relacionadas. A forma mais simples de executar um teste Qui-Quadrado usando a plataforma R é através da função chisq.test().

Tabela de Conteúdo

  • estatistica-para-ciencia-de-dados-com-linguagem-r
    • Apresentação
    • Dedicação
    • Autor
    • resumo
  • plataformas-análise-dados-estatísticas
    • Plataformas de análise estatística de dados
  • plataforma-linguagem-r
    • A plataforma R
    • Linha de comando
    • RStudio
    • Conseguindo ajuda
    • Explorando o
    • RStudio
    • Operadores
    • Variáveis e tipos de
    • Dados
    • Objetos
    • Vetor
    • Matrizes
    • Matrizes
    • Listas
    • Quadros de dados
    • Funções
    • Estruturas de controle
  • estatística para ciência de dados
    • Introdução à Estatística para Análise de Dados
    • Visualizando e descrevendo dados quantitativos
    • Estatística Descritiva x
    • Estatística Inferencial
  • medidas-dispersão-tendência-central
    • Visualização e
      Descrição de dados quantitativos
    • Definindo variáveis quantitativas discretas e contínuas
    • Medidas de tendência central – média
    • Medidas de Tendência Central – Mediana
    • Medidas de Tendência Central – Moda
    • Outras medidas de tendência central
    • Medidas de dispersão
    • Medidas de posição relativa – quartis e percentis
    • Gráficos para variáveis quantitativas
  • associações-correlação-causalidade
    • Análise bidimensional
      Associação entre
    • variáveis qualitativas
    • Medidas de associação entre variáveis qualitativas
    • Associação entre variáveis quantitativas
    • Medidas de associação entre variáveis quantitativas
    • Associação entre variáveis qualitativas e quantitativas
    • Analisando e interpretando gráficos de dispersão
      Atribuindo funções a variáveis de plotagem de dispersão
    • Noções básicas sobre correlação
    • Condições para análise de correlação
    • Correlação e Causalidade
  • probabilidade
    • Probabilidade conjunta
    • Probabilidade
    • Condicional e Independência
    • Tabelas de contingência
    • Árvores de probabilidade
  • regra-de-bayes-distribuições-probabilidade
    • Variáveis aleatórias e
    • Distribuições de probabilidade
    • Distribuição uniforme
    • Distribuição normal
    • Teorema do limite central
    • Distribuição Exponencial
    • Distribuição Qui-Quadrado
    • Distribuição t de student
    • Distribuição F
  • testes-hipótese-análise-variância-anova
    • Introdução à Inferência Estatística
    • Distribuições e proporções de amostragem
    • Testes de Hipóteses
    • Projeto de Experimentos e Análise de Variância (ANOVA)