LIVRO GRATUITO: ESTATÍSTICA PARA CIÊNCIA DE DADOS COM LINGUAGEM R

Para aplicar um teste de hipótese, usamos a prova indireta ou redução ao recurso absurdo. Em outras palavras, assumimos que a hipótese que queremos descartar é verdadeira e, se conseguirmos chegar a uma contradição, podemos descartar a hipótese nula e considerar razoável admitir a hipótese alternativa. Caso contrário, não temos elementos para descartá-lo.

Enfatizamos que o teste de hipóteses visa, com base nas evidências coletadas na amostra, aplicando técnicas estatísticas, verificar se a hipótese pode ser descartada. Como os dados são obtidos por meio de um processo de amostragem, devemos observar que há uma probabilidade de erro, e é por isso que precisamos procurar dados suficientes na amostra para apoiar a inferência e descartar a hipótese nula.

Qualquer teste de hipótese inclui alguns elementos:

  • The null hypothesis H 0 ;
  • The alternative hypothesis H A ;
  • A test statistic;
  • The rejection region;
  • One conclusion.

A hipótese nula H 0 e a HA alternativa são afirmações referentes ao parâmetro populacional (geralmente a média μ ou variância σ 2), enquanto a estatística do teste permite obter a amostra de evidência que permite verificar se o resultado está na região de rejeição e, portanto, vem para a conclusão.

Se a estatística do teste for compatível com a região de rejeição, concluímos que a amostra é inconsistente com a hipótese nula e a rejeitamos. Caso contrário, há evidências de que a amostra pode ser consistente com a hipótese nula e, portanto, não podemos rejeitá-la.

Antes de prosseguir para a aplicação prática do teste de hipóteses, precisamos revisar alguns conceitos e introduzir novos.

Vamos começar com a estatística Z. Tomando como exemplo o estudo do valor de QI, cuja distribuição das pontuações dos testes pode ser aproximada pela distribuição normal com média de 100 e desvio padrão 15, temos:

> z = (150 – mean) / deviation

> pnorm (z, lower.tail = FALSE) * 100

0.0429060333196837

Calculamos a estatística Z aplicando a fórmula da diferença no valor da média, dividida pelo desvio padrão, atingindo um valor de 3,33. Este valor indica que 150 é um valor de QI que corresponde a 3,33 desvios padrão acima da média. Portanto, faz sentido que a chance de alguém ter um QI acima de 150 seja baixa, como podemos ver no resultado da função pnorm (), que, transformada em porcentagem, indica 0,04% de chance de uma pessoa ter um QI acima de 150.

Estritamente falando, pontuações acima de 150 nos testes de QI são valores considerados discrepantes, pois estão mais de três desvios padrão acima da média. Da mesma forma, valores acima de três desvios-padrão abaixo da média também são considerados discrepantes. Lembre-se desse número ao analisar conjuntos de dados para facilitar a identificação desses elementos que podem potencialmente impactar ou até distorcer a análise de dados.

Voltando ao conceito da estatística Z, temos que o intervalo de confiança é um intervalo de valores na escala Z associado a um nível de confiança. O nível de confiança, por sua vez, representa a probabilidade de 100 (1 – α)% de que a amostra contém o parâmetro populacional.

Então, nós temos que:

  • Há um intervalo de valores que contém o valor do parâmetro, chamado intervalo de confiança;
  • A probabilidade de esse intervalo conter o valor do parâmetro é dada pelo nível de confiança, calculado como 100 (1 – α)%, em que α representa o nível de significância;
  • O nível de significância α representa a probabilidade de que a média não esteja no intervalo de confiança e, portanto, possui um valor que corresponde ao complemento da probabilidade para o nível de confiança definido.

Detalharemos mais detalhadamente esses conceitos explorando nosso exemplo de resultados de testes de QI.

> media <- 100

> deviation <- 15

> n <- 1000

> sig <- 0.05

> error <- qnorm (1-sig / 2) * deviation / sqrt (n)

> lower <- media – error

> superior <- media + error

> bottom

> superior

99.6800614196414

100.319938580359

O código acima exemplifica o cálculo do intervalo de confiança, uma vez que α = 0,05 (5%) tenha sido definido. Assim, temos que o intervalo de confiança definido por (99,68, 100,31) tem uma probabilidade de 95% de conter a média μ da população, ou seja, a média das pontuações nos testes de QI. Da mesma forma, podemos dizer que há uma chance de 5% de que a média da população esteja fora da faixa.

Também podemos calcular o intervalo de confiança usando o teste T:

> x = seq (40,160, length = 200)

> y = mnorm (n, 100.15)

> t.test (y)

One Sample t-test

date: y

t = 210.07, df = 999, p-value <2.2e-16

hipótese alternativa: a média verdadeira não é igual a 0

Intervalo de confiança de 95%:

 99.38037 101.25459

sample estimates:

mean of x

 100.3175

> t.test (y, conf.level = 0.99)

 One Sample t-test

date: y

t = 210.07, df = 999, p-value <2.2e-16

hipótese alternativa: a média verdadeira não é igual a 0

Intervalo de confiança de 99%:

 99.08504 101.54992

sample estimates:

mean of x

 100.3175

Observe que podemos definir o intervalo de confiança desejado e várias medidas importantes são fornecidas. Além do intervalo de confiança, temos o valor da estatística T, os graus de liberdade, o valor de p e a estimativa da média da amostra. Toda essa informação é útil para verificar a qualidade do resultado obtido.

Em problemas reais, a definição do intervalo de confiança é crítica para o resultado que você deseja alcançar. Um intervalo de confiança de 95% pode ser adequado para analisar os escores do teste de QI, mas pode ser inadequado para o teste de hipóteses na avaliação da eficácia dos medicamentos contra o câncer. Isso ocorre porque, para o estudo da eficácia do medicamento, erros podem significar a morte de pessoas; nesse caso, é necessário maximizar a probabilidade de assertividade no resultado da análise.

> hist (y, main = “Distribuição de probabilidade para escores de QI”, prob = TRUE, quebras = 20)

> curva (dnorm (x, média, desvio), adicione = VERDADEIRO, col = “azul escuro”, lwd = 2)

Também podemos explorar a visualização dos dados da amostra através do código acima, o que permite combinar o histograma e a curva de distribuição normal para os escores de QI, conforme mostrado na imagem abaixo:

Probabilities of IQ Scores (own source)

Essa exibição é muito útil para verificar visualmente a aproximação entre a curva normal e a distribuição de frequência dos valores da pontuação de QI. Outra opção útil é hachurar a área sob a curva que representa o intervalo de valores de interesse.

> média = 100

> desvio = 15

> inferior = 85

> top = 115

> x <- seq (-4,4, comprimento = 200) * desvio + média

> dx <- dnorm (x, média, desvio)

> plot (x, dx, tipo = “l”, xlab = “Escores de teste de QI”, ylab = “”, main = “Distribuição de probabilidade para escores de QI”, eixos = VERDADEIRO)

> i <- x> = inferior & x <= superior

> polígono (c (inferior, x [i], superior), c (0, dx [i], 0), col = “cinza”)

> área <- pnorm (superior, média, desvio) – pnorm (inferior, média, desvio)

> resultado <- colar (“P (“, inferior, “

> mtext (resultado, 3)

O código acima exibe a curva normal, com a área hachurada correspondente ao intervalo que é um desvio padrão da média (entre 85 e 115, portanto). Vamos ver o gráfico abaixo:

Probabilidades de pontuação de QI (fonte própria)

Lembrando que esse intervalo tem uma probabilidade de 68,27% de conter um valor aleatório do QI, de acordo com as propriedades da distribuição normal.

Agora vamos ver como obter a área que nos oferece uma probabilidade de 95% de que um valor aleatório de QI esteja dentro do intervalo. Para isso, ajustamos o código, redefinindo o intervalo através dos limites inferior e superior para os valores da pontuação de QI.

> média = 100

> desvio = 15

> inferior = 70

> top = 130

> x <- seq (-4,4, comprimento = 200) * desvio + média

> dx <- dnorm (x, média, desvio)

> plot (x, dx, tipo = “l”, xlab = “Escores de teste de QI”, ylab = “”, main = “Distribuição de probabilidade para escores de QI”, eixos = VERDADEIRO)

> i <- x> = inferior & x <= superior

> polígono (c (inferior, x [i], superior), c (0, dx [i], 0), col = “cinza”)

> área <- pnorm (superior, média, desvio) – pnorm (inferior, média, desvio)

> resultado <- colar (“P (“, inferior, “

> mtext (resultado, 3)

Vamos ver o gráfico resultante:

Probabilidades de pontuação de QI (fonte própria)

Voltando ao teste T (também chamado Teste T de Student), podemos usá-lo com uma única amostra, para obter medidas importantes, como vimos. Também podemos usá-lo para comparar duas médias amostrais diferentes e para saber se elas são diferentes. O teste T também relata a importância das diferenças. Ou seja, podemos saber se essas diferenças são mais prováveis ​​do acaso.

Suponha que você tenha um resfriado e tente um remédio homeopático. Seu frio dura cerca de 3 dias. Na próxima vez que você estiver resfriado, compre outro medicamento e o resfriado dura uma semana. Ao questionar seus amigos, eles dizem que seus resfriados duraram pouco quando tomaram o remédio homeopático. O que devemos procurar em uma situação como essa é se os resultados são repetíveis. O teste AT pode nos dizer, comparando as médias dos dois grupos, a probabilidade de esses resultados ocorrerem por acaso.

A estatística T é dada pela razão entre a diferença entre dois grupos e a diferença dentro de cada grupo. Quanto maior o valor da estatística T, maior a diferença entre os grupos. Quanto menor o valor, maior a semelhança entre os grupos. Um valor de 3 para a estatística T significa que os grupos são três vezes mais diferentes um do outro do que as variações dentro do mesmo grupo. Quando você executa um teste T, quanto maior o valor da estatística T, maior a probabilidade de os resultados serem repetíveis.

Tabela de Conteúdo

  • estatistica-para-ciencia-de-dados-com-linguagem-r
    • Apresentação
    • Dedicação
    • Autor
    • resumo
  • plataformas-análise-dados-estatísticas
    • Plataformas de análise estatística de dados
  • plataforma-linguagem-r
    • A plataforma R
    • Linha de comando
    • RStudio
    • Conseguindo ajuda
    • Explorando o
    • RStudio
    • Operadores
    • Variáveis e tipos de
    • Dados
    • Objetos
    • Vetor
    • Matrizes
    • Matrizes
    • Listas
    • Quadros de dados
    • Funções
    • Estruturas de controle
  • estatística para ciência de dados
    • Introdução à Estatística para Análise de Dados
    • Visualizando e descrevendo dados quantitativos
    • Estatística Descritiva x
    • Estatística Inferencial
  • medidas-dispersão-tendência-central
    • Visualização e
      Descrição de dados quantitativos
    • Definindo variáveis quantitativas discretas e contínuas
    • Medidas de tendência central – média
    • Medidas de Tendência Central – Mediana
    • Medidas de Tendência Central – Moda
    • Outras medidas de tendência central
    • Medidas de dispersão
    • Medidas de posição relativa – quartis e percentis
    • Gráficos para variáveis quantitativas
  • associações-correlação-causalidade
    • Análise bidimensional
      Associação entre
    • variáveis qualitativas
    • Medidas de associação entre variáveis qualitativas
    • Associação entre variáveis quantitativas
    • Medidas de associação entre variáveis quantitativas
    • Associação entre variáveis qualitativas e quantitativas
    • Analisando e interpretando gráficos de dispersão
      Atribuindo funções a variáveis de plotagem de dispersão
    • Noções básicas sobre correlação
    • Condições para análise de correlação
    • Correlação e Causalidade
  • probabilidade
    • Probabilidade conjunta
    • Probabilidade
    • Condicional e Independência
    • Tabelas de contingência
    • Árvores de probabilidade
  • regra-de-bayes-distribuições-probabilidade
    • Variáveis aleatórias e
    • Distribuições de probabilidade
    • Distribuição uniforme
    • Distribuição normal
    • Teorema do limite central
    • Distribuição Exponencial
    • Distribuição Qui-Quadrado
    • Distribuição t de student
    • Distribuição F
  • testes-hipótese-análise-variância-anova
    • Introdução à Inferência Estatística
    • Distribuições e proporções de amostragem
    • Testes de Hipóteses
    • Projeto de Experimentos e Análise de Variância (ANOVA)