Parte IV – Testes de Hipótese e Análise de Variância  

Objetivos

  • Explorar conceitos de Estatística Inferencial
  • Descrever as principais distribuições de amostragem
  • Conceituar e permitir a aplicação de testes de hipótese
  • Conceituar e exemplificar análise de variância (ANOVA)

Tópicos de estudo

  • Introdução à Inferência Estatística
  • Distribuições de Amostragem e Proporções
  • Testes de Hipótese
  • Design de Experimentos e Análise de Variância (ANOVA)

Introdução à Inferência Estatística

A estatística descritiva e a teoria de probabilidades podem ser consideradas pontes que levam à estatística inferencial. Através das suas técnicas e métodos para o tratamento e compreensão dos dados, obtemos informações que permitem a aplicação de modelos para a tomada de decisão.

Uma vez apresentados a uma população sobre a qual gostaríamos de aprender, mas não temos condições de examinar cada um de seus membros, recorremos à análise de amostras, e buscamos verificar se estas amostras são representantes válidas da população, utilizando do recurso da amostragem aleatória, entre outros. Isto significa coletar dados sobre membros da população, adotando técnicas que garantam a sua aleatoriedade e, por consequência, a representatividade em relação à população. Assim, podemos confiar, com certo grau de certeza, que as conclusões obtidas a partir da amostra serão válidas para a população.

Uma vez feita a amostragem aleatória, o próximo passo é construir uma compreensão inicial dos dados, de suas características. Resumimos o conjunto de dados através das técnicas da estatística descritiva, e analisamos a distribuição de probabilidade associada à população a partir da amostra, buscando saber tudo quanto possível sobre ela.

A distribuição de probabilidades associada com a população da qual obtivemos a amostra é denominada distribuição da população, enquanto a distribuição associada com os dados coletados aleatoriamente é dita distribuição da amostra. Naturalmente, podemos imaginar que haja uma relação entre as duas distribuições. Para descobrir algo sobre a distribuição da população, é importante compreender, no maior nível de detalhes possível, a distribuição da amostra.

Para saber se um bolo está bom, basta comer um pedaço. Ao comer uma fatia de um bolo para experimentá-lo, estamos coletando uma amostra, e estimando o comportamento da população a partir da amostra. Afinal, se o pedaço que experimentamos estava bom, é muito provável que o restante do bolo também esteja. Do mesmo modo funciona o processo de amostragem para dados em geral, em que obtemos informações sobre um conjunto qualquer, examinando apenas parte dele.

Importante registrar que um processo de amostragem em que todos os elementos do conjunto de dados são coletados é chamado de censo. É exatamente o que acontece quando o IBGE realiza, periodicamente, o censo demográfico ou recenseamento, em que são coletados dados de toda a população brasileira, que servem de insumo para o estabelecimento de políticas públicas definidas a partir da compreensão das condições de vida dos cidadãos.

Se é possível fazer uma análise de toda a população, por que fazer amostragem então? Há algumas razões para optar pela amostragem em lugar de uma análise completa da população, através de censo:

  • Pode ser muito caro coletar dados sobre toda a população;
  • Pode levar muito tempo para realizar a coleta, em razão do tamanho da população ou da sua distribuição geográfica;
  • Parte da população pode ter sido destruída;
  • A coleta pode ser um processo muito complexo e, diante da escassez de pessoas treinadas adequadamente, pode ser melhor utilizar a amostragem para evitar um alto índice de erros humanos

Há dois tipos de amostragem: probabilística e não probabilística. Na amostragem não probabilística, temos a amostragem por conveniência, em que um indivíduo seleciona elementos da população de acordo com critérios subjetivos, na ausência de quaisquer outros métodos disponíveis.

Já a amostragem probabilística, busca eliminar a subjetividade e obter uma amostra aleatória que seja representativa da população, de modo a permitir maior confiabilidade nas conclusões obtidas a partir da análise da amostra.

A amostragem probabilística pode ser aleatória simples, sistemática, estratificada, de conglomerados ou reamostragem (bootstraping).

A amostragem sistemática envolve dividir a população em intervalos pré-fixados, através de uma listagem prévia, que deve ser homogênea. A amostragem sistemática é realizada da seguinte forma

  • A população é dividida de acordo com o tamanho da amostra. Por exemplo, tendo uma população de 1000 elementos e desejamos retirar 10 para a amostra, temos a divisão da população em 100 partes (1000/10);
  • É feito então o sorteio do ponto de partida, de maneira que, a cada 10 elementos, retiramos um para a amostra (pode ser o primeiro, terceiro, sétimo, enfim).

Esta técnica evita que o processo de amostragem seja tendencioso, evitando a seleção de elementos específicos da população que possuam algum tipo de vício e causem distorções na análise posterior.

Devemos ter cuidado, porém, com o aspecto da periodicidade. Como exemplo, vamos supor que queremos coletar dados sobre o comportamento de funcionários da empresa, porém escolhemos entrevistá-los sempre no dia anterior ao quinto dia útil. Sendo esta a data limite para recebimento de salário, podemos ter respostas enviesadas pela ansiedade dos funcionários por receber seu pagamento no dia seguinte.

Já na amostragem estratificada, a população é dividida em grupos mutuamente exclusivos (denominados estratos) e selecionamos aleatoriamente membros de cada grupo para fazer parte da amostra.

Retomando o exemplo dos funcionários da empresa, poderíamos dividí-los de acordo com algumas características, como o departamento em que trabalham. Supondo que a empresa possua 400 funcionários e 4 departamentos: vendas (100 funcionários), financeiro (50 funcionários), TI (200 funcionários), RH (50 funcionários). Supondo ainda que queremos uma amostra de 40 funcionários a serem entrevistados, a distribuição dos funcionários na amostra seria: 10 de vendas (25%), 5 do financeiro (12,75%), 20 de TI (50%) e 5 de RH (12,75%).

Neste caso, vemos que a quantidade de elementos da população extraídos de cada grupo é baseada no seu percentual de participação na população, o que significa que a amostra é homogênea em relação à população.

A amostragem por conglomerados, por sua vez, é realizada a partir da divisão da população em conglomerados (grupos ou clusters). É feita uma seleção aleatória entre os conglomerados que farão parte da amostra, de maneira que todos os elementos dos conglomerados selecionados serão amostrados. É uma técnica utilizada quando precisamos realizar entrevistas ou observações em grandes áreas.

Na amostragem por conglomerados, também é necessário criar grupos mutuamente exclusivos, que sejam representativos para a população analisada. Diferentemente da amostragem estratificada, entretanto, são selecionados, aleatoriamente, grupos inteiros para fazer parte da amostra, ao invés de elementos individuais. Esta técnica é especialmente útil quando a população está distribuída geograficamente, dificultando a realização da coleta dos dados caso muitas localidades sejam selecionadas.

Imagine que precisamos fazer uma pesquisa sobre os asilos do estado, que estão espalhados em pelo menos 10 cidades diferentes. Pode ser mais interessante adotar a amostragem por conglomerado e selecionar todos os indivíduos dos abrigos de algumas cidades (digamos 4) ao invés de selecionar alguns indivíduos de cada abrigo das 10 cidades.

Vejamos agora as principais características da amostra aleatória simples.

Distribuições de Amostragem e Proporções

Comecemos então pela noção de amostras aleatórias simples e relacionando algumas

de suas propriedades matemáticas. Depois focamos no que acontece para o caso especial de amostragem da distribuição normal (que tem várias características matemáticas importantes e úteis).

Faremos uso ainda do teorema central do limite, e investigamos as distribuições de amostragem de outras estatísticas relevantes, aproveitando ao máximo suas propriedades mais interessantes.

Veremos ainda as definições de população versus amostra aleatória simples, parâmetro versus estatística, e distribuição populacional versus distribuição amostral, dentre outros fundamentos relevantes para a aplicação das técnicas de inferência estatística.

Sejam X1, X2, … , Xn elementos de uma amostra de tamanho n, independentes e tais que Xi ~ f para i = 1, 2, …, n, então temos que X1, X2,. . . , Xn é uma amostra aleatória simples de tamanho n, da população f.

A ideia de uma amostra aleatória simples é que cada elemento individual da população a mesma oportunidade de ser escolhido para fazer parte da amostra. A amostragem aleatória simples pode também ser designada pela sigla AAS.

A garantia de que cada elemento da população tem a mesma chance de fazer parte da amostra é dada pelo uso de mecanismos de sorteio não viciados, como números gerados aleatoriamente, sorteio através de urnas e outros meios semelhantes. Assim é possível mitigar a subjetividade no processo de coleta de amostras da população.

Ao utilizar amostras para identificar características da população, obtemos estatísticas, que são características numéricas da população. Por outro lado, a população tem características numéricas, em geral desconhecidas, que são denominadas parâmetros. O fundamento da amostragem está no fato de que, em geral, é possível considerar estatísticas obtidas de amostras como estimativas próximas dos parâmetros da população.

Uma estatística é conhecida tão logo seja calculada numa amostra extraída a partir da população. Amostras distintas podem ter estatísticas distintas, e a isso se denomina variação amostral.

A estatística para cada amostra pode assumir valores previsíveis, de forma que tem-se uma distribuição amostral para a estatística, uma vez repetido o processo de amostragem um número de vezes. Sabendo a distribuição amostral, é possível calcular o erro, que é dado pela diferença entre a estatística e o parâmetro da população.

Podem ocorrer erros de amostragem ao longo do processo de extração de amostras a partir de uma população. Caso os erros sejam aleatórios, podem levar a resultados diferentes dos que obteríamos se tivéssemos usado um censo. Sendo devidos à aleatoriedade da repetição do processo de amostragem, podem ser superados através da obtenção de outras amostras repetidamente, ou seja, quanto maior o número de amostras, menor a probabilidade de erros.

Há também erros de amostragem não aleatórios, e portanto não relacionados ao processo de seleção da amostra. Muitas vezes são devidos à complexidade do comportamento humano.

Alguns exemplos destes erros incluem a falta de dados, que pode aparecer quando não é possível coletar um dado (entrevistar uma pessoa, por exemplo); erros nas respostas, quando um entrevistado deliberadamente mente ao responder às perguntas, ou pode não ter entendido a questão; erros no tratamento dos dados, que ocorrem no processo de cálculo de quantidades numéricas; erros de método na obtenção dos dados.

Vejamos o comportamento de amostra para algumas distribuições conhecidas.

Para o caso específico da distribuição normal, temos que, se X1, X2, …, Xn é uma amostra de uma distribuição normal, de média μ e desvio padrão σ, então a amostra segue uma distribuição normal com média μ e desvio padrão σ/√n.

Às vezes temos duas populações a analisar, e pode ser de interesse comparar propriedades entre essas populações. Para isso, coletamos amostras independentes de cada população e calculamos as respectivas estatísticas de cada amostra para comparação. Em alguns casos mais simples, a distribuição amostral da comparação é conhecida, como veremos a seguir.

Sejam X1, X2, …, Xn1 elementos de uma amostra aleatória simples de tamanho n1, com distribuição normal de média μx e desvio padrão σx, e sejam Y1, Y2, …, Yn2 elementos de uma amostra aleatória simples de tamanho n2, com distribuição normal de média μy e desvio padrão σy. Supondo que as amostras sejam independentes, temos que:

X – Y – (μx – μy) ÷ √(σ2x/n1 + σ2y/n2)

tem uma distribuição de amostragem normal, com média 0 e desvio padrão 1. Da mesma forma, X – Y tem distribuição de amostragem normal, com média μx – μy e desvio padrão √(σ2x/n1 + σ2y/n2).

Na prática, isto significa que, para variáveis aleatórias independentes, podemos aproximar pela distribuição normal o comportamento dos valores das suas diferenças. Assim, a distribuição de sua diferença é normal também. É possível demonstrar também que, mesmo que a distribuição de uma ou ambas as amostras não seja normal, sua diferença será aproximadamente normal desde que as amostras tenham tamanho suficientemente grande.

Algumas comparações são relevantes, mas sua distribuição amostral não é tão organizada para descrever analiticamente. O que fazemos então? A rigor, não precisamos conhecer a forma analítica exata da distribuição amostral. Às vezes é suficiente aproximá-la com uma distribuição simulada. A plataforma R é bastante usada para calcular distribuições simuladas.

De acordo com o Teorema do Limite Central ou Teorema Central do Limite, a distribuição amostral da média de uma amostra se aproxima de uma distribuição normal, para tamanhos suficientemente grandes de amostras. Assim, para amostras de tamanho 30 ou superior, a média das médias populacionais é a média da população.

Em razão deste importante fundamento, uma das técnicas aplicáveis para análise de grandes conjuntos de dados envolve a coleta de várias amostras, repetidamente, através de um processo comumente denominado bootstraping. Importante notar que esta técnica de amostragem é feita sempre com reposição, ou seja, os elementos da população que fazem parte de uma amostra extraída são “devolvidos” à população posteriormente, podendo fazer parte de uma próxima amostragem.

Testes de Hipótese

Uma hipótese é uma suposição sobre o valor de um parâmetro de uma população. Muita atenção para os termos usados. Uma hipótese somente pode ser feita sobre um parâmetro de uma população, jamais sobre uma estatística de uma amostra.

Uma vez definida a hipótese sobre o parâmetro da população, deve ser realizado um processo de amostragem sobre esta população e analisadas as estatísticas da(s) amostra(s), de maneira a verificar se estas estatísticas calculadas suportam ou não a suposição estabelecida.

Imagine que uma empresa fabricante de smartphones informa que a bateria do novo modelo recém lançado tem a maior duração do mercado. Um teste de hipótese poderia ser conduzido para verificar esta afirmação.

Para aplicar um teste de hipótese, é necessário definir duas hipóteses: uma nula, e uma alternativa. A hipótese nula é definida como aquela que mantém o status quo, ou seja, mantém a situação como está. No exemplo da bateria de smartphone, a hipótese nula seria que a bateria tem a maior duração dentre os vários smartphones do mercado. A hipótese alternativa é aquela que representa o oposto da hipótese nula, refletindo a constatação de que a hipótese nula deve ser rejeitada. Neste caso, a hipótese alternativa deve indicar que a duração da bateria não é a maior do mercado.

A hipótese nula é representada por H0 e a hipótese alternativa por HA. Para o exemplo da bateria do smartphone, supondo que a bateria com maior duração permita uma média de 100 horas de uso, temos:

H0: μ > 100

HA: μ <=100

Perceba que fizemos referência a μ, para deixar claro que as hipóteses se referem a um parâmetro da população. Ou seja, para conduzir este teste de hipótese do exemplo, teríamos que coletar uma ou mais amostras de tempos de uso de bateria do smartphone cujo fabricante alega ter a maior duração do mercado. Com base nos dados da amostra, teríamos a média de duração observada, e então poderíamos rejeitar ou não a hipótese nula a partir da demonstração do que a análise da amostra indica.

A hipótese nula H0 é uma hipótese do “nada”, cuja interpretação poderia ser que nada mudou, não há diferença, não há nada de especial acontecendo, etc. A hipótese alternativa H1 é a hipótese de que algo mudou, neste caso. Nosso objetivo é testar estatisticamente a hipótese H0 versus a alternativa H1.

O procedimento consiste em:

  1. Coletar dados, talvez uma amostra aleatória simples de observações;
  2. Supor que H0seja verdadeira e construir um intervalo de confiança de 100 (1 – α)%;
  3. Se o intervalo de confiança não rejeitar a hipótese alternativa HA, então rejeitamos a hipótese nula H0. Caso contrário, falhamos em rejeitar H0.

Importante notar que, toda vez que tomamos uma decisão, é possível estar errado, e há dois possíveis erros que podemos cometer:

  • Erro Tipo I: rejeitamos H0quando, na verdade, H0 é verdadeira. Isso seria semelhante a condenar uma pessoa inocente por um crime que não cometeu;
  • Erro tipo II: falhamos em rejeitar H0quando, na verdade, HA é verdadeira. Isso é análogo a uma pessoa culpada que escapa da condenação.

Os erros do tipo I podem ser considerados piores, por isso devemos orientar os procedimentos estatísticos para controlar a probabilidade de cometer este tipo erro.


Figura 17: Tipos de Erro em Testes de Hipótese (FERREIRA, 2005).

Tabela de Conteúdo

  • estatistica-para-ciencia-de-dados-com-linguagem-r
    • Apresentação
    • Dedicação
    • Autor
    • resumo
  • plataformas-análise-dados-estatísticas
    • Plataformas de análise estatística de dados
  • plataforma-linguagem-r
    • A plataforma R
    • Linha de comando
    • RStudio
    • Conseguindo ajuda
    • Explorando o
    • RStudio
    • Operadores
    • Variáveis e tipos de
    • Dados
    • Objetos
    • Vetor
    • Matrizes
    • Matrizes
    • Listas
    • Quadros de dados
    • Funções
    • Estruturas de controle
  • estatística para ciência de dados
    • Introdução à Estatística para Análise de Dados
    • Visualizando e descrevendo dados quantitativos
    • Estatística Descritiva x
    • Estatística Inferencial
  • medidas-dispersão-tendência-central
    • Visualização e
      Descrição de dados quantitativos
    • Definindo variáveis quantitativas discretas e contínuas
    • Medidas de tendência central – média
    • Medidas de Tendência Central – Mediana
    • Medidas de Tendência Central – Moda
    • Outras medidas de tendência central
    • Medidas de dispersão
    • Medidas de posição relativa – quartis e percentis
    • Gráficos para variáveis quantitativas
  • associações-correlação-causalidade
    • Análise bidimensional
      Associação entre
    • variáveis qualitativas
    • Medidas de associação entre variáveis qualitativas
    • Associação entre variáveis quantitativas
    • Medidas de associação entre variáveis quantitativas
    • Associação entre variáveis qualitativas e quantitativas
    • Analisando e interpretando gráficos de dispersão
      Atribuindo funções a variáveis de plotagem de dispersão
    • Noções básicas sobre correlação
    • Condições para análise de correlação
    • Correlação e Causalidade
  • probabilidade
    • Probabilidade conjunta
    • Probabilidade
    • Condicional e Independência
    • Tabelas de contingência
    • Árvores de probabilidade
  • regra-de-bayes-distribuições-probabilidade
    • Variáveis aleatórias e
    • Distribuições de probabilidade
    • Distribuição uniforme
    • Distribuição normal
    • Teorema do limite central
    • Distribuição Exponencial
    • Distribuição Qui-Quadrado
    • Distribuição t de student
    • Distribuição F
  • testes-hipótese-análise-variância-anova
    • Introdução à Inferência Estatística
    • Distribuições e proporções de amostragem
    • Testes de Hipóteses
    • Projeto de Experimentos e Análise de Variância (ANOVA)