LIVRO GRATUITO: ESTATÍSTICA PARA CIÊNCIA DE DADOS COM LINGUAGEM R

Note que, de acordo com a área cinza abaixo da curva no gráfico, sabendo que o valor de Z para a zona crítica é -1,645, e que o Z calculado para as observações é -5,48, vemos que o valor calculado está na zona crítica, ou zona de rejeição. Assim, devemos rejeitar a hipótese nula, concluindo que, para o nível de significância de 5%, não há evidências que permitam afirmar que os salários pagos pela empresa estão dentro da média de mercado.

Design de Experimentos e Análise de Variância (ANOVA)

A análise de variância (ANOVA) é uma extensão do teste T independente de amostras para comparar médias em uma situação em que há mais de dois grupos. ANOVA é a sigla para Analysis of Variance, e esta análise tem uma classificação em alguns tipos.

Na ANOVA unidirecional (One-way ANOVA), os dados são organizados em vários grupos com base em um fator controlável, que varia de acordo com cada um dos grupos a serem comparados. Cada variação do fator controlável é denominada de nível. E temos uma variável de resposta, ou seja, o resultado obtido se refere ao comportamento desta variável única. O objetivo é identificar o efeito da variação do fator no comportamento da variável de resposta.

O teste de hipóteses através da ANOVA é feito definindo as hipóteses nula e alternativa da seguinte forma:

H0: as médias dos diferentes grupos são as mesmas

HA: pelo menos uma média amostral não é igual às outras.

Para aplicar a técnica ANOVA, precisamos verificar alguns requisitos. Testes de hipótese com ANOVA podem ser aplicados somente quando:

  • As observações são obtidas de forma independente e aleatória a partir da população;
  • Os dados de cada nível de fator são normalmente distribuídos;
  • Essas populações têm uma variância homogênea (os erros são aleatórios).

Vejamos como funciona o teste ANOVA unidirecional. Suponha que temos 3 grupos (A, B, C) para comparar. Estes grupos representam situações distintas que serão analisadas com o objetivo de comparar os resultados.

Então vamos imaginar que queremos comparar o desempenho de diferentes turmas da disciplina de estatística. Este desempenho vai ser comparado através das notas de cada turma, sendo esta nossa variável de resposta. Cada turma representa um grupo cuja variável de resposta queremos comparar com os outros. Vamos imaginar que nosso objetivo seja comparar o horário de estudos de cada turma para avaliar se isso afeta o seu desempenho. Assim, vamos comparar três turmas da disciplina de estatística: uma matutina, uma vespertina e uma noturna.

Temos então que:

  • O fator controlável é o turno de estudo para cada turma;
  • Os níveis do fator são matutino, vespertino e noturno;
  • A variável de resposta é o conjunto de notas de cada turma;

Vejamos agora um exemplo utilizando dados reais disponíveis na plataforma R.

O dataset PlantGrowth contém dados de plantas que foram submetidas a diferentes tratamentos.

> dados <- PlantGrowth

> summary(dados)

  weight group  

 Min.: 3.590 ctrl:10

 1st Qu.: 4.550 trt1:10

 Median: 5.155 trt2:10

 Mean: 5.073

 3rd Qu.: 5.530

 Max.: 6.310

> levels(dados$group)

‘ctrl’

‘trt1’

‘trt2’

Como podemos observar pelo código acima, o conjunto de dados é composto por informações de peso para plantas, divididas em três grupos: ctrl, trt1 e trt2. Esta é uma terminologia comum em experimentos científicos, e indica que um dos grupos é denominado grupo de controle (ctrl), que não sofre intervenções, ou seja, é um grupo mantido como referência para efeito de comparação com os demais grupos, que sofrem alterações decorrentes do tipo de tratamento aplicado.

Temos então que:

  • H0: as médias de peso dos diferentes grupos de plantas são as mesmas;
  • HA: pelo menos uma média amostral de pesos das plantas que não é igual às outras;
  • O fator controlável é o tipo de tratamento dado a cada planta;
  • Os níveis do fator são nenhum (ctrl), tipo 1 (trt1) e tipo 2 (trt2);
  • A variável de resposta é o peso das plantas.

O código a seguir exibe o gráfico boxplot para os três grupos, de forma que possamos verificar suas diferenças, caso hajam.

boxplot(dados$weight~dados$group, main = “Peso das Plantas por Grupo”, xlab = “Grupo”, ylab = “Peso”)

Figura 22: Boxplot dos Grupos de Plantas do Dataset Plantgrowth (fonte própria)

Como podemos ver na disposição dos dados no gráfico, os grupos possuem distribuições de dados distintas, o que sugere que há algum efeito decorrente do tratamento aplicado aos grupos trt1 e trt2.

Vejamos agora o que a o teste de hipótese unidirecional ANOVA nos diz:

Da mesma forma, podemos ver acima que o valor-p está abaixo de 0,05, indicando que devemos rejeitar a hipótese nula.

Olhando com mais atenção, notamos outros dados relevantes:

  • A coluna “Sum Sq” indica a soma de quadrados entre grupos e para os resíduos (valores dentro de cada grupo), e são necessário para o processo de cálculo da estatística F, usada para a análise de variância;
  • A coluna “Mean Sq” indica o quadrado médio, também entre grupos e para os resíduos, consistindo no último passo para que se possa chegar ao cálculo da estatística F;
  • Finalmente, temos a coluna da estatística F, dada pela razão entre o quadrado médio entre grupos e o quadrado médio dos resíduos ou dentro dos grupos. Podemos confrontar este valor com o valor da estatística F para o nível de significância e, caso o valor obtido para as observações dos grupos esteja à direita do valor de referência, decidimos por rejeitar a hipótese nula. Caso contrário, rejeitamos a hipótese alternativa;
  • Adicionalmente, temos o valor-p que, como já vimos, pode ser usado para tomar a decisão por rejeitar ou não a hipótese nula, bastando que seja menor que o nível de significância, em geral 0,05 (5%).

Assim como a regressão linear, a técnica ANOVA funciona com base na estimação de parâmetros, e podemos olhar para os resultados da função aov() como um conjunto de contrastes do primeiro grupo (de controle) em relação a cada um dos outros grupos.

Sintetizando

 

Neste capítulo aprendemos sobre métodos e técnicas estatísticas importantes para o processo de análise de dados, que fazem parte da Estatística Inferencial, ferramenta importante para auxiliar na obtenção de conclusões a partir do estudo dos dados e suas características.

Vimos a importância das distribuições de amostragens, que permitem estimar parâmetros da população através de estatísticas das amostras, havendo diversas razões para utilizar amostras em lugar da população, como custo, complexidade, tempo e mesmo impossibilidade de acesso à população por destruição.

Exploramos os tipos de amostragem probabilística: aleatória simples, sistemática, estratificada, de conglomerados ou reamostragem (bootstraping). Lembrando que a amostragem não probabilística depende da subjetividade de quem conduz o processo, não sendo adequada, a menos que seja a única alternativa disponível.

Verificamos a diferença entre estatística, obtida a partir de amostras, e parâmetro, obtido a partir da população, e entendemos que os erros decorrentes da estimativa de parâmetros da população a partir de estatísticas das amostras podem ser mensurados.

Percebemos que, para populações independentes, através de um processo de amostragem aleatória simples, é possível comparar propriedades de tais populações com confiabilidade.

Aprendemos que hipótese é uma suposição sobre o valor de um parâmetro de uma população, de forma que não há sentido em fazer suposições sobre estatísticas de uma amostra.

Vimos que, através de testes de hipótese, utilizamos o recurso da prova por absurdo, supondo como verdade aquilo que pretendemos contestar, e buscando provar que esta suposição não se sustenta.

Aprendemos que há dois tipos de erros em testes de hipótese: rejeitar uma hipótese nula verdadeira e aceitar uma hipótese nula falsa, e que o primeiro caso é mais grave, sendo sua probabilidade definida a partir do nível de significância para o teste.

Compreendemos que a hipótese nula deve ser aquela que mantém o status quo, que representa a ausência de mudança, enquanto a hipótese alternativa deve ser aquela que representa uma situação nova, uma mudança.

Aprendemos que a verificação da hipótese nula se dá pela análise da estatística Z (ou T ou F, a depender da situação) e da zona crítica, ou zona de rejeição, de forma que, caso o valor da estatística obtida a partir das observações da amostra esteja dentro da zona de rejeição, podemos decidir por rejeitar a hipótese nula, não havendo elementos para afirmar que esta seja válida.

Da mesma forma, entendemos que também é possível utilizar o valor-p, uma medida estatística da probabilidade de que os resultados encontrados sejam devidos ao acaso, para rejeitar a hipótese nula, desde que o valor-p esteja abaixo do nível de significância estabelecido para o teste de hipótese, em geral 0,05 (5%).

Vimos ainda como explorar visualmente a relação entre a curva normal de distribuição dos dados da amostra e o histograma da frequência dos dados, e também como exibir graficamente a zona de rejeição da hipótese nula, além de calcular todas as estatísticas mencionadas utilizando a plataforma R.

Exploramos diversos exemplos, buscando reforçar e solidificar o entendimento do processo de amostragem e teste de hipótese visando alcançar o resultado buscado com segurança e confiabilidade.

Por fim, exploramos a analise de variância, conhecida por ANOVA, uma técnica bastante utilizada para analisar o comportamento de grupos distintos, quando submetidos a variações em fatores controláveis de modo a observar seus efeitos em cada população a partir da extração de estatísticas de cada amostra.

Mais uma vez, exploramos a técnica utilizando os recursos da plataforma R, que disponibiliza funções que facilitam as operações necessárias para aplicar a técnica de análise baseada em ANOVA, em especial a estatística F.

Referências bibliográficas

AQUINO, Jakson A. R para Cientistas Sociais. Editus (Editora UESC), Ilhéus, Bahia. 2014.

FERNANDES, Edite M. G. P.. Estatística Aplicada. Universidade do Minho, Braga. Portugal. 1999.

FERREIRA, Pedro Lopes. Estatística Descritiva e Inferencial: Breves Notas. Universidade de Coimbra. Portugal. 2005.

GARCIA, Antonio A. F. et al. Estatística Experimental. Escola Superior de Agricultura, Departamento de Ciências Exatas – ESALQ/USP. 2002.

GNU, 2019. GNU PSPP – Free Software Foundation. Disponível em: <https://www.gnu.org/software/pspp/>. Acesso em 01/04/2019.

GOUVEIA, Luís B. A linguagem R: um ambiente para explorar dados e aprender com eles. Conferência Hello World. Universidade Fernando Pessoa, Porto. 2017.

IBM, Software IBM SPSS, 2019. Disponível em: <https://www.ibm.com/br-pt/analytics/spss-statistics-software>. Acesso em 01/04/2019.

LANDEIRO, Victor L. et al. Introdução ao uso do programa R. Instituto Nacional de Pesquisas da Amazônia. 2011.

MARGARIDO, Mário A. et al. Testes de Raiz Unitária e o Software SAS. Instituto de Economia Agrícola, São Paulo. 1999.

MARTINS, Nuno D. C. Programação em R no estudo de probabilidades. Dissertação (Mestrado em Estatística) – Universidade do Minho, Braga. Portugal. 2016.

MORAIS, Carlos M. Escalas de Medida, Estatística Descritiva e Inferência Estatística. Escola Superior de Educação – Instituto Politécnico de Bragança. Bragança, Portugal. 2005.

NETO, Paulo V. Estatística Descritiva: Conceitos Básicos. São Paulo. Brasil. 2014.

ORANGE: Interactive Data Analysis. Disponível em: <https://github.com/biolab/orange3>. Acesso em 01/04/2019.

TORGO, L.. Introdução à Programação em R. Faculdade de Economia, Universidade do Porto. 2006.

UCLA, Stata 10 Class Notes, 2009. Disponível em:<https://stats.idre.ucla.edu/stata/seminars/notes/>. Acesso em 01/04/2019.

Tabela de Conteúdo

  • estatistica-para-ciencia-de-dados-com-linguagem-r
    • Apresentação
    • Dedicação
    • Autor
    • resumo
  • plataformas-análise-dados-estatísticas
    • Plataformas de análise estatística de dados
  • plataforma-linguagem-r
    • A plataforma R
    • Linha de comando
    • RStudio
    • Conseguindo ajuda
    • Explorando o
    • RStudio
    • Operadores
    • Variáveis e tipos de
    • Dados
    • Objetos
    • Vetor
    • Matrizes
    • Matrizes
    • Listas
    • Quadros de dados
    • Funções
    • Estruturas de controle
  • estatística para ciência de dados
    • Introdução à Estatística para Análise de Dados
    • Visualizando e descrevendo dados quantitativos
    • Estatística Descritiva x
    • Estatística Inferencial
  • medidas-dispersão-tendência-central
    • Visualização e
      Descrição de dados quantitativos
    • Definindo variáveis quantitativas discretas e contínuas
    • Medidas de tendência central – média
    • Medidas de Tendência Central – Mediana
    • Medidas de Tendência Central – Moda
    • Outras medidas de tendência central
    • Medidas de dispersão
    • Medidas de posição relativa – quartis e percentis
    • Gráficos para variáveis quantitativas
  • associações-correlação-causalidade
    • Análise bidimensional
      Associação entre
    • variáveis qualitativas
    • Medidas de associação entre variáveis qualitativas
    • Associação entre variáveis quantitativas
    • Medidas de associação entre variáveis quantitativas
    • Associação entre variáveis qualitativas e quantitativas
    • Analisando e interpretando gráficos de dispersão
      Atribuindo funções a variáveis de plotagem de dispersão
    • Noções básicas sobre correlação
    • Condições para análise de correlação
    • Correlação e Causalidade
  • probabilidade
    • Probabilidade conjunta
    • Probabilidade
    • Condicional e Independência
    • Tabelas de contingência
    • Árvores de probabilidade
  • regra-de-bayes-distribuições-probabilidade
    • Variáveis aleatórias e
    • Distribuições de probabilidade
    • Distribuição uniforme
    • Distribuição normal
    • Teorema do limite central
    • Distribuição Exponencial
    • Distribuição Qui-Quadrado
    • Distribuição t de student
    • Distribuição F
  • testes-hipótese-análise-variância-anova
    • Introdução à Inferência Estatística
    • Distribuições e proporções de amostragem
    • Testes de Hipóteses
    • Projeto de Experimentos e Análise de Variância (ANOVA)