LIVRO GRATUITO: ESTATÍSTICA PARA CIÊNCIA DE DADOS COM LINGUAGEM R

Associações e Correlações

As medidas de tendência central e de dispersão permitem obter informações importantes sobre dados univariados.

Dados univariados são aqueles em que se mede apenas uma variável (característica) em relação ao conjunto de dados. Dados bivariados, portanto, são aqueles nos quais são medidas duas variáveis. Por sua vez, os dados multivariados têm a característica de possuírem mais de uma variável que se pode medir no conjunto de observações.

O conjunto de notas que utilizamos até aqui para os exemplos é univariado, no sentido de que estamos interessados apenas em uma variável: a nota do cliente para a qualidade do serviço da empresa.

Há situações, entretanto, em que temos mais de uma variável que nos interessa para efeito de análise, sendo necessário analisar, dentre outras características dos dados, a relação entre as variáveis.

Será que as variáveis aumentam simultaneamente? Ou variam em sentidos contrários? Talvez elas não tenham qualquer relação entre si.

Nos casos em que uma variável tem seu comportamento acompanhando, no mesmo sentido, a variação de outra, é identificada uma associação positiva entre elas. De forma análoga, quando uma variável tem seu comportamento afetado no sentido inverso ao de outra, temos uma associação negativa.

É possível medir o grau de associação, ou correlação, entre variáveis. Entretanto, selecionar a medida mais apropriada de associação ou correlação depende do tipo de variável considerada.

Caso as duas variáveis sejam quantitativas contínuas, variância e coeficiente de correlação pode ser medidas adequadas.

Já no caso de uma variável qualitativa nominal e outra quantitativa contínua, uma análise bivariada pode ser mais apropriada.

Análise Bidimensional

A Análise bidimensional ou bivariada tenta responder perguntas sobre a relação entre duas variáveis, sejam qualitativas ou quantitativas. Em cada caso, há técnicas mais apropriadas para extrair as respostas desejadas a partir dos dados.

Tabelas de contingência, qui-quadrado e coeficiente de contingência modificado são exemplos de técnicas que podem ser usadas com variáveis qualitativas.

Diagramas de dispersão, análise de correlação e análise de regressão linear simples são técnicas que podem ser aplicadas a variáveis quantitativas.

Se o objetivo é analisar a relação entre conjuntos com mais que duas variáveis, deve-se empregar técnicas de análise multidimensional, também denominada análise multivariada.

A análise bidimensional se debruça sobre dados bivariados, em que medições de duas variáveis são coletadas através de um mesmo conjunto de observações. Exemplos de dados bivariados incluem a coleta de temperatura e umidade de um mesmo local, ou a observação dos preços de duas ações da bolsa de valores ao longo de um período de tempo.

Na análise bivariada ou bidimensional dos dados, temos uma variável independente (x) e uma variável dependente (y) cujos valores podem ser estimados ou explicados a partir dos valores da variável independente.

Analisando dados de veículos, poderiam ser identificadas relações entre suas características, como consumo e peso, ou consumo e quantidade de cavalos do motor.

Algumas vezes a identificação das variáveis dependente e independente é simples e direta. Em outros casos, pode ser necessário fazer vários experimentos até encontrar as variáveis que se relacionam.

Há casos em que se faz necessário medir a intensidade da relação entre as variáveis. Nestas situações, há medidas que podem ser usadas, como a covariância e o coeficiente de correlação.

Há também recursos gráficos de visualização que podem ser usados para auxiliar na identificação das características da relação entre as variáveis.

As variáveis podem se relacionar de maneira linear ou não linear. No caso de uma relação linear, é possível obter uma equação que estima a reta que melhor representa esta relação. Nos casos de relação não linear, é possível utilizar outros recursos que representem graficamente o comportamento de uma variável em relação à outra.

Associação Entre Variáveis Qualitativas

A representação de variáveis qualitativas frequentemente é feita através de tabelas de frequência. Para dados bivariados, podem ser usadas tabelas de contingência, onde as variáveis são dispostas em linhas e colunas.

Ao analisar variáveis qualitativas, pode ser útil organizar os dados a partir das frequências de ocorrência de cada valor possível para cada uma das variáveis. No caso de haver apenas duas variáveis, pode-se crirar uma tabela de frequência de ocorrência para todas as combinações possíveis de valores.

Podemos, por exemplo, reorganizar as notas dos clientes para a qualidade do serviço da empresa da seguinte forma:

  • Estabelecer faixas de notas para “converter” a variável quantitativa em qualitativa (notas de 1 a 3 são ruins, notas 4 e 5 são boas/altas e abaixo de 4 são baixas/ruins);
  • Acrescentar outra informação qualitativa, o sexo do cliente que respondeu.

Assim, temos os seguintes dados:

> notas = c(1, 3, 2, 4, 5, 4, 3, 4, 3, 4)

> tn = notas > 3

> tn

1.FALSE

2.FALSE

3.FALSE

4.TRUE

5.TRUE

6.TRUE

7.FALSE

8.TRUE

9.FALSE

10.TRUE

Criamos a variável tipo_nota para armazenar o valor TRUE para as notas altas e FALSE para as notas baixas. Note como é simples criar este vetor.

 

> tipo_nota <- factor(tn, levels = c(TRUE, FALSE), labels = c(“ALTA”, “BAIXA”))

> tipo_nota

1.BAIXA

2.BAIXA

3.BAIXA

4.ALTA

5.ALTA

6.ALTA

7.BAIXA

8.ALTA

9.BAIXA

10.ALTA

Agora convertemos os valores TRUE e FALSE para algo mais intuitivo, de forma a facilitar a análise.

 

> sexo_clientes = c(‘F’, ‘M’, ‘M’, ‘F’, ‘F’, ‘M’, ‘M’, ‘M’, ‘M’, ‘M’)

Acrescentamos a informação do sexo dos clientes.

 

> df = data.frame(tipo_nota, sexo_clientes)

> df

tipo_nota sexo_clientes

BAIXA  F

BAIXA M

BAIXA M

ALTA F

ALTA F

ALTA M

BAIXA M

ALTA M

BAIXA M

ALTA M

Então criamos o data frame combinando todos os dados. Agora temos um conjunto de dados que representa os clientes que deram notas altas ou baixas para o serviço da empresa, incluindo a informação do sexo dos clientes. Isto nos permite fazer uma análise das variáveis tipo nota e sexo, e suas possíveis combinações.

 

> table(df)

sexo_clientes

tipo_nota F M

  ALTA 2 3

  BAIXA 1 4

Uma tabela de contingência apresenta a quantidade de ocorrências para as combinações de variáveis qualitativas analisadas. Para obter a tabela de contingência com a frequência das variáveis tipo_nota e sexo, assim como suas combinações, podemos usar a função table().

Veja que é possível verificar quantos clientes do sexo feminino deram notas altas, quantos clientes do sexo masculino deram notas baixas, e assim por diante.

Vejamos as observações que podemos fazer a partir da tabela de continência:

  • 3 clientes do sexo feminino responderam a avaliação, e 7 do sexo masculino;
  • 2 clientes do sexo feminino deram nota alta, e 1 deu nota baixa;
  • 3 clientes do sexo masculino deram nota alta, e 4 deram nota baixa;

Vejamos o gráfico de barras para a tabela de contingência.

Figura 9: Gráfico de barras da tabela de contingência (fonte própria)

Observe como o gráfico deixa claro que a maior parte dos que deram nota para a qualidade do serviço da empresa eram homens, algo que talvez não seja tão fácil perceber sem a visualização.

Podemos ainda querer avaliar o quanto estas notas representam em relação ao total de clientes, e para isso fazemos uso da tabela de frequência relativa. Esta tabela é obtida pela divisão da tabela de frequências pela quantidade de registros do conjunto de dados.

> t = table(df)

> freq_rel = t/nrow(df)

> cbind(freq_rel) 

               F              M

ALTA    0.2           0.3

BAIXA  0.1           0.4

Podemos perceber agora que as notas altas dos clientes do sexo feminino representam 20% de todas as notas atribuídas, enquanto as notas baixas dos clientes do sexo masculino representam 40% do total. Isto pode indicar que os clientes do sexo masculino estão insatisfeitos com os serviços da empresa. Perceba o quanto estas informações, obtidas através de operações simples, são valiosas para compreender o comportamento das variáveis e, neste exemplo, dos clientes.

Lembrando que este conjunto de dados é pequeno e tem finalidade didática, não sendo recomendado realizar este tipo de análise a partir de um conjunto tão reduzido de dados.

Vejamos o gráfico de barras para a frequência relativa.

Observe que o gráfico facilita a percepção de que 70% dos que responderam à pesquisa eram homens e 30% mulheres.

Podemos também usar o gráfico mosaico através da função mosaicplot().

Observe que o gráfico de mosaico não é tão preciso quanto o de barras. Porém este gráfico é bastante útil quando precisamos analisar grandes volumes de dados, pois os dados mais frequentes no conjunto se sobressaem com áreas do gráfico de tamanho maior em relação às demais. Note que o quadro de notas baixas de clientes do sexo masculino é o maior, enquanto o quadro de notas baixas de clientes do sexo feminino é o menor. Isso é consistente com o conjunto de dados, pois apenas uma cliente do sexo feminino atribuiu nota baixa para a qualidade do serviço da empresa, enquanto 4 clientes do sexo masculino fizeram o mesmo.

Outro recurso bastante útil para obter rapidamente informações sobre o conjunto de dados e algumas de duas características é a função summary().

 

> summary(df)

 tipo_nota sexo_clientes

 ALTA :5 F:3          

 BAIXA:5 M:7   

Observe que temos as informações sobre a quantidade de notas altas e baixas, assim como as notas de clientes do sexo masculino e feminino. Note que já tínhamos conhecimento destas informações em razão do tamanho reduzido do conjunto de dados. Agora imagine se os dados fossem dos clientes de uma grande empresa, uma fabricante de automóveis ou de celular, por exemplo. Seria impossível obter estas informações “a olho nú”, e este tipo de função se torna de uso obrigatório, por isso esteja sempre atento às funções usadas e sua aplicabilidade a cada conjunto de dados.

Tabela de Conteúdo

  • estatistica-para-ciencia-de-dados-com-linguagem-r
    • Apresentação
    • Dedicação
    • Autor
    • resumo
  • plataformas-análise-dados-estatísticas
    • Plataformas de análise estatística de dados
  • plataforma-linguagem-r
    • A plataforma R
    • Linha de comando
    • RStudio
    • Conseguindo ajuda
    • Explorando o
    • RStudio
    • Operadores
    • Variáveis e tipos de
    • Dados
    • Objetos
    • Vetor
    • Matrizes
    • Matrizes
    • Listas
    • Quadros de dados
    • Funções
    • Estruturas de controle
  • estatística para ciência de dados
    • Introdução à Estatística para Análise de Dados
    • Visualizando e descrevendo dados quantitativos
    • Estatística Descritiva x
    • Estatística Inferencial
  • medidas-dispersão-tendência-central
    • Visualização e
      Descrição de dados quantitativos
    • Definindo variáveis quantitativas discretas e contínuas
    • Medidas de tendência central – média
    • Medidas de Tendência Central – Mediana
    • Medidas de Tendência Central – Moda
    • Outras medidas de tendência central
    • Medidas de dispersão
    • Medidas de posição relativa – quartis e percentis
    • Gráficos para variáveis quantitativas
  • associações-correlação-causalidade
    • Análise bidimensional
      Associação entre
    • variáveis qualitativas
    • Medidas de associação entre variáveis qualitativas
    • Associação entre variáveis quantitativas
    • Medidas de associação entre variáveis quantitativas
    • Associação entre variáveis qualitativas e quantitativas
    • Analisando e interpretando gráficos de dispersão
      Atribuindo funções a variáveis de plotagem de dispersão
    • Noções básicas sobre correlação
    • Condições para análise de correlação
    • Correlação e Causalidade
  • probabilidade
    • Probabilidade conjunta
    • Probabilidade
    • Condicional e Independência
    • Tabelas de contingência
    • Árvores de probabilidade
  • regra-de-bayes-distribuições-probabilidade
    • Variáveis aleatórias e
    • Distribuições de probabilidade
    • Distribuição uniforme
    • Distribuição normal
    • Teorema do limite central
    • Distribuição Exponencial
    • Distribuição Qui-Quadrado
    • Distribuição t de student
    • Distribuição F
  • testes-hipótese-análise-variância-anova
    • Introdução à Inferência Estatística
    • Distribuições e proporções de amostragem
    • Testes de Hipóteses
    • Projeto de Experimentos e Análise de Variância (ANOVA)
Site PromotionsWe are giving away a $50 gift card every day

Don’t miss the chance to participate in the biggest giveaway of this year.