LIVRO GRATUITO: ESTATÍSTICA PARA CIÊNCIA DE DADOS COM LINGUAGEM R

Medidas de Associação Entre Variáveis Qualitativas

São exemplos de variáveis qualitativas sexo, grau de instrução (nivel médio, nível superior), respostas a pesquisas de opinião (a favor ou contra determinado assunto ou iniciativa), grau de satisfação com um produto ou serviço (satisfeito, insatisfeito), profissão (professor, advogado, médico, policial), dentre inúmeras outras características que podemos desejar analisar sobre alguma entidade.

              F       M

ALTA  0.2    0.3

BAIXA 0.1   0.4

Voltemos ao nosso conjunto de dados e as observações sobre a combinação de variáveis tipo de nota atribuída e sexo do cliente. Como podemos verificar se estas variáveis estão relacionadas? O teste estatístico que nos ajuda a responder esta questão se chama qui-quadrado.

O teste qui-quadrado permite verificar se há relação entre duas variáveis qualitativas, categóricas. E isso é exatamente o que precisamos, pois os as variáveis tipo nota e sexo são categóricas, podendo assumir valores específicos dentro de um conjunto restrito de alternativas.

Observe que a execução do teste qui-quadrado gerou uma mensagem de aviso, indicando que a aproximação do teste pode estar incorreta. Isso ocorre quanto o conjunto de dados é muito pequeno, sendo recomendável utilizar este tipo de teste com conjuntos maiores.

De todo modo, para nosso objetivo, vamos nos ater ao resultado final, que aponta um p-value de 1. Este valor indica que não há correlação entre as variáveis.

Diferentemente do coeficiente de correlação que vimos anteriormente, o teste qui-quadrado é realizado de tal forma que valores próximos de 1 indicam baixa ou nenhuma correlação entre as variáveis, enquanto valores muito baixos indicam forte correlação entre as variáveis qualitativas.

Associação Entre Variáveis Quantitativas

Dados quantitativos são frequentemente organizados em tabelas de distribuição de frequência. Para isso basta listar, numa coluna, todos os valores distintos da variável e, numa segunda coluna, a contagem de ocorrência (frequência) de cada valor.

 

> table(notas)

1 2 3 4 5

1 1 3 4 1

Usamos a função table() da linguagem R para criar a distribuição de frequência das notas dos clientes para o serviço da empresa.

Analisando e Interpretando Scatter Plots

Para analisar a relação entre duas variáveis, é comum a utilização do gráfico de dispersão conhecido como scatterplot, obtido na linguagem R a partir da função de mesmo nome.

Para utilizar este tipo de gráfico, é necessário que tenhamos duas variáveis, e para isso vamos fazer uso de um dos muitos datasets disponíveis na plataforma R: o mtcars.

Este conjunto de dados traz informações sobre diversos veículos com dados consumo, peso, cilindradas, cavalos e outros. Vejamos abaixo o código que permite exibir o gráfico das variáveis de consumo (mpg) e peso (wt) do veículo.

> df = as.data.frame(mtcars)

> df

mpg cyl disp hp drat wt qsec vs am gear

Mazda 21.0 6 160 110 3.90 2.620 16.46 0 1 4

Datsun 22.8 4 108 93 3.85 2.320 18.61 1 1 4

Hornet 21.4 6 258 110 3.08 3.215 19.44 1 0 3

Valiant18.1 6 225 105 2.76 3.460 20.22 1 0 3

> plot(df$wt, df$mpg, main=”Scatterplot MTCARS”,

    xlab=”Peso do Carro”, ylab=”Milhas por Galão”, pch=19)

> abline(lm(df$mpg ~ df$wt), col=”red”)

Vamos analisar cuidadosamente o trecho de código.

Primeiro armazenamos o conjunto de dados no data frame df.

Depois exibimos um trecho do conjunto de dados, onde você pode perceber as informações disponíveis sobre cada veículo: consumo (mpg), cilindradas (cyl), “litragem” do motor (disp), cavalos (hp), relação do eixo (drat), peso (wt) e outras.

Então usamos a função plot() fornecendo como parâmetros as duas variáveis que queremos analisar: consumo e peso. Finalmente usamos a função abline() para traçar a linha de regressão linear para as duas variáveis. O resultado é o gráfico a seguir.

O objetivo de criar uma distribuição de frequências é organizar os dados em classes, grupos ou faixas de valores. Para isso é necessário identificar a quantidade necessária de divisões e tamanho de cada uma delas em termos de quantidade de valores do conjunto de dados.

Uma vez compreendida a distribuição de frequência dos dados e seus agrupamentos, o trabalho de identificar associações pode ser realizado.

As medidas mais comumente usadas para medir a associação entre variáveis quantitativas são a covariância e o coeficiente de correlação.

Medidas de Associação Entre Variáveis Quantitativas

A covariância permite medir a variabilidade conjunta de duas variáveis aleatórias, ou seja, qual a relação entre as suas variações, ou mesmo se não há qualquer relação. Em suma, a covariância é uma medida linear de associação entre variáveis.

Já o coeficiente de correlação representa uma versão “delimitada” da covariância. Isto porque o valor do coeficiente de correlação necessariamente está entre -1 e 1. Para isso é feita uma normalização ou escalonamento do valor da covariância para se chegar ao coeficiente de correlação, denominado pela letra p.

Os valores de p são interpretados da seguinte forma:

  • Quanto mais próximo de 1, maior a correlação positiva entre as variáveis;
  • Quanto mais próximo de -1, maior a correlação negativa entre as variáveis;
  • Caso o coeficiente tenha valor 0, não há relação de dependência linear entre as variáveis.

Ao estabelecer um coeficiente delimitado numa faixa de valores, de maneira independente do conjunto de dados, obtém-se um benefício importante para o processo de análise. É possível verificar qual a variável com maior dependência linear em relação a outras e, assim, identificar variáveis que mais contribuem para o resultado que se busca no processo de análise de dados, assim como aquelas que menos contribuem e podem até mesmo ser descartadas, otimizando assim o trabalho do profissional de análise de dados.

Vale frisar que a correlação é uma medida simples do grau de associação entre duas variáveis. Para alcançar um nível mais detalhado de entendimento da relação entre as variáveis é importante avançar para a aplicação de um modelo estatístico de regressão (há vários tipos).

A covariância pode ser calculada na linguagem R utilizando a função cov(), e o coeficiente de correlação pode ser obtido através da função cor().

Associação Entre Variáveis Qualitativas e Quantitativas

Já sabemos que dados quantitativos são caracterizados pela sua representação preferencialmente numérica, os dados qualitativos têm representação preferencialmente textual, através de palavras ou categorias. Lembrando que nem toda variável numérica é quantitativa.

Vimos técnicas estatísticas que podem ser aplicadas para obter indicadores do grau de relacionamento entre duas variáveis quantitativas, e vimos também técnicas apropriadas para lidar com variáveis qualitativas.

Mas o que acontece quando as variáveis objeto de análise não são do mesmo tipo, ou seja, uma é qualitativa e outra quantitativa? É possível utilizar as mesmas técnicas?

Há uma razão para termos estudado as técnicas separadamente, de acordo com o tipo de variável. Isso se dá porque esta característica pode afetar o resultado obtido a partir do uso de algumas alternativas de análise.

A rigor, é preciso verificar cuidadosamente se realmente faz sentido buscar a correlação entre uma variável qualitativa e outra quantitativa. Isto porque a definição de correlação estabelece que há associação conforme as variáveis têm seus valores alterados na mesma direção (correlação positiva) ou em direção contrária (correlação negativa).

Portanto, cabe verificar se faz sentido, a título de exemplo, “a religião das pessoas aumentar” em razão do aumento da quantidade de igrejas na região em que moram. Faz sentido analisar o aumento da quantidade de pessoas frequentando a igreja daquela religião, mas note que nesse caso a variável não é a religião, mas a quantidade de pessoas que frequenta aquela igreja.

Uma vez verificada a consistência da análise, cabe observar que a maioria dos cálculos de medidas estatísticas espera que os elementos envolvidos nos cálculos sejam numéricos. Em razão disso, é comum que seja necessário converter dados categóricos para dados numéricos antes de aplicar um método estatístico para identificar o grau de correlação entre variáveis, dentre outras situações.

Assim, há duas possibilidades de encaminhamento para o processo de análise, quando uma das variáveis é qualitativa e a outra quantitativa.

Um caminho é aplicar as técnicas que vimos para variáveis qualitativas, através de tabelas de frequência e contingência, que são técnicas em que o tipo da variável não impede que se obtenham os resultados desejados.

Outro caminho é converter as variáveis qualitativas em valores numéricos, atribuindo uma correspondência para cada categoria (0 para FALSE e 1 para TRUE, por exemplo), e então aplicar métodos de regressão, ANOVA, dentre outros.

Figura 11: Exemplo de Scatterplot (fonte própria

Observe que é possível identificar uma correlação negativa entre as variáveis. Quanto maior o peso do veículo, pior o consumo (menor valor de milhas por galão).

Observe a linha vermelha. Ela representa a reta “ideal” de regressão, ou seja, caso a relação entre as variáveis fosse perfeita (-1 nesse caso), os pontos estariam sobre esta reta.

Agora vejamos o cálculo da covariância e do coeficiente de correlação.

> cov(df$wt, df$mpg)

-5.11668467741935

> cor(df$mpg, df$wt)

-0.867659376517228

Perceba que é difícil analisar o valor da covariância de aproximadamente -5,11. Por outro lado, sabendo que o valor mínimo do coeficiente de correlação é -1, vemos que o coeficiente de -0,86 indica uma forte correlação negativa entre as variáveis, de forma mais precisa que o gráfico.

Veja, portanto, que a combinação de visualizações dos dados através de gráficos e uso de conceitos estatísticos importantes nos dá condições de analisar como mais segurança e assertividade o que os dados significam. Saber usar bem estes recursos é uma habilidade crítica para profissionais de análise de dados

Tabela de Conteúdo

  • estatistica-para-ciencia-de-dados-com-linguagem-r
    • Apresentação
    • Dedicação
    • Autor
    • resumo
  • plataformas-análise-dados-estatísticas
    • Plataformas de análise estatística de dados
  • plataforma-linguagem-r
    • A plataforma R
    • Linha de comando
    • RStudio
    • Conseguindo ajuda
    • Explorando o
    • RStudio
    • Operadores
    • Variáveis e tipos de
    • Dados
    • Objetos
    • Vetor
    • Matrizes
    • Matrizes
    • Listas
    • Quadros de dados
    • Funções
    • Estruturas de controle
  • estatística para ciência de dados
    • Introdução à Estatística para Análise de Dados
    • Visualizando e descrevendo dados quantitativos
    • Estatística Descritiva x
    • Estatística Inferencial
  • medidas-dispersão-tendência-central
    • Visualização e
      Descrição de dados quantitativos
    • Definindo variáveis quantitativas discretas e contínuas
    • Medidas de tendência central – média
    • Medidas de Tendência Central – Mediana
    • Medidas de Tendência Central – Moda
    • Outras medidas de tendência central
    • Medidas de dispersão
    • Medidas de posição relativa – quartis e percentis
    • Gráficos para variáveis quantitativas
  • associações-correlação-causalidade
    • Análise bidimensional
      Associação entre
    • variáveis qualitativas
    • Medidas de associação entre variáveis qualitativas
    • Associação entre variáveis quantitativas
    • Medidas de associação entre variáveis quantitativas
    • Associação entre variáveis qualitativas e quantitativas
    • Analisando e interpretando gráficos de dispersão
      Atribuindo funções a variáveis de plotagem de dispersão
    • Noções básicas sobre correlação
    • Condições para análise de correlação
    • Correlação e Causalidade
  • probabilidade
    • Probabilidade conjunta
    • Probabilidade
    • Condicional e Independência
    • Tabelas de contingência
    • Árvores de probabilidade
  • regra-de-bayes-distribuições-probabilidade
    • Variáveis aleatórias e
    • Distribuições de probabilidade
    • Distribuição uniforme
    • Distribuição normal
    • Teorema do limite central
    • Distribuição Exponencial
    • Distribuição Qui-Quadrado
    • Distribuição t de student
    • Distribuição F
  • testes-hipótese-análise-variância-anova
    • Introdução à Inferência Estatística
    • Distribuições e proporções de amostragem
    • Testes de Hipóteses
    • Projeto de Experimentos e Análise de Variância (ANOVA)