LIVRO GRATUITO: ESTATÍSTICA PARA CIÊNCIA DE DADOS COM LINGUAGEM R

Visualizando e Descrevendo Dados Quantitativos

Imagine que a empresa em que você trabalha possui uma orientação para solicitar aos clientes que avaliem a qualidade do serviço através de uma pesquisa de satisfação. Suponha que esta pesquisa solicita do cliente uma nota entre 1 e 5 e caso a nota seja baixa, é possível selecionar dentre uma lista de razões para a insatisfação: demora no atendimento, serviço mal feito, preço acima do mercado, dentre outros.

Agora vejamos alguns dados que podem ser obtidos para realizar uma análise do nível de satisfação dos clientes com os serviços da empresa:

  • Quantidade de clientes que responderam a pesquisa no ano;
  • Percentual de clientes satisfeitos (nota >=4);
  • Percentual de clientes insatisfeitos (nota <4);

Poderíamos enumerar outros dados passíveis de análise, mas vamos nos ater ao conjunto acima. Perceba que todos os dados acima representam variáveis quantitativas, ou seja, variáveis cujo valor numérico expressa melhor seu significado.

Definindo Variáveis Quantitativas Discretas e Contínuas

Variáveis quantitativas possuem uma classificação de acordo com os valores numéricos que podem assumir.

Vamos tomar como exemplo a quantidade de clientes que responderam a pesquisa.

Esta variável terá sempre um valor inteiro positivo (ou zero), pois cada cliente tem apenas duas opções: responder a pesquisa, ou não responder a pesquisa. O cliente que opta por responder soma 1 ao valor da variável e o cliente que opta por não responder soma 0, não havendo sentido valores fracionários, portanto.

Quanto a variável possui a característica de ser representada por valores inteiros positivos (números naturais), é denominada variável discreta. Variáveis discretas, em geral, representam uma contagem, uma quantidade.

Agora vejamos o exemplo do percentual de clientes satisfeitos. É perfeitamente possível que esta variável tenha valor 25,7% ou 85,3%, não é mesmo? Neste caso, temos uma variável contínua, pois o espaço de possíveis valores da variável é indeterminado, embora esteja delimitado entre 0 e 100. Variáveis contínuas, em geral, representam uma medição.

Medidas de Tendência Central – Média

Medidas de tendência central são valores calculados que permitem compreender a centralidade dos dados, ou seja, determinar o valor central do conjunto de dados. Há algumas medidas para isso.

A média aritmética é uma das medidas mais conhecidas e usadas, sendo definida como o resultado da soma de todos os valores do conjunto de dados, dividido pela quantidade de valores do conjunto.

Assim, vamos tomar nosso exemplo da pesquisa de satisfação e supor que 10 clientes tenham respondido a pesquisa, cujas notas atribuídas estão no vetor notas, conforme a seguir:

> notas = c(1, 3, 2, 4, 5, 4, 3, 4, 3, 4)

É possível calcular a nota média atribuída pelos clientes através da função mean():

> mean(notas)

[1] 3.3

Se fizermos o cálculo de acordo com a definição de média, temos a soma de todos os valores, que resulta 33, dividida pela quantidade de notas, que é 10. Temos, portanto, o resultado 3,3, de acordo com o resultado da função mean(), como esperado.

Medidas de Tendência Central – Mediana

Embora a média seja uma medida muito útil e importante, tirar conclusões sobre os dados analisando exclusivamente a média pode levar a erros graves. Por isso é importante compreender outras medidas de tendência central que ajudem a entender melhor as características do conjunto de dados.

A mediana é a medida que representa o “valor do meio”. Isto significa que metade dos valores do conjunto estão abaixo do valor da mediana e metade estão acima. É como se dividíssemos o conjunto em duas partes com quantidades iguais, usando a mediana.

Esta divisão é feita de maneira simples quando o conjunto tem uma quantidade ímpar de valores, bastando ordenar o conjunto e calcular a mediana pela fórmula n / 2. Caso a quantidade de elementos seja par, a fórmula passa a ser (n + 1)/2.

> median(notas)

[1] 3.5

 

Box: Dica:

Observe que o valor da mediana não precisa estar entre os valores observados no conjunto de dados. O importante é que ela representa um divisor, de forma que metade dos valores do conjunto está acima deste valor e metade abaixo.

 

Note que há, no conjunto de notas de clientes, 5 valores abaixo de 3,5, e 5 acima, o que demonstra que a mediana corresponde a este valor para o conjunto de dados. Em outras palavras, metade dos clientes deu notas entre 1 e 3, enquanto a outra metade deu notas entre 4 e 5.

Medidas de Tendência Central – Moda

Figura 3: Localização da moda de uma distribuição de frequência (FERREIRA, 2005)

Fashion is a measure that represents the most frequent value in the data set.

Fashion and median have an interesting characteristic: they are not affected by extreme values.

Extreme values, also called outliers , are values ​​that “clash” with the set, that is, they are values ​​that are very distant from the center of the set value distribution, and cause a variation in the average that can negatively affect the analysis in some situations. That is why it is important not to use only the mean to describe data sets.

Voltando à moda, não há uma função na linguagem R que permita seu cálculo. Por isso, precisamos criar uma função para isso:

> moda = function(valores) {

v = table(as.vector(valores))

names(v)[v == max(v)]

    }

> moda(notas)

[1] “4”

Não se preocupe ainda em entender totalmente o código da função, apenas compreenda que a moda é o valor mais frequente do conjunto. Isso pode ser facilmente verificado ao observar na lista de notas de clientes que 4 deles deram nota 4 para a empresa.

 

Importante notar também que a moda nem sempre pode ser obtida. Para conjuntos de dados em que todos os valores possuem a mesma frequência, ou seja, quando todos os valores são distintos, por exemplo, não possuem valor de moda.

 

Há também os conjuntos de dados em que mais de um valor corresponde à moda. Isto porque há mais de um valor que se repete com maior frequência dentro do conjunto. Vejamos um exemplo. Para o conjunto de números (1,1,2,3,3,4,5,6,7,8,8,9), a moda corresponde aos valores 1, 3 e 8, e neste caso a amostra de números é dita multimodal.

 

Agora vejamos alguns resultados interessantes da análise das notas dos clientes a partir das medidas estudadas (média, mediana e moda).

 

A média de valores de nota é 3,3.

A mediana é 3,5.

A moda é 4.

Perceba que, ao analisar somente a média, a conclusão poderia ser de que a nota precisa melhorar, por estar bem próxima de 3 (serviço “regular”). O mesmo vale para uma análise baseada apenas na mediana. Ao analisar somente a moda, a conclusão seria que a qualidade do serviço está satisfatória e basta manter.

 

Considerando todas as medidas, entretanto, é possível verificar que, embora a nota mais frequente seja 4, os clientes que atribuíram notas baixas deixaram a média e mediana abaixo da moda. Isso pode indicar que o serviço prestado pela empresa tem qualidade percebida pelos clientes, mas há espaço pra melhoria.

Figura 4: Relações entre a média (μ), a mediana (Md) e a moda (Mo) (FERREIRA, 2005)

Observe na figura acima o comportamento da média, mediana e moda de acordo com a distribuição de frequência dos valores do conjunto de dados. Note que, se os valores estão distribuídos de maneira simétrica, as medidas coincidem. Se a distribuição tem maior concentração de valores à esquerda ou à direita, os valores das medidas não coincidem.

Observe que para o conjunto de dados de notas dos clientes, temos uma assimetria à esquerda, ou seja, a cauda da curva de distribuição de valores é mais longa à esquerda da média. Isto porque a média (3,3) é menor que a moda (4).

É possível obter uma ideia da intensidade da assimetria a partir do coeficiente de assimetria, obtido através da função skewness() do pacote moments.

> install.packages(“moments”)

> library(“moments”)

> skewness(notas)

-0.613072877535687

O coeficiente de assimetria para a distribuição de notas dos clientes é -0.61.

Tabela de Conteúdo

  • estatistica-para-ciencia-de-dados-com-linguagem-r
    • Apresentação
    • Dedicação
    • Autor
    • resumo
  • plataformas-análise-dados-estatísticas
    • Plataformas de análise estatística de dados
  • plataforma-linguagem-r
    • A plataforma R
    • Linha de comando
    • RStudio
    • Conseguindo ajuda
    • Explorando o
    • RStudio
    • Operadores
    • Variáveis e tipos de
    • Dados
    • Objetos
    • Vetor
    • Matrizes
    • Matrizes
    • Listas
    • Quadros de dados
    • Funções
    • Estruturas de controle
  • estatística para ciência de dados
    • Introdução à Estatística para Análise de Dados
    • Visualizando e descrevendo dados quantitativos
    • Estatística Descritiva x
    • Estatística Inferencial
  • medidas-dispersão-tendência-central
    • Visualização e
      Descrição de dados quantitativos
    • Definindo variáveis quantitativas discretas e contínuas
    • Medidas de tendência central – média
    • Medidas de Tendência Central – Mediana
    • Medidas de Tendência Central – Moda
    • Outras medidas de tendência central
    • Medidas de dispersão
    • Medidas de posição relativa – quartis e percentis
    • Gráficos para variáveis quantitativas
  • associações-correlação-causalidade
    • Análise bidimensional
      Associação entre
    • variáveis qualitativas
    • Medidas de associação entre variáveis qualitativas
    • Associação entre variáveis quantitativas
    • Medidas de associação entre variáveis quantitativas
    • Associação entre variáveis qualitativas e quantitativas
    • Analisando e interpretando gráficos de dispersão
      Atribuindo funções a variáveis de plotagem de dispersão
    • Noções básicas sobre correlação
    • Condições para análise de correlação
    • Correlação e Causalidade
  • probabilidade
    • Probabilidade conjunta
    • Probabilidade
    • Condicional e Independência
    • Tabelas de contingência
    • Árvores de probabilidade
  • regra-de-bayes-distribuições-probabilidade
    • Variáveis aleatórias e
    • Distribuições de probabilidade
    • Distribuição uniforme
    • Distribuição normal
    • Teorema do limite central
    • Distribuição Exponencial
    • Distribuição Qui-Quadrado
    • Distribuição t de student
    • Distribuição F
  • testes-hipótese-análise-variância-anova
    • Introdução à Inferência Estatística
    • Distribuições e proporções de amostragem
    • Testes de Hipóteses
    • Projeto de Experimentos e Análise de Variância (ANOVA)