LIVRO GRATUITO: ESTATÍSTICA PARA CIÊNCIA DE DADOS COM LINGUAGEM R

Outras Medidas de Tendência Central

Além da média, mediana e moda, há outras medidas de tendência central. As medidas de valor mínimo, máximo e amplitude, quartil e percentil são bastante úteis e vale a pena conhecê-las.

Vamos retomar nosso exemplo de notas de clientes, e observar estas medidas.

> min(notas)

[1] 1

> max(notas)

[1] 5

> range(notas)

[1] 1 5

> diff(range(notas))

[1] 4

Note que podemos obter o valor mínimo dentro do conjunto de notas dos clientes utilizando a função min() e o valor máximo usando a função max(). O valor mínimo, como você já percebeu, corresponde ao menor valor dentro do conjunto, enquanto o valor máximo corresponde ao maior valor.

A amplitude é uma medida que ajuda a entender a variabilidade dos dados, ou seja, uma faixa de valores que inclui todas as notas atribuídas pelos clientes, em nosso exemplo. Assim, esta medida é calculada a partir da diferença entre os valores mínimo e máximo.

Para realizar este cálculo, utilizamos as funções range() e diff(). A função range() retorna a faixa de valores de variação do conjunto de dados. Neste exemplo, a função retornou os valores 1 e 5, indicando que o conjunto de notas varia entre 1 e 5. Note que os valores correspondem aos valores mínimo e máximo de nota, como era de se esperar. Agora basta usar a função diff() para obter a diferença entre esses valores, chegando ao resultado 4.

Medidas de Dispersão

Dados de observações sobre variáveis num conjunto de dados podem ser comparados com o objetivo de identificar o quanto os dados estão concentrados em torno da média ou dispersos.

As medidas de tendência central são muito importantes para entender qualquer conjunto de dados. Ainda assim, não são suficientes para compreender todas as suas características, sendo necessário coletar outras medidas, como as medidas de dispersão que veremos a seguir.

O desvio padrão é uma medida de dispersão que representa o grau de variação de um conjunto de dados em relação à sua média.

Medidas de Tendência Central e Dispersão Parte 2 8

Seu cálculo é feito tomando cada valor do conjunto, o quadrado da sua diferença em relação à media, somando e dividindo pelo total de elementos do conjunto menos um.  Desse valor é então extraída a raiz quadrada, chegando ao valor final do desvio padrão.

Vejamos o que o desvio padrão dos valores das notas dos clientes nos revela.

> sd(notas)

[1] 1.15950180872841

Sabendo que a média das notas é 3,3, e sendo o desvio padrão de aproximadamente 1.16, temos que a faixa entre 2,14 e 4,46 concentra a maior parte dos valores das notas.

Como você deve ter notado, o desvio padrão, sendo uma medida de dispersão, fornece a noção do quanto os dados estão dispersos em relação à média de valores do conjunto de dados.

Portanto, quanto maior o valor do desvio padrão, maior a dispersão dos dados em relação à média, e vice-versa. Um desvio padrão de zero indica que todos os valores do conjunto de dados são iguais.

Observando atentamente a fórmula do desvio padrão, é fácil perceber que o cálculo envolve a diferença entre cada um dos valores do conjunto em relação a média, e então um somatório. Porém, antes da soma, as diferenças são elevadas ao quadrado e divididas pelo número de elementos do conjunto menos um.

O cálculo é feito desta maneira porque, dentro do conjunto de dados, há valores acima e abaixo da média. Portanto, a diferença entre cada valor e a média será positiva em alguns casos, e negativa em outros. Se fizermos uma soma simples de todas as diferenças, qual será o resultado? Zero!

Isso decorre da própria definição de média, que é o valor que representa o centro da distribuição dos dados. Portanto, para que tenhamos uma medida efetiva da variabilidade dos dados em relação à média, é preciso mais que uma soma aritmética simples, e por isso o cálculo do desvio padrão exige que cada diferença entre os elementos e a média seja elevada ao quadrado para evitar dados negativos, consequentemente evitando que o resultado seja zero.

Importante notar que o desvio padrão é a raiz quadrada da variância, outra medida que ajuda a entender a variação dos valores do conjunto de dados em relação à média. A variância, portanto, é calculada como o quadrado do desvio padrão, e identificada como S2.

> var(notas)

[1] 1.34444444444444

A variância pode ser calculada utilizando a função var(), que assim como as função sd(), faz parte do conjunto padrão de pacotes da linguagem R, não sendo necessário instalar nenhum recurso adicional para ter acesso a estas funções.

As observações do conjunto de dados possuem uma unidade de medida (centímetros, segundos, kilogramas). A variância tem valor nessa medida ao quadrado, enquanto o desvio padrão tem a mesma unidade de medida dos dados conjunto de observações.

Outra medida de dispersão bastante útil é o coeficiente de variação, calculado a partir da divisão do desvio padrão pela média e multiplicando por 100. Assim, o coeficiente de variação indica o percentual de variação dos dados em relação à média.

> cv = sd(notas)/mean(notas)*100

>cv

[1] 35.1364184463153

Observe que o coeficiente de variação para as notas que os clientes atribuíram à empresa é de aproximadamente 35%. Isto indica que há uma variação importante nas notas. Caso o coeficiente tivesse um valor baixo, menos de 10%, por exemplo, poderíamos observar uma concentração das notas dentro de uma faixa mais restrita, indicando um sentimento mais homogêneo dos clientes em relação aos serviços da empresa, seja positiva ou negativamente.

 

Importante notar que o coeficiente de variação deve ser calculado apenas para conjuntos de dados  que podem assumir somente valores não negativos. O coeficiente de variação pode não ter significância quando aplicado a variáveis intervalares, com temperatura em graus Celsius e Fahrenheit. Já a temperatura em Kelvin não admite valores abaixo de zero, sendo possível portanto aplicar o coeficiente de variação.

Medidas de Posição Relativa – Quartis e Percentis

Medidas de Tendência Central e Dispersão Parte 2 9
Figura 5: Localização dos quartis (FERREIRA, 2005)

Quartil é uma medida que divide os dados em quatro partes, correspondendo aos percentuais de 25%, 50%, 75% e 100%. Assim, o primeiro quartil (Q1) identifica o valor abaixo do qual estão 25% dos dados. O segundo quartil (Q2) representa o valor abaixo do qual está a metade dos dados, e corresponde ao mesmo valor da mediana. Os quartis 3 (Q3) e 4 (Q4) identificam os valores abaixo dos quais estão 75% e 100% dos dados, respectivamente.

Imagine que os quartis são divisores que separam os dados de acordo com o percentual dos valores do conjunto de dados que estão abaixo do valor do quartil. Vamos observar os quartis para os valores das notas dos clientes.

> notas = c(1, 3, 2, 4, 5, 4, 3, 4, 3, 4)

> quantile(notas)

  0%  25%  50%  75% 100%

1.0   3.0  3.5  4.0 5.0

Observe que 25% das notas têm valor até 3 (Q1), 50% das notas têm valor menor ou igual a 3.5 (Q2 – lembrando que este é o valor da mediana), 75% das notas têm valor máximo 4 (Q3) e 100% das notas tem valor máximo 5 (Q4).

Podemos avançar para além dos quartis e obter os percentis para o conjunto de dados. Percentil representa o valor abaixo do qual está um determinado percentual dos dados, ou seja, é uma medida que divide o conjunto de dados em até 100 partes. É possível calcular o percentil para qualquer valor percentual que desejarmos.

 

> quantile(notas,c(0.1, 0.2, 0.3, 0.4, 0.5, 0.6, 0.7, 0.8, 0.9))

10% 20% 30% 40% 50% 60% 70% 80% 90%

1.9 2.8 3.0 3.0 3.5 4.0 4.0 4.0 4.1

Podemos ver acima que 10% das notas estão abaixo de 1.9, e 90% das notas estão abaixo de 4.1. Em outras palavras, um cliente (10% dos que responderam) deu nota mínima (1 é a única nota possível abaixo de 1.9) e um cliente (o que está fora dos 90%) deu nota máxima (5 é a única nota possível acima de 4.1).

Agora observe o código a seguir:

 

> summary(notas)

 Min. 1st Qu. Median Mean 3rd Qu. Max.

    1.0 3.0 3.5 3.3 4.0 5.0

Veja como podemos obter, rápida e facilmente, as principais medidas de tendência central para o conjunto de dados, utilizando uma única função. Esta é a maior vantagem de utilizar ferramentas especializadas, construídas para facilitar o trabalho de análise de dados, como ocorre com a plataforma R.

Há outras facilidades na plataforma, como você vai notar em breve. A função summary(), por exemplo, possui uma função equivalente, mas na forma de gráfico boxplot(), como você logo verá.

Gráficos para Variáveis Quantitativas

Vimos que há diversas medidas que permitem compreender e analisar as características de conjuntos de dados e variáveis qualitativas.

Porém, é altamente recomendado utilizar os recursos de visualização de dados disponíveis na plataforma para facilitar a exploração dos dados e sua compreensão.

Assim, vamos utilizar alguns desses recursos para explorar os dados das notas dos clientes.

Há diversos recursos na plataforma R que podem ser usados para a visualização de dados quantitativos, permitindo criar vários tipos de gráficos.

Medidas de Tendência Central e Dispersão Parte 2 10
Figura 6: Exemplos de gráficos (fonte própria)

> notas = c(1, 3, 2, 4, 5, 4, 3, 4, 3, 4)

> plot(notas)

> barplot(table(notas))

> pie(table(notas))

Acima vemos alguns exemplos de gráficos que podem ser usados para visualizar as notas dos clientes. Importante notar que a simples exibição de um gráfico pode não ser muito útil, como vemos no exemplo “a”, em que foi utilizada a função plot() para exibir o gráfico das notas, porém a informação não permite compreender os dados com facilidade.

No exemplo “b”, diferentemente, temos o uso da função barplot() para exibir o gráfico de barras da distribuição de frequência das notas. Observe que, neste caso, é mais fácil perceber que se trata da quantidade de clientes que atribuíram cada nota.

De forma semelhante, no exemplo “c”, temos um gráfico de pizza revelando a distribuição das notas entre os clientes.

Note que, nos exemplos “b” e “c”, foi exibido o gráfico da distribuição de frequência das notas, e não dos valores de cada nota separadamente, como no exemplo “a”.

Vejamos então a função que cria a tabela de distribuição de frequência.

> notas = c(1, 3, 2, 4, 5, 4, 3, 4, 3, 4)

> table(notas)

1 2 3 4 5

1 1 3 4 1

Observe que a função table() permite visualizar a distribuição de frequência dos valores no conjunto de dados. Veja que a primeira linha do resultado traz as notas de 1 a 5. Na linha abaixo temos a frequência de cada nota. Desta forma é fácil observar quantos clientes deram cada nota. Este recurso ajuda muito na compreensão dos dados e sua distribuição de valores.

> hist(notas, breaks=0.5:5.5)

Medidas de Tendência Central e Dispersão Parte 2 11
Figura5":istograma (fonte própria)

A função hist() permite obter o histograma do conjunto de dados. O histograma é a representação visual da distribuição de frequência dos valores no conjunto de dados. Observe que o gráfico do histograma apresenta a mesma informação que a tabela de distribuição de frequência obtida com a função table() no exemplo anterior, e também coincide com a exibição da tabela de frequência através da função barplot().

 

Observe que, além do conjunto de dados, foi fornecido um parâmetro breaks=0.5:5.5 para a função hist(). Este parâmetro faz com que o histograma seja dividido em 5 partes, 5 “barras”. Caso o parâmetro não fosse fornecido, a função hist() tentaria encontrar automaticamente a quantidade de divisões ideal, porém isso nem sempre reflete a análise que desejamos fazer, como neste caso. A execução da função sem o parâmetro resulta em 4 divisões, ou seja, 4 “faixas de valores” para as notas dos clientes. Isso não é desejável, pois neste pequeno conjunto de dados, faz mais sentido analisar a quantidade de clientes que atribuiu cada nota.

 

> boxplot(notas, main = “Notas dos clientes”)

Medidas de Tendência Central e Dispersão Parte 2 12
Figura 8: Gráfico boxplot (fonte própria)

A função boxplot() exibe um gráfico da distribuição dos valores do conjunto de dados, revelando uma série de informações importantes. Observe a linha que coincide com o valor 5 no eixo y, ela é o valor máximo do conjunto. A linha superior do quadrado ao centro do gráfico corresponde ao 3º quartil, a linha mais grossa dentro do quadrado é a mediana, e a linha inferior do quadrado é o 1º quartil.

 

Agora a surpresa. A linha abaixo do quadrado corresponde ao valor mínimo do conjunto de dados, indicado com o valor 2. Porém, sabemos que o valor mínimo do conjunto é 1. O que aconteceu? O valor 1 foi tratado pela função boxplot() como outlier, ou seja, este valor “destoa” dos demais valores, e por isso foi considerado um “ponto fora da curva”. Isso provavelmente significa que esta nota não reflete o comportamento da maioria dos clientes, e talvez possa ser desprezada para fins de análise dos dados.

 

É também importante observar que cada “seção” do gráfico boxplot representa 25% dos dados. Em outras palavras, no intervalo entre 2 e 3 estão 25% das notas, assim como na “metade de baixo” do quadrado, entre 3 e 3,5 (Q1 e Q2 – mediana). O mesmo vale para a “metade de cima” do quadrado (entre 3,5 e 4) e para o intervalo entre 4 e 5 (topo do box e linha indicando o valor máximo do conjunto). Veja quanta informação temos num único gráfico.

Tabela de Conteúdo

  • estatistica-para-ciencia-de-dados-com-linguagem-r
    • Apresentação
    • Dedicação
    • Autor
    • resumo
  • plataformas-análise-dados-estatísticas
    • Plataformas de análise estatística de dados
  • plataforma-linguagem-r
    • A plataforma R
    • Linha de comando
    • RStudio
    • Conseguindo ajuda
    • Explorando o
    • RStudio
    • Operadores
    • Variáveis e tipos de
    • Dados
    • Objetos
    • Vetor
    • Matrizes
    • Matrizes
    • Listas
    • Quadros de dados
    • Funções
    • Estruturas de controle
  • estatística para ciência de dados
    • Introdução à Estatística para Análise de Dados
    • Visualizando e descrevendo dados quantitativos
    • Estatística Descritiva x
    • Estatística Inferencial
  • medidas-dispersão-tendência-central
    • Visualização e
      Descrição de dados quantitativos
    • Definindo variáveis quantitativas discretas e contínuas
    • Medidas de tendência central – média
    • Medidas de Tendência Central – Mediana
    • Medidas de Tendência Central – Moda
    • Outras medidas de tendência central
    • Medidas de dispersão
    • Medidas de posição relativa – quartis e percentis
    • Gráficos para variáveis quantitativas
  • associações-correlação-causalidade
    • Análise bidimensional
      Associação entre
    • variáveis qualitativas
    • Medidas de associação entre variáveis qualitativas
    • Associação entre variáveis quantitativas
    • Medidas de associação entre variáveis quantitativas
    • Associação entre variáveis qualitativas e quantitativas
    • Analisando e interpretando gráficos de dispersão
      Atribuindo funções a variáveis de plotagem de dispersão
    • Noções básicas sobre correlação
    • Condições para análise de correlação
    • Correlação e Causalidade
  • probabilidade
    • Probabilidade conjunta
    • Probabilidade
    • Condicional e Independência
    • Tabelas de contingência
    • Árvores de probabilidade
  • regra-de-bayes-distribuições-probabilidade
    • Variáveis aleatórias e
    • Distribuições de probabilidade
    • Distribuição uniforme
    • Distribuição normal
    • Teorema do limite central
    • Distribuição Exponencial
    • Distribuição Qui-Quadrado
    • Distribuição t de student
    • Distribuição F
  • testes-hipótese-análise-variância-anova
    • Introdução à Inferência Estatística
    • Distribuições e proporções de amostragem
    • Testes de Hipóteses
    • Projeto de Experimentos e Análise de Variância (ANOVA)