LIVRO GRATUITO: ESTATÍSTICA PARA CIÊNCIA DE DADOS COM LINGUAGEM R

Atribuindo funções a variáveis de plotagem de dispersão

Como vimos no exemplo, usando o conjunto de dados mtcars, o gráfico de dispersão pode ser obtido usando a função scatterplot (). Vejamos alguns recursos para tornar o gráfico mais interessante e útil, facilitando e otimizando o processo de análise de dados.

> scatter.smooth (df $ mpg, df $ wt, lpars = list (col = “red”, lwd = 3, lty = 3))

Figure 12: Smoothed curve of the scatter plot (own source)

Observe que neste exemplo não temos uma linha reta, mas uma curva suavizada. A função utilizada, scatter.smooth (), permite obter essa curva e é indicada quando queremos obter uma curva que represente mais livremente a relação entre as variáveis. Isso pode ser usado para verificar se a curva obtida está mais próxima de uma linha reta, curva exponencial ou não, direcionando melhor a análise.

Noções básicas sobre correlação

Como vimos, o coeficiente de correlação representa o grau de influência da variação de uma variável em relação a outra, ou seja, sua correlação. Quanto mais próximo de 1, maior a correlação positiva entre as variáveis e quanto mais próximo de -1, maior a correlação negativa.


Figure 13: Different associations between variables (FERNANDES, 1999)

Note como é possível visualizar exemplos de correlação entre variáveis nos scatterplots acima. Quanto mais dispersos os pontos, menor a correlação. Quanto mais concentrados os pontos, se aproximando do desenho de uma reta, maior a correlação. Daí a referência à regressão linear.

Condições para Análise de Correlação

O coeficiente de correlação, também conhecido como coeficiente de correlação de Pearson, é uma medida que traz consigo uma carga de controvérsia, em razão do erro muito comum de associar correlação e causalidade, atribuindo relações de causa e efeito entre variáveis que possuem apenas uma correlação.

Além disso, a aplicação deste coeficiente se restringe a variáveis quantitativas, aleatórias e cujos valores seguem a distribuição normal.

Assim, a medida estatística não deve ser usada indistintamente, sob pena de obter resultados inválidos e questionáveis.

O rigor científico é determinante para a qualidade do resultado obtido a partir da análise de dados utilizando métodos estatísticos.

Por isso, o respeito aos procedimentos de coleta, organização e análise dos dados, com todos os seus requisitos, é parte essencial do conjunto de habilidades que um profissional deve desenvolver para alcançar resultados satisfatórios.

Correlação e Causalidade

A associação entre duas variáveis pode ser devida a três factores:

  • causa;
  • razão comum, quando existe(m) outra(s) variável(eis) que origina(m) o aparecimento das duas (ou, cuja variação causa variações nas duas) variáveis em estudo;
  • mistura, quando as variações numa variável são causadas pelas variações da outra variável bem como de uma terceira variável que não se encontra em estudo.(FERREIRA, 1999)

Box: Explicando:

Importante!

Correlação não é causalidade!

O fato de termos demonstrado, através de métodos estatísticos, que as variáveis consumo e peso têm uma correlação forte, não significa que o peso é a causa do consumo.

Este tipo de afirmação somente pode ser feita após uma análise mais detalhada de outras variáveis e de todo o contexto relacionado ao conjunto de dados, para que não sejam obtidas conclusões a partir de dados incompletos ou inconsistentes.

Erros como este são muito comuns, e é necessário estar muito atento, durante todo o processo de análise dos dados, para não tomar decisões e tirar conclusões que serão questionadas e até mesmo invalidadas posteriormente.

Sintetizando

 

Neste capítulo pudemos obter conhecimento sobre métodos e técnicas estatísticas importantes para o processo de análise de dados.

Entendemos os conceitos de observações e variáveis, as diferenças entre variáveis quantitativas e qualitativas, e as técnicas mais apropriadas para lidar com cada uma delas.

Vimos que a estatística descritiva é fundamental para apoiar a exploração, organização e compreensão dos dados através de medidas como média, mediana, moda, desvio padrão, variância.

Vimos ainda que os quartis e percentis possibilitam analisar a distribuição dos dados, e exploramos recursos como as tabelas de frequência e contingência.

Exploramos os dados através de gráficos de barras, pizza e boxplot, observando o quanto eles são informativos, e obtendo informações relevantes sobre os dados a partir deles.

Analisamos a relação entre variáveis, utilizando medidas como covariância e coeficiente de correlação, e exploramos estas relações através de gráficos de dispersão scatterplot.

Conhecemos funções da linguagem R que facilitam a organização e análise dos dados, como a função table() e summary().

Entendemos a relação entre correlação e causalidade, os riscos da interpretação incorreta e falha nesse entendimento, e os cuidados a serem tomados ao estudar a relação entre variáveis.

Munido de todo esse conhecimento, você deve ser capaz de realizar as primeiras explorações de dados de negócio, seja da empresa em que trabalha ou por interesse pessoal, pois somente a prática permite desenvolver e ampliar as habilidades necessárias para lidar de forma efetiva com os desafios que se apresentam para os profissionais de análise de dados no mercado de trabalho.

Sugerimos que escolha um tema de interesse e busque (ou crie) os dados necessários para realizar o processo de análise. Se possível, considere um conjunto de dados amplo, com pelo menos alguns milhares de registros. A linguagem R fornece uma série de conjuntos de dados que podem ser usados para os mais diversos objetivos.

De posse dos dados, aplique o que aprendeu. Calcule a média, mediana, moda, desvio padrão. Mais que calcular, compreenda e avalie o que estes dados significam em relação aos objetivos da sua análise.

Explore exaustivamente os dados através das funções da linguagem, utilize os gráficos para acelerar o processo de análise (mas não tenha pressa, pois isso aumenta muito a chance de cometer erros).

Relacione variáveis de interesse e as compare, estude, identifique correlações.

Finalmente, tome suas decisões com base no que aprendeu e analisou.

Tabela de Conteúdo

  • estatistica-para-ciencia-de-dados-com-linguagem-r
    • Apresentação
    • Dedicação
    • Autor
    • resumo
  • plataformas-análise-dados-estatísticas
    • Plataformas de análise estatística de dados
  • plataforma-linguagem-r
    • A plataforma R
    • Linha de comando
    • RStudio
    • Conseguindo ajuda
    • Explorando o
    • RStudio
    • Operadores
    • Variáveis e tipos de
    • Dados
    • Objetos
    • Vetor
    • Matrizes
    • Matrizes
    • Listas
    • Quadros de dados
    • Funções
    • Estruturas de controle
  • estatística para ciência de dados
    • Introdução à Estatística para Análise de Dados
    • Visualizando e descrevendo dados quantitativos
    • Estatística Descritiva x
    • Estatística Inferencial
  • medidas-dispersão-tendência-central
    • Visualização e
      Descrição de dados quantitativos
    • Definindo variáveis quantitativas discretas e contínuas
    • Medidas de tendência central – média
    • Medidas de Tendência Central – Mediana
    • Medidas de Tendência Central – Moda
    • Outras medidas de tendência central
    • Medidas de dispersão
    • Medidas de posição relativa – quartis e percentis
    • Gráficos para variáveis quantitativas
  • associações-correlação-causalidade
    • Análise bidimensional
      Associação entre
    • variáveis qualitativas
    • Medidas de associação entre variáveis qualitativas
    • Associação entre variáveis quantitativas
    • Medidas de associação entre variáveis quantitativas
    • Associação entre variáveis qualitativas e quantitativas
    • Analisando e interpretando gráficos de dispersão
      Atribuindo funções a variáveis de plotagem de dispersão
    • Noções básicas sobre correlação
    • Condições para análise de correlação
    • Correlação e Causalidade
  • probabilidade
    • Probabilidade conjunta
    • Probabilidade
    • Condicional e Independência
    • Tabelas de contingência
    • Árvores de probabilidade
  • regra-de-bayes-distribuições-probabilidade
    • Variáveis aleatórias e
    • Distribuições de probabilidade
    • Distribuição uniforme
    • Distribuição normal
    • Teorema do limite central
    • Distribuição Exponencial
    • Distribuição Qui-Quadrado
    • Distribuição t de student
    • Distribuição F
  • testes-hipótese-análise-variância-anova
    • Introdução à Inferência Estatística
    • Distribuições e proporções de amostragem
    • Testes de Hipóteses
    • Projeto de Experimentos e Análise de Variância (ANOVA)