LIVRO GRATUITO: ESTATÍSTICA PARA CIÊNCIA DE DADOS COM LINGUAGEM R

Parte II – Estatística para Análise de Dados

  • Introdução à Estatística para Análise de Dados
  • Visualizando e descrevendo dados quantitativos
  • Estatística Descritiva x
  • Estatística Inferencial
  • Visualização e Descrição de dados quantitativos
  • Definindo variáveis quantitativas discretas e contínuas
  • Medidas de tendência central – média
  • Medidas de Tendência Central – Mediana
  • Medidas de Tendência Central – Moda
  • Outras medidas de tendência central
  • Medidas de dispersão
  • Medidas de posição relativa – quartis e percentis
  • Gráficos para variáveis ​​quantitativas
  • Análise bidimensional
  • Associação entre
    variáveis ​​qualitativas
  • Medidas de associação entre variáveis ​​qualitativas
  • Associação entre variáveis ​​quantitativas
  • Medidas de associação entre variáveis ​​quantitativas
  • Associação entre variáveis ​​qualitativas e quantitativas
  • Analisando e interpretando gráficos de dispersão
  • Atribuindo funções a variáveis ​​de plotagem de dispersão
  • Noções básicas sobre correlação
  • Condições para análise de correlação
  • Correlação e Causalidade

Introdução à Estatística para Análise de Dados

A Estatística pode ser descrita como um conjunto de métodos e técnicas que permitem organizar, descrever, analisar e interpretar dados coletados com as mais diversas finalidades, qualquer que seja a área de conhecimento objeto de estudos ou experimentos, visando obter resultados de interesse individual ou coletivo.

É natural supor que as possibilidades para este tipo de análise são praticamente infinitas. Do estudo sobre os dados de vendas do supermercado ao projeto de aviões. Da análise de características de currículos de candidatos a vagas no mercado de trabalho ao estudo do genoma humano.

“A estatística tem como objectivo fornecer informação (conhecimento) utilizando quantidades numéricas. Seguindo este raciocínio, a estatística divide o estudo e a análise dos dados (factos numéricos) em três fases:

  1. Obtenção dos dados
  2. Descrição, classificação e apresentação dos dados
  3. Conclusões a tirar dos dados” (FERNANDES, 1999, pág.1).

Uma vez superada a fase de obtenção dos dados, a estatística entra em cena.

Frequentemente é necessário realizar manipulações diversas no conjunto de dados até que esteja com as características necessárias (formato, homogeneidade, etc) para um resultado satisfatório da análise, ou seja, para que os resultados inferidos a partir dos dados seja válido, confiável.

Fica claro, portanto, que o uso de métodos estatísticos é fundamental para que as conclusões decorrentes da análise de dados e, em especial, as decisões tomadas em razão de tais conclusões, tenham uma base sólida, reduzindo os riscos de erro de avaliação.

Tomamos decisões diariamente, sobre que roupa vestir, que comida escolher para as refeições, que caminho fazer ao ir e voltar pro trabalho. Em cada uma dessas decisões, nos baseamos em conhecimento e experiência, ambos diretamente relacionados aos dados que temos acesso e às conclusões que tiramos sobre eles.

“Comecemos por definir alguns termos básicos. Assim, entidade é uma pessoa, local, data, hora ou coisa que fornece o atributo, contagem, ou a medição de interesse. Exemplos de entidades são, portanto:

  • o número de empresas com a sede em Coimbra;
  • o número de pessoas que sofreram de enfarto do miocárdio em Portugal, no ano de 2001;
  • o número de automóveis que passam, por hora, num determinado cruzamento.” (FERREIRA, 2005, pág.3)

Vamos observar mais atentamente os exemplos acima. Note como as entidades (empresas, pessoas, automóveis) fornecem o atributo (sede em Coimbra), contagem (número de pessoas que sofreram infarto) ou medição (número de automóveis que passam no cruzamento a cada hora).

Assim, nos exemplos acima, vemos que sede, número de infartos e fluxo de automóveis por hora podem ser variáveis de interesse para fins de estudo estatístico, pois representam dados que variam em relação a uma ou mais entidades.

Agora observe como as variáveis possuem diferenças importantes. A variável sede tem valor textual (a localização da empresa), enquanto o fluxo de automóveis é um valor numérico relativo ao tempo.

Quando as variáveis representam atributos, códigos, categorias e características expressas preferencialmente por meio textual, os dados resultantes da observação dessas variáveis são ditos qualitativos.

Por outro lado, quando as variáveis representam contagem, medição e outros dados cujos valores devem ser expressos preferencialmente por meios numéricos, tais variáveis são ditas quantitativas.

Box: Dica:

Não associe dados qualitativos a nomes e dados quantitativos a números!

Há muitas situações em que um dado numérico se refere a uma variável qualitativa, como o CEP do endereço onde mora.

Variáveis qualitativas podem ser nominais, ordinais ou intervaladas.

Variáveis qualitativas nominais apresentam alguma qualidade ou característica da entidade, como sexo, religião, estado civil, cidade em que mora, cor dos olhos, além de características que possam ser identificadas a partir de respostas sim ou não.

Já as variáveis qualitativas ordinais apresentam uma hierarquia associada, como nível de escolaridade (nível médio, graduação, mestrado, doutorado).

Por sua vez, as variáveis qualitativas intervalares apresentam uma escala ou intervalo de valores para a classificação, como na avaliação de filmes (ótimo, bom, regular, ruim e péssimo).

Variáveis quantitativas podem ser discretas ou contínuas.

Variáveis quantitativas discretas em geral assumem valores dentro do conjunto dos números naturais, como a quantidade de filhos de um casal.

Variáveis quantitativas contínuas podem assumir qualquer valor dentro dos números reais. A altura de uma pessoa dificilmente terá um valor exato como 1 metro ou mesmo 2 metros.

Box: Contextualizando:

Note que esta definição admite exceções. Há casos em que, apesar de numéricos, os dados refletem uma categoria (ex: faixa etária), sendo considerados qualitativos. Há também situações em que pode ser necessário tratar algum dado categórico (ex: sexo) como numérico para efeito de aplicação de algoritmos, sem prejuízo da sua classificação como dado qualitativo.

Estatística Descritiva x Estatística Inferencial

Nesse contexto, os primeiros procedimentos a serem realizados para compreender os dados coletados envolvem a sua classificação quanto ao seu tipo e outras características determinantes para a escolha das técnicas mais apropriadas para obter os resultados desejados.

É, portanto, através da Estatística Descritiva que obtemos a compreensão, em maior nível de detalhes, do conjunto de dados coletados, através da exploração de suas características, fazendo uso de medidas como média, mediana, moda, variância, desvio padrão e outras.

A partir desta análise exploratória obtém-se maior grau de conhecimento sobre os dados, permitindo avançar para a Estatística Inferencial, de modo a tirar conclusões a partir da análise dos dados.

“Há essencialmente dois tipos de procedimentos em estatísticas. A estatística descritiva tem como objectivo a descrição dos dados, sejam eles de uma amostra ou de uma população. Pode incluir:

  • verificação da representatividade ou da falta de dados;
  • ordenação dos dados;
  • compilação dos dados em tabela;
  • criação de gráficos com os dados;
  • calcular valores de sumário, tais como médias;
  • obter relações funcionais entre variáveis.” (FERREIRA, 2005)

A estatística inferencial, por sua vez, envolve a realização de procedimentos que permitam, a partir dos dados, obter conclusões. Note que o entendimento de que os dados representam observações sobre variáveis é fundamental para o sucesso do processo de análise dos dados. A estatística inferencial pode nortear a tomada de decisões com segurança e assertividade, através da estimação de informações sobre uma população (conjunto total da entidade de interesse – pessoas, cidades, etc) a partir de uma amostra (conjunto reduzido da entidade de interesse).

Tabela de Conteúdo

  • estatistica-para-ciencia-de-dados-com-linguagem-r
    • Apresentação
    • Dedicação
    • Autor
    • resumo
  • plataformas-análise-dados-estatísticas
    • Plataformas de análise estatística de dados
  • plataforma-linguagem-r
    • A plataforma R
    • Linha de comando
    • RStudio
    • Conseguindo ajuda
    • Explorando o
    • RStudio
    • Operadores
    • Variáveis e tipos de
    • Dados
    • Objetos
    • Vetor
    • Matrizes
    • Matrizes
    • Listas
    • Quadros de dados
    • Funções
    • Estruturas de controle
  • estatística para ciência de dados
    • Introdução à Estatística para Análise de Dados
    • Visualizando e descrevendo dados quantitativos
    • Estatística Descritiva x
    • Estatística Inferencial
  • medidas-dispersão-tendência-central
    • Visualização e
      Descrição de dados quantitativos
    • Definindo variáveis quantitativas discretas e contínuas
    • Medidas de tendência central – média
    • Medidas de Tendência Central – Mediana
    • Medidas de Tendência Central – Moda
    • Outras medidas de tendência central
    • Medidas de dispersão
    • Medidas de posição relativa – quartis e percentis
    • Gráficos para variáveis quantitativas
  • associações-correlação-causalidade
    • Análise bidimensional
      Associação entre
    • variáveis qualitativas
    • Medidas de associação entre variáveis qualitativas
    • Associação entre variáveis quantitativas
    • Medidas de associação entre variáveis quantitativas
    • Associação entre variáveis qualitativas e quantitativas
    • Analisando e interpretando gráficos de dispersão
      Atribuindo funções a variáveis de plotagem de dispersão
    • Noções básicas sobre correlação
    • Condições para análise de correlação
    • Correlação e Causalidade
  • probabilidade
    • Probabilidade conjunta
    • Probabilidade
    • Condicional e Independência
    • Tabelas de contingência
    • Árvores de probabilidade
  • regra-de-bayes-distribuições-probabilidade
    • Variáveis aleatórias e
    • Distribuições de probabilidade
    • Distribuição uniforme
    • Distribuição normal
    • Teorema do limite central
    • Distribuição Exponencial
    • Distribuição Qui-Quadrado
    • Distribuição t de student
    • Distribuição F
  • testes-hipótese-análise-variância-anova
    • Introdução à Inferência Estatística
    • Distribuições e proporções de amostragem
    • Testes de Hipóteses
    • Projeto de Experimentos e Análise de Variância (ANOVA)