LIVRO GRATUITO: ESTATÍSTICA PARA CIÊNCIA DE DADOS COM LINGUAGEM R

Parte I – Plataformas para Análise de Dados 

Objetivos da unidade

  • Possibilitar o conhecimento sobre plataformas de análise estatística de dados
  • Permitir o primeiro contato com a linguagem R e suas ferramentas

Tópicos de estudo

  • Plataformas de análise de dados
  • A plataforma R
    • Linha de Comando
    • RStudio
    • Obtendo Ajuda
    • Explorando o RStudio
    • Operadores
    • Variáveis e Tipos de Dados
    • Objetos
    • Vetores
    • Matrizes
    • Arrays
    • Listas
    • Data Frames
    • Funções
    • Estruturas de Controle

Plataformas de análise de dados 

Análise de dados não é algo novo, e as plataformas que permitem o tratamento de dados através de métodos estatísticos existem há décadas. SAS, Stata, SPSS, Orange, PSPP e R são algumas das soluções disponíveis no mercado, sendo as três primeiras softwares proprietários e as três últimas software livre, sem custo de licenciamento para uso.

A plataforma de software IBM SPSS® oferece análise estatística avançada, uma vasta biblioteca de algoritmos de machine learning, análise de texto, extensibilidade de software livre, integração com big data e implementação contínua em aplicativos. Sua facilidade de uso, flexibilidade e escalabilidade tornam o IBM SPSS acessível aos usuários com todos os níveis de habilidade, além de criar projetos de todos os tamanhos e complexidades para ajudar você e sua empresa a encontrarem novas oportunidades, melhorarem a eficiência e minimizarem o risco (IBM, 2019).

O IBM SPSS Statistics é o software estatístico líder no mercado mundial usado para solucionar uma ampla variedade de problemas de negócios e de pesquisas por meio de análises sob demanda, testes de hipótese, análise geoespacial e análise preditiva. As empresas usam o IBM SPSS Statistics para entender dados, analisar tendências, realizar previsões e planos, validar suposições e impulsionar conclusões precisas (IBM, 2019).

Stata é um pacote estatístico poderoso e ao mesmo tempo fácil de usar que funciona nas plataformas Windows, Macintosh e Unix. (UCLA, 2009, tradução nossa)[]

Orange é um software de mineração de dados baseado em componentes. Ele inclui um conjunto de técnicas para visualização, exploração, pré-processamento e modelagem de dados. Pode ser usado através de uma interface intuitiva ou como um módulo para a linguagem de programação Python (ORANGE, 2019, tradução nossa)[]

Stata is a powerful and yet easy-to-use statistical package that runs on Windows, Macintosh and Unix platforms.

Orange is a component-based data mining software. It includes a range of data visualization, exploration, preprocessing and modeling techniques. It can be used through a nice and intuitive user interface or, for more advanced users, as a module for the Python programming language.

PSPP é uma aplicação estável e confiável. Pode realizar estatística descritiva, Testes T, ANOVA, regressão linear e logística, medidas de associação, análise de cluster, análise de fator e confiabilidade, testes não paramétricos e mais. Sua infraestrutura é desenhada para executar análises tão rápido quanto possível, independentemente do tamanho dos dados de entrada. Você pode usar PSPP com sua interface gráfica ou a sintaxe mais tradicional de comandos (PSPP, 2019, tradução nossa)[].

O R (R Development Core Team, 2006) é ao mesmo tempo uma linguagem de programação e um ambiente para computação estatı́stica e gráficos. Trata-se de uma linguagem de programação especializada em computação com dados. Uma das suas principais caracterı́sticas é o seu carácter gratuito e a sua disponibilidade para uma gama bastante variada de sistemas operativos (TORGO, 2006).

Como se pode notar, há diversas alternativas de softwares estatísticos à disposição de profissionais interessados em realizar análises de dados simples ou complexas que auxiliem as organizações e a sociedade de alguma maneira.

Diante do desafio de escolher uma das alternativas para abordar com maior profundidade neste livro, a opção pela linguagem R se apresenta como uma escolha adequada, pelas razões descritas a seguir.

A linguagem R foi desenvolvida como alternativa à linguagem S, uma linguagem de programação estatística desenvolvida pela Bell Labs desde 1976, que fornecia suporte interativo a pesquisa e projetos de análise de dados, mas que possuia restrições de uso e licenciamento. Assim, a linguagem R foi desenvolvida seguindo o modelo de licenciamento open source, em que não há custo de licenças para uso do software.

Desenvolvida na década de 90 por R. Gentleman e R. Ihaka, pesquisadores da Universidade de Auckland, na Nova Zelândia, atualmente a linguagem R conta com uma comunidade de desenvolvedores e usuários global e numerosa, o que garante atualizações frequentes e funcionalidades novas que permitem manter a linguagem

PSPP is a stable and reliable application. It can perform descriptive statistics, T-tests, anova, linear and logistic regression, measures of association, cluster analysis, reliability and factor analysis, non-parametric tests and more. Its backend is designed to perform its analyses as fast as possible, regardless of the size of the input data. You can use PSPP with its graphical interface or the more traditional syntax commands.

em linha com as inovações do mercado.

R é uma linguagem usada por pesquisadores em todo o mundo para desenvolver seus trabalhos de maneira organizada, seguindo o conceito de reprodutibilidade, que orienta no sentido de fornecer meios para que a experiência científica possa ser reproduzida e chegar aos mesmos resultados nas mesmas circunstâncias, contribuindo assim para o aprimoramento da ciência através da redução de risco de manipulação de resultados, dentre outros benefícios.

“No R existe um comando que mostra como citar o R ou um de seus pacotes. Veja como fazer:

> citation() # Mostra como citar o R

To cite R in publications use:

R Development Core Team (2011). R: A language and environment for statistical computing. R Foundation for Statistical Computing, Vienna, Austria. ISBN 3-900051-07-0, URL http://www.R-project.org/.

Veja que na parte com o nome dos autores aparece “R development core team”, isso está correto, cite o R desta forma. Algumas pessoas não sabem disso e citam o R com autor Anônimo, isto tira o crédito do time” (LANDEIRO, 2015, pág.4)

R é uma linguagem voltada para análise estatística de dados, ou seja, foi concebida  tendo como propósito auxiliar no processo de coleta, tratamento, análise de dados e apresentação de resultados.

Em razão disso, o núcleo da linguagem já inclui uma gama de recursos que simplificam operações que poderiam se tornar complexas ao utilizar outra linguagem que não disponha dos mesmos recursos.

A título de exemplo, é possível explorar a estrutura básica de um conjunto de dados utilizando uma única linha de código através da função str(), que permite sumarizar características do conjunto de dados, como tipos, amostras dos dados, quantidade de dados, dentre outras informações relevantes.

A linguagem R apresenta um conjunto de ferramentas gratuitas que permitem explorar o universo da análise de dados sob vários ângulos, utilizando as mais diversas técnicas e obtendo resultados de qualidade, seja na busca por melhorar os resultados

de negócio de uma organização ou auxiliar na exploração de um problema acadêmico de interesse puramente científico.

Este conjunto de ferramentas inclui um ambiente para a criação de aplicações em R (RStudio[] é um dos mais usados) e um conjunto bastante significativo de pacotes que complementam o núcleo da linguagem de programação, ampliando as possibilidades de desenvolvimento de soluções e integrando com outras do mercado através de diversas APIs[].

Não menos importante é a comunidade de usuários e desenvolvedores do R, que, sendo numerosa, facilita a identificação e correção de erros na linguagem e nas ferramentas relacionadas.

Diante do exposto acima, resta demonstrada e justificada a opção pelo R. Seguiremos apresentando em mais detalhes a linguagem R e suas principais ferramentas relacionadas (em especial o Rstudio e os pacotes), que chamaremos a partir de agora de plataforma R.

Rstudio é uma ferramenta do tipo IDE (Integrated Development Environment ou Ambiente e Desenvolvimento Integrado) que permite criar aplicações em R com facilidade e agilidade, fornecendo recursos para visualizar dados, testar e inspecionar a execução de código, além de outras funcionalidades importantes para o desenvolvimento de software.

APIs, ou Application Program Interfaces, são mecanismos de software que permitem a interação entre aplicações distintas através de uma interface de comunicação entre sistemas.

Tabela de Conteúdo

  • estatistica-para-ciencia-de-dados-com-linguagem-r
    • Apresentação
    • Dedicação
    • Autor
    • resumo
  • plataformas-análise-dados-estatísticas
    • Plataformas de análise estatística de dados
  • plataforma-linguagem-r
    • A plataforma R
    • Linha de comando
    • RStudio
    • Conseguindo ajuda
    • Explorando o
    • RStudio
    • Operadores
    • Variáveis e tipos de
    • Dados
    • Objetos
    • Vetor
    • Matrizes
    • Matrizes
    • Listas
    • Quadros de dados
    • Funções
    • Estruturas de controle
  • estatística para ciência de dados
    • Introdução à Estatística para Análise de Dados
    • Visualizando e descrevendo dados quantitativos
    • Estatística Descritiva x
    • Estatística Inferencial
  • medidas-dispersão-tendência-central
    • Visualização e
      Descrição de dados quantitativos
    • Definindo variáveis quantitativas discretas e contínuas
    • Medidas de tendência central – média
    • Medidas de Tendência Central – Mediana
    • Medidas de Tendência Central – Moda
    • Outras medidas de tendência central
    • Medidas de dispersão
    • Medidas de posição relativa – quartis e percentis
    • Gráficos para variáveis quantitativas
  • associações-correlação-causalidade
    • Análise bidimensional
      Associação entre
    • variáveis qualitativas
    • Medidas de associação entre variáveis qualitativas
    • Associação entre variáveis quantitativas
    • Medidas de associação entre variáveis quantitativas
    • Associação entre variáveis qualitativas e quantitativas
    • Analisando e interpretando gráficos de dispersão
      Atribuindo funções a variáveis de plotagem de dispersão
    • Noções básicas sobre correlação
    • Condições para análise de correlação
    • Correlação e Causalidade
  • probabilidade
    • Probabilidade conjunta
    • Probabilidade
    • Condicional e Independência
    • Tabelas de contingência
    • Árvores de probabilidade
  • regra-de-bayes-distribuições-probabilidade
    • Variáveis aleatórias e
    • Distribuições de probabilidade
    • Distribuição uniforme
    • Distribuição normal
    • Teorema do limite central
    • Distribuição Exponencial
    • Distribuição Qui-Quadrado
    • Distribuição t de student
    • Distribuição F
  • testes-hipótese-análise-variância-anova
    • Introdução à Inferência Estatística
    • Distribuições e proporções de amostragem
    • Testes de Hipóteses
    • Projeto de Experimentos e Análise de Variância (ANOVA)