LIVRO GRATUITO: ESTATÍSTICA PARA CIÊNCIA DE DADOS COM LINGUAGEM R

Figura 1: Arquitetura do R (GOUVEIA, 2017)

“Com o R, é possível criar e manter disponíveis, na área de trabalho, vários tipos de objetos. Isso permite grande flexibilidade e rapidez, mas tem um preço: todos os objetos ficam carregados na memória e algumas operações realizam a criação automática de vários objetos, tornando mais complexa a tarefa de se trabalhar com bancos de dados muito grandes” (AQUINO, 2014, pág.3).

A plataforma R inclui, dentre outros componentes e ferramentas, a linguagem de programação, ferramentas de desenvolvimento (vamos abordar aqui o RStudio) e a comunidade de desenvolvedores e usuários, que contribuem com os pacotes que abordaremos ao longo dos capítulos.

 

A linguagem R permite manusear e armazenar diversos tipos de dados, sejam numéricos ou texto, com suporte a estruturas de controle e sub-rotinas. Também fornece uma vasta biblioteca de funções que englobam desde álgebra de matrizes, expressões regulares, funções estatísticas, exibição de gráficos e muito mais.

 

Além disso, a plataforma R conta com pacotes, que são extensões da linguagem criadas pela comunidade de desenvolvedores e usuários, que permitem ampliar as possibilidades de desenvolvimento de aplicações, eliminando praticamente qualquer limitação que possa se deparar ao longo do desenvolvimento de software.

 

Além de numerosos, os pacotes são simples de instalar e usar, e isto pode ser feito diretamente no código da aplicação, como no exemplo a seguir.

install.packages(“RCurl”)

install.packages(“XML”)

library(RCurl)

library(XML)

url = URLencode(paste0(“https://www.google.com/search?q=”,”blog tecnologia”))

txt <- htmlToText(url)

txt

Como você pode observar, as duas primeiras linhas fazem a instalação dos pacotes “RCurl” e “XML”, enquanto as duas linhas seguintes indicam que estes pacotes e seus recursos devem ser carregados pois serão usados. A partir daí, as funções URLencode() e htmlToText() podem ser chamadas ao longo do programa. Não se preocupe em entender todo o código ainda. Vamos explicar cada detalhe através de exemplos mais tarde.

Linha de Comando

 

“O R pode ser iniciado num terminal: basta digitar a letra R e pressionar enter. O R é um programa de linha de comando, ou seja, após abri-lo, precisamos digitar algum texto no console e pressionar a tecla enter para enviar a linha para o seu interpretador. O símbolo > no início da última linha exibida na tela chama-se prompt e indica que o R está pronto para receber comandos” (AQUINO, 2014, pág.4)

 

Importante notar que esta facilidade de usar o R através da linha de comando (ou através da console do RStudio, como veremos adiante) é uma característica comum em linguagens interpretadas, em que cada linha de código pode ser analisada e executada interativamente.

RStudio

Figura 2: RStudio (GOUVEIA, 2017)

Embora R possa ser executado através da linha de comando, a utilização de uma ferramenta IDE facilita muito o processo de desenvolvimento de software, qualquer que seja a linguagem de programação. E com R não é diferente.

 

Caso você considere a linha de comando algo indispensável, o RStudio também fornece acesso a uma console onde você pode executar operações e testar seus resultados livremente, embora para ter uma maior produtividade e controle do processo de desenvolvimento, seja importante utilizar os outros recursos da ferramenta.

 

Alguns dos recursos oferecidos pelo RStudio incluem:

  • acesso à biblioteca de funções da linguagem R, incluindo o recurso autocompletar, que sugere como completar a linha de código;
  • interpretador de comandos que permite testar funções e outras operações da linguagem e analisar o resultado;
  • visualizador de dados, imagens, gráficos para facilitar a exploração de dados através de visualizações que facilitem o entendimento dos dados a serem analisados;
  • gravação dos dados da sessão em arquivo para salvar o trabalho e retomar depois de onde parou;
  • identificação e correção de erros e exploração de dados, dentre outros recursos;
  • criação de “relatórios” que facilitam o desenvolvimento de projetos de análises de dados que tenham reprodutibilidade, facilitando a repetição e verificação dos resultados obtidos da análise.

 

RStudio é uma IDE bastante usada por programadores da linguagem R, e uma das principais ferramentas da plataforma R, pois fornece um ambiente integrado de desenvolvimento com recursos muito úteis para facilitar a criação de aplicações, como vimos.

 

O RStudio está disponível para vários sistemas operacionais (Windows, Linux, Mac) e seu processo de instalação é bastante simples. Convém notar que o RStudio não inclui a linguagem R, ou seja, é necessário instalar também a linguagem R antes que possa começar a criar soluções para análise de dados em R.

 

Observe que ao digitar ou colar comandos longos no console, ocupando mais de uma linha, o R adiciona o símbolo + à primeira coluna da tela para indicar que a linha é a continuação do comando anterior. Por exemplo, ao digitar no console do R:

c(1, 2, 3, 4, 5, 6,

7, 8, 9, 10, 11)

será exibido na tela:

> c(1, 2, 3, 4, 5, 6,

+

7, 8, 9, 10, 11) (AQUINO, 2014).

Obtendo Ajuda

 

Há várias maneiras de buscar por ajuda em caso de dúvidas dentro da plataforma R. Há a função help.start(), que permite acessar o manual completo, e várias outras formas de buscar informações sobre um recurso da linguagem R e suas ferramentas. No exemplo abaixo vemos como usar a função args(), que ajuda a entender os parâmetros necessários para utilizar uma função da biblioteca:

args(setwd)

# function (dir)

# NULL

args(log)

# function (x, base = exp(1))

# NULL

args(head)

# function (x, …)

# NULL

Há funções que exigem argumentos, outras que possuem argumentos opcionais. Para saber se um argumento é obrigatório ou opcional, é necessário ler a documentação ou executar a função e verificar se o interpretador indica erro na operação. Abaixo, vemos o que ocorre quando tentamos executar a função setwd() sem argumentos:

setwd()

# Error: argumento “dir” ausente, sem padrão

Há funções que possuem valores pré-definidos para os argumentos, para o caso de não serem informados. Por isso, as três operações abaixo produzem exatamente o mesmo resultado:

log(10, base = exp(1))

# [1] 2.303

log(10, base = 2.718282)

# [1] 2.303

log(10)

# [1] 2.303

Há também a função help(), que permite acessar o documento de ajuda de um recurso da linguagem, trazendo todos os detalhes da documentação sobre o recurso. Também é possível utilizar a notação simplificada “?” para obter o mesmo tipo de ajuda:

help(demo)

?quit

Há situações em que sequer lembramos o nome exato do recurso que desejamos utilizar. Nestas situações, a função apropos() é muito útil, pois permite buscar ajuda utilizando um termo qualquer, de forma que a função vai retornar todos os recursos da linguagem relacionados ao termo em questão que puderam ser localizados:

apropos(“csv”)

# [1] “read.csv”

 “read.csv2”

 “write.csv”

 “write.csv2”

Caso nenhuma das alternativas anteriores seja capaz de encontrar a ajuda que necessita, é possível fazer uma busca na Internet:

RSiteSearch(“social network analysis”)

Outro recurso que facilita muito o entendimento e uso da linguagem é a possibilidade de visualizar exemplos:

example(“ls”)

Ter acesso a exemplos de utilização de funções e outros recursos é muito bom. Melhor ainda é ter acesso a um passo a passo com demonstrações da utilização de uma função! E esta opção está disponível através da função demo(). Infelizmente, nem todos os recursos da linguagem R têm a possibilidade de demonstração, mas os que têm podem ser acessados como no exemplo abaixo:

demo(“graphics”)

Tabela de Conteúdo

  • estatistica-para-ciencia-de-dados-com-linguagem-r
    • Apresentação
    • Dedicação
    • Autor
    • resumo
  • plataformas-análise-dados-estatísticas
    • Plataformas de análise estatística de dados
  • plataforma-linguagem-r
    • A plataforma R
    • Linha de comando
    • RStudio
    • Conseguindo ajuda
    • Explorando o
    • RStudio
    • Operadores
    • Variáveis e tipos de
    • Dados
    • Objetos
    • Vetor
    • Matrizes
    • Matrizes
    • Listas
    • Quadros de dados
    • Funções
    • Estruturas de controle
  • estatística para ciência de dados
    • Introdução à Estatística para Análise de Dados
    • Visualizando e descrevendo dados quantitativos
    • Estatística Descritiva x
    • Estatística Inferencial
  • medidas-dispersão-tendência-central
    • Visualização e
      Descrição de dados quantitativos
    • Definindo variáveis quantitativas discretas e contínuas
    • Medidas de tendência central – média
    • Medidas de Tendência Central – Mediana
    • Medidas de Tendência Central – Moda
    • Outras medidas de tendência central
    • Medidas de dispersão
    • Medidas de posição relativa – quartis e percentis
    • Gráficos para variáveis quantitativas
  • associações-correlação-causalidade
    • Análise bidimensional
      Associação entre
    • variáveis qualitativas
    • Medidas de associação entre variáveis qualitativas
    • Associação entre variáveis quantitativas
    • Medidas de associação entre variáveis quantitativas
    • Associação entre variáveis qualitativas e quantitativas
    • Analisando e interpretando gráficos de dispersão
      Atribuindo funções a variáveis de plotagem de dispersão
    • Noções básicas sobre correlação
    • Condições para análise de correlação
    • Correlação e Causalidade
  • probabilidade
    • Probabilidade conjunta
    • Probabilidade
    • Condicional e Independência
    • Tabelas de contingência
    • Árvores de probabilidade
  • regra-de-bayes-distribuições-probabilidade
    • Variáveis aleatórias e
    • Distribuições de probabilidade
    • Distribuição uniforme
    • Distribuição normal
    • Teorema do limite central
    • Distribuição Exponencial
    • Distribuição Qui-Quadrado
    • Distribuição t de student
    • Distribuição F
  • testes-hipótese-análise-variância-anova
    • Introdução à Inferência Estatística
    • Distribuições e proporções de amostragem
    • Testes de Hipóteses
    • Projeto de Experimentos e Análise de Variância (ANOVA)