LIVRO GRATUITO: ESTATÍSTICA PARA CIÊNCIA DE DADOS COM LINGUAGEM R

Parte III – Distribuições de Probabilidade

  • Probabilidade conjunta
  • Probabilidade
    Condicional e Independência
  • Tabelas de contingência
  • Árvores de probabilidade
  • Variáveis ​​aleatórias e
    Distribuições de probabilidade
  • Distribuição uniforme
  • Distribuição normal
  • Teorema do limite central
  • Distribuição Exponencial
  • Distribuição Qui-Quadrado
  • Distribuição t de student
  • Distribuição F

Objetivos da unidade

  • Fornecer embasamento sobre a teoria das probabilidades e sua importância;
  • Descrever das distribuições de probabilidade mais importantes;
  • Explorar ferramentas estatísticas para auxiliar na análise de dados utilizando probabilidades e suas distribuições;
  • Descrever os principais recursos da plataforma R para lidar com probabilidades, variáveis aleatórias e suas distribuições.

Tópicos de estudo

  • Probabilidade
    • Probabilidade Conjunta
    • Probabilidade Condicional e Independência
    • Tabelas de Contingência
    • Árvores de Probabilidade
  • A Regra de Bayes
  • Variáveis Aleatórias e Distribuições de Probabilidade
  • Distribuição Uniforme
  • Distribuição Normal
  • Teorema Central do Limite
  • Distribuição Exponencial
  • Distribuição Qui-Quadrado
  • Distribuição t de Student
  • Distribuição F

Probabilidade

Probabilidade é a teoria que permite a compreensão da aleatoriedade, seu comportamento, propriedades e consequências. Pode também ser entendida como a teoria que estuda a incerteza.

A teoria das probabilidades é uma ferramenta valiosa para a análise de dados, pois permite medir a incerteza. Assim, o estudo da probabilidade é bastante útil para compreender a chance de ocorrência de um evento, já que muitos deles são incertos.

Matematicamente, probabilidade é um valor numérico, entre 0 e 1, que indica a chance de que um evento específico ocorra. O valor 0 corresponde a “nenhuma” chance de ocorrência, enquanto o valor 1 corresponde a “100% de chance” de ocorrência do evento. É comum expressar o valor de probabilidades na forma de percentual. O estudo das probabilidades de ocorrência de um evento pode ser feito através de experimentos.

Um experimento consiste na medição ou observação de um processo ou atividade, visando coletar dados sobre o mesmo.

Experimentos controlados permitem estudar os efeitos de diversos fatores, modelados através de variáveis dependentes e independentes, e podem ser classificados em determinísticos ou probabilísticos.

Experimentos determinísticos obtém resultados previsíveis, graças a um controle das variáveis que garante que elementos não controláveis tenham efeito desprezível no resultado dos experimentos.

Se, após repetidas medições ao longo do tempo, as observações das variáveis produzem resultados não previsíveis, têm-se então um experimento probabilístico ou aleatório.

Neste caso, conjunto de medições dos resultados forma uma distribuição de probabilidades. A estatística faz uso das leis da probabilidade para auxiliar na compreensão desses resultados e nas conclusões que se pode obter a partir deles.

A noção de experimento aleatório é um conceito essencial da teoria das probabilidades. Um experimento é dito aleatório se consiste num processo em que cada tentativa tem um resultado que pertence a um conjunto de possibilidades de valores, de forma que não é possível antecipar, com um nível confiável de certeza, o valor específico.

Lançamentos de moedas e dados são comumente usados como exemplos de experimentos aleatórios. Mas há muitos outros, como os vários tipos de sorteio de prêmios em dinheiro a partir do acerto do conjunto de números, a previsão do tempo, a chance de um cliente comprar um produto ou pagar um empréstimo.

Mesmo não sendo possível prever o resultado do sorteio, sabemos qual o conjunto de números que podem ser sorteados, e há quem baseie suas apostas em estudos desse conjunto, que é denominado espaço amostral.

Box: Explicando:

Matematicamente, o espaço amostral pode ser expressado da seguinte maneira:

E = { xi, … , xn),

Onde  xi representa o valor possível para o i-ésimo valor da variável. Para o clássico exemplo da moeda, temos os resultados possíveis cara e coroa, assim o espaço amostral é definido como:

E = {cara, coroa}.

O espaço da amostra para a resposta a uma questão de prova do tipo múltipla escolha é dado pelo conjunto de valores {a, b, c, d, e}, assim como o espaço, para o resultado da megassena, é dado pelo conjunto de valores inteiros {1,2,…,60}.

O espaço amostral possui algumas propriedades importantes.

A primeira delas é que os resultados do experimento são mutuamente exclusivos. Isto significa que não é possível que um lançamento de moeda tenha resultado cara e coroa ao mesmo tempo.

A outra propriedade diz que os resultados do experimento estão restritos ao conjunto de valores do espaço amostral. Nada mais natural, não é mesmo?

A teoria das probabilidades pode ser classificada em vários tipos. Vejamos os principais deles.

A probabilidade clássica é usada quando o número de possíveis resultados do evento de interesse é conhecido, ou seja, quando conhecemos previamente os possíveis resultados dentro espaço da amostra. Neste caso, o cálculo da probabilidade é dado pela fórmula:

P(A) = s ÷ n,

onde A é o evento a ser observado, s é o número de possíveis resultados de interesse, e n o número total de resultados dentro do espaço da amostra.

Assim, podemos calcular a probabilidade de que o resultado do lançamento de uma moeda seja coroa, da seguinte forma:

P(A) = s ÷ n, sendo:

  • s= 1 (coroa corresponde a um único possível resultado); e
  • n= 2 (há dois resultados possíveis para o lançamento da moeda: cara e coroa).

Temos, portanto, que P(A) = 1 ÷ 2, que resulta 0,5, ou 50% de chance que o lançamento da moeda tenha como resultado coroa.

Vamos tomar agora o exemplo do lançamento de um dado não viciado. Para um único lançamento, temos que a probabilidade de que o resultado seja 6 é dada pela fórmula  P(A) = 1 ÷ 6, sendo s=1 o único possível resultado de interesse e n=6 o conjunto de todos os resultados possíveis (E = {1,2,3,4,5,6}).

Temos, então que a probabilidade de que o lançamento de um dado honesto tenha como resultado o valor 6 é igual a 0,1667 ou 16,67% aproximadamente.

Box: Curiosidade:

Você sabia que a rolagem de um dado 9 vezes tem como espaço amostral um total de 6^9=10077696 resultados possíveis? Mais de 10 milhões de possibilidades!

Já na probabilidade empírica, não sabemos previamente os possíveis resultados do evento, então é necessário observar a ocorrência do evento dentro de um conjunto de repetições e então calcular a probabilidade a partir da seguinte fórmula:

P(A) = s ÷ n, sendo:

onde A é o evento a ser observado, s é a frequência dos possíveis resultados de interesse dentro do conjunto de observações do experimento, e n o número total de observações do experimento.

Observe que os identificadores das variáveis não foram mudados, permanecendo s e n, pois o objetivo é que entenda que se trata do mesmo cálculo. A diferença, neste caso, é que, não sendo conhecidos os possíveis resultados, precisamos realizar experimentos para observar o comportamento dos resultados ao longo de várias repetições.

Considere que uma padaria desejava saber qual a probabilidade de que os clientes comprassem algum outro produto além do pão, para otimizar sua produção diária. Neste caso, era necessário observar o comportamento dos clientes da padaria ao longo de um período. O dono da padaria, então, passou um dia inteiro tomando nota dos produtos que cada cliente comprava, e chegou aos seguintes resultados:

  • 70 clientes entraram na loja naquele dia;
  • 14 compraram outros produtos além de pão.

De posse dessas informações, podemos então calcular a probabilidade de que um cliente da padaria compre algo além de pão, usando a fórmula:

P(A) = s ÷ n, sendo:

  • s= 14 (quantidade de clientes que compraram outros produtos); e
  • n= 70 (quantidade de clientes que foram à padaria no dia).

Temos, portanto, que P(A) = 14 ÷ 70, que resulta 0,2, ou 20% de chance que um cliente compre algo além de pão.

Há também a probabilidade do tipo subjetiva, em que não é feito nenhum cálculo, mas confia-se na experiência e conhecimento de alguém para estimar a probabilidade de algo ocorrer. É um tipo de probabilidade que não abordaremos em mais detalhes aqui, por se tratar de tema controverso e discutível do ponto de vista científico.

Podemos então resumir algumas das principais regras da probabilidade:

  • Se P(A) = 0, é possível afirmar que não há chance de ocorrer o evento A;
  • Se P(A) = 1, é possível afirmar que o evento A ocorrerá com certeza;
  • Qualquer evento tem probabilidade entre 0 e 1, não havendo a possibilidade de valor negativo ou acima de 1;
  • A soma de probabilidades para todos os resultados com elementos de um espaço de amostra é igual a 1;
  • O complemento do evento A corresponde a todas as probabilidades de resultados, dentro do espaço amostral, que não fazem parte do evento A. Assim, P(A) = 1 – P(A’), sendo A’ a representação da nãoocorrência de A.

Como podemos notar, para estes exemplos iniciais de cálculo de probabilidades, operações matemáticas simples são suficientes.

Box: Dica:

Sugerimos que construa o código em R que reúne os dados do lançamento da moeda, do dado e da experiência dos clientes visitando a padaria.

Utilize o recurso de vetores ou data frames para representar o espaço amostral e outros dados necessários aos cálculos de probabilidade, observe as operações necessárias para chegar ao resultado da probabilidade do evento, e note como as propriedades dos objetos (tamanho, posição) são úteis no processo.

Probabilidade Conjunta

As regras que acabamos de relacionar se referem à ocorrência de um evento. Entretanto, é muito comum que a probabilidade que se deseja estudar envolva mais de um evento.

Por isso é importante estudar e compreender as regras de probabilidade quando se deseja analisar mais de um evento.

Quando se trata da probabilidade conjunta de um ou mais eventos, podemos verificar três situações distintas: interseção de eventos, união de eventos e adição de eventos.

A interseção de eventos se refere à probabilidade de que dois eventos A e B ocorram simultaneamente, dada pela quantidade de vezes que os eventos ocorrem ao mesmo tempo.

Para exemplificar, vamos tomar o conjunto de dados sobre os passageiros do famoso naufrágio do Titanic.

Box: Explicando:

Importante!

Este conjunto de dados é uma amostra e não reflete com precisão as características dos passageiros e sobreviventes do naufrágio, sendo utilizado aqui apenas para fins didáticos.

> df=read.csv(“https://github.com/datasciencedojo/datasets/raw/master/titanic.csv”)

> addmargins(table(df$Sex, df$Survived))

0 1 Sum

female 81 233 314

male 468 109 577

Sum 549 342 891

Obtemos os dados, e utilizamos as funções table() e addmargins() para construir uma tabela de contingência que vai nos auxiliar a compreender os dados e calcular algumas probabilidades conjuntas. A função table() nos dá a distribuição de frequências entre sexo dos passageiros e situação de sobrevivente. E a função addmargins() complementa o conjunto com as totalizações, somando os valores e calculando os totais para os passageiros sobreviventes (342), não sobreviventes (549), do sexo feminino (314), masculino (577) e total (891).

 

Suponha que desejamos saber qual a probabilidade de um passageiro do sexo masculino sobreviver. Temos, portanto, dois eventos: A) o passageiro ter sobrevivido (valor 1 para a coluna Survived) e B) o passageiro ser do sexo masculino (male). Note que precisamos calcular a interseção entre os eventos, P(A ∩ B), pois desejamos que ambos ocorram simultaneamente.

Observe que, se calcularmos a probabilidade de um passageiro ser sobrevivente, dada pela divisão da quantidade de passageiros sobreviventes pelo total de passageiros, temos que P(A) = 342/891, que resulta aproximadamente 0,3838 ou 38,38%.

Da mesma forma, se calcularmos a probabilidade de um passageiro ser do sexo masculino, dada por P(B) = 577/891, temos aproximadamente 0,6476 ou 64,76%.

Porém, queremos o resultado da interseção entre os eventos. Para isso, temos que observar na tabela o valor que corresponde à interseção das duas condições. O valor  109 representa os passageiros do sexo masculino que sobreviveram. Assim, temos que o valor da probabilidade é P(A ∩ B) = 109/891, que resulta aproximadamente 0,1223 ou 12,23%.

Já a união de eventos trata da situação em que ocorre a combinação de eventos A ou B. Isto significa que pode ocorrer somente A, somente B ou ambos, conforme estabelece a regra da união.

Suponha que desejamos saber qual a probabilidade de um passageiro ser do sexo feminino ou ter viajado na primeira classe. Temos, portanto, dois eventos: A) o passageiro ser do sexo feminino (female) e B) o passageiro ter viajado na primeira classe. Note que precisamos calcular a união entre os eventos, pois desejamos saber a probabilidade de que um evento ou outro ocorra.

Coletamos então os dados dos passageiros e a tabela de contingência para a combinação das colunas sexo e classe.

> addmargins(table(df$Sex, df$Pclass))

1 2 3 Sum

female 94 76 144 314

male 122 108 347 577

Sum 216 184 491 891

Assim, temos que o resultado da união entre os eventos é obtido da seguinte forma:

  • Calculamos a probabilidade de um passageiro ser do sexo feminino. Esta probabilidade é dada por P(A) = 314/891 (314 mulheres sobreviveram ao naufrágio, de um total de 891 sobreviventes), e resulta aproximadamente 0,3524 ou 35,24%.
  • Calculamos então a probabilidade de um passageiro viajar na primeira classe. Neste caso, a probabilidade é dada por P(B) = 216/891, que resulta aproximadamente 0,2424 ou 24,24%.
  • Finalmente, calculamos a probabilidade de que um passageiro seja do sexo feminino ou viaje na primeira classe, calculando a união das probabilidades dos dois eventos. Para isso, precisamos somar as probabilidades dos dois eventos A e B, que resulta aproximadamente 0,89 ou 89%.
  • Porém, este cálculo não está correto. Observe que, tanto no cálculo da probabilidade do passageiro ser do sexo feminino, quanto no cálculo da probabilidade do passageiro estar na primeira classe, foi incluído na conta o valor 94, pois ele faz parte da “linha” dos passageiros do sexo feminino, e também da “coluna” dos passageiros da primeira classe, sendo contado duas vezes. Para corrigir o cálculo, basta retirar esta contagem adicional, calculando sua probabilidade, que é dada por P(A ∩ B) = 94/891, resultando 0,1092 ou 10,92%.
  • Assim, o cálculo final correto indica que a probabilidade de que um passageiro seja do sexo feminino ou viaje na primeira classe é de 78,08%. Veremos a explicação para isso a seguir.

A regra da adição de probabilidades de eventos trata das situações como a que vimos ao analisar a união de eventos, e estabelece que a probabilidade de união de dois eventos é dada por:

P(A ∪ B) = P(A) + P(B) – P(A ∩ B).

Observe que, quanto fizemos o cálculo da probabilidade de um passageiro ser do sexo feminino ou ter viajado na primeira classe do Titanic acima, usamos esta fórmula de maneira intuitiva, ao somar as probabilidades dos eventos A e B e subtrair a probabilidade da interseção P(A ∩ B).

Para compreender porque fizemos o cálculo dessa forma, precisamos definir o conceito de evento mutuamente exclusivos.

Eventos mutuamente exclusivos são aqueles em que não ocorrem simultaneamente. Não há como um passageiro ser do sexo masculino e feminino ao mesmo tempo, ou estar na primeira e terceira classes simultaneamente, por exemplo.

Assim, os eventos passageiro do sexo masculino e passageiro do sexo feminino são mutuamente exclusivos, assim como os eventos passageiro da primeira classe e passageiro da terceira classe.

Uma vez entendido este conceito, temos que a regra da adição estabelece que a probabilidade da união de dois eventos é dada pela soma das probabilidades de cada evento, subtraindo a probabilidade da interseção entre eles.

Perceba que podemos aplicar esta fórmula a qualquer tipo de evento. Porém, para eventos mutuamente exclusivos, podemos simplificá-la, da seguinte forma:

P(A ∪ B) = P(A) + P(B).

Isto porque, para eventos mutuamente exclusivos, P(A ∩ B) = 0. Ou seja, a probabilidade de ocorrência de dois eventos mutuamente exclusivos, simultaneamente, é zero. Podemos, portanto, omitir esta parte da fórmula.

Tabela de Conteúdo

  • estatistica-para-ciencia-de-dados-com-linguagem-r
    • Apresentação
    • Dedicação
    • Autor
    • resumo
  • plataformas-análise-dados-estatísticas
    • Plataformas de análise estatística de dados
  • plataforma-linguagem-r
    • A plataforma R
    • Linha de comando
    • RStudio
    • Conseguindo ajuda
    • Explorando o
    • RStudio
    • Operadores
    • Variáveis e tipos de
    • Dados
    • Objetos
    • Vetor
    • Matrizes
    • Matrizes
    • Listas
    • Quadros de dados
    • Funções
    • Estruturas de controle
  • estatística para ciência de dados
    • Introdução à Estatística para Análise de Dados
    • Visualizando e descrevendo dados quantitativos
    • Estatística Descritiva x
    • Estatística Inferencial
  • medidas-dispersão-tendência-central
    • Visualização e
      Descrição de dados quantitativos
    • Definindo variáveis quantitativas discretas e contínuas
    • Medidas de tendência central – média
    • Medidas de Tendência Central – Mediana
    • Medidas de Tendência Central – Moda
    • Outras medidas de tendência central
    • Medidas de dispersão
    • Medidas de posição relativa – quartis e percentis
    • Gráficos para variáveis quantitativas
  • associações-correlação-causalidade
    • Análise bidimensional
      Associação entre
    • variáveis qualitativas
    • Medidas de associação entre variáveis qualitativas
    • Associação entre variáveis quantitativas
    • Medidas de associação entre variáveis quantitativas
    • Associação entre variáveis qualitativas e quantitativas
    • Analisando e interpretando gráficos de dispersão
      Atribuindo funções a variáveis de plotagem de dispersão
    • Noções básicas sobre correlação
    • Condições para análise de correlação
    • Correlação e Causalidade
  • probabilidade
    • Probabilidade conjunta
    • Probabilidade
    • Condicional e Independência
    • Tabelas de contingência
    • Árvores de probabilidade
  • regra-de-bayes-distribuições-probabilidade
    • Variáveis aleatórias e
    • Distribuições de probabilidade
    • Distribuição uniforme
    • Distribuição normal
    • Teorema do limite central
    • Distribuição Exponencial
    • Distribuição Qui-Quadrado
    • Distribuição t de student
    • Distribuição F
  • testes-hipótese-análise-variância-anova
    • Introdução à Inferência Estatística
    • Distribuições e proporções de amostragem
    • Testes de Hipóteses
    • Projeto de Experimentos e Análise de Variância (ANOVA)