LIVRO GRATUITO: ESTATÍSTICA PARA CIÊNCIA DE DADOS COM LINGUAGEM R

Probabilidade Condicional e Independência

 

Considere um baralho completo de 52 cartas. Agora selecione duas cartas, sucessivamente. Sendo A = {a primeira carta sorteada é um Ás} e B = {segunda carta sorteada é um Ás}, e sabendo que há quatro ases no baralho, é natural concluir que P(A) = 4/52.

 

Suponha que viramos a primeira carta. Qual é a probabilidade de B agora? Naturalmente, a resposta depende do valor da primeira carta. Se a primeira carta é um Ás, então a probabilidade de que a segunda também seja um Ás deve ser 3/51. Se a primeira carta não é um Ás, então a probabilidade de que a segunda seja um Ás deve

ser 4/51.

 

Para representar matematicamente estas situações, temos a probabilidade condicional dada por:

P(B | A) = 3/51, e P(B | Ac) = 4/51.

 

A probabilidade condicional de B dado A, denotada P (B | A), é definida por

P(B | A) = P(A ∩ B) ÷ P(A), se P(A) > 0.

 

A probabilidade condicional está relacionada à característica de independência entre os eventos. Os eventos A e B são considerados independentes quando

P(A∩B) = P(A) * P(B)

O que isso significa na prática é que, para o caso de eventos independentes, a probabilidade condicional é igual à probabilidade do evento sem a condicional do outro evento. Dito de outra maneira, se os eventos A e B são independentes, um não interfere no outro, de forma que a probabilidade condicional de A dado B é igual à probabilidade de A, assim como a probabilidade condicional de B dado A é igual à probabilidade de B.

Vejamos o que a fórmula da probabilidade condicional nos diz quando consideramos a regra da independência dos eventos.

P(B | A) = P(A ∩ B) ÷ P(A), e

P(A∩B) = P(A) * P(B), para eventos independentes.

Temos então que P(B | A) = P(A) * P(B) ÷ P(A) = P(B).

 

De forma análoga à definição de eventos independentes, temos que, se acontecer que P(X = x, Y = y) = P(X = x) * P(Y = y), para para todos os valores x em Sx e todos os valores de y em Sy, então resulta que X e Y são variáveis aleatórias independentes. Caso contrário, temos que X e Y são variáveis dependentes. Raciocínio similar pode ser aplicado às variáveis aleatórias contínuas.

 

Para ilustrar, tomemos o exemplo do lançamento de um dado, duas vezes, sucessivamente. A rigor, poderiam ser quantas vezes desejássemos, mas duas vezes simplifica a demonstração. Para cada lançamento, a probabilidade de cair qualquer uma das faces do dado voltada para cima é a mesma: 1/6. Em suma, P(X=x) = 1/6. Considerando, claro, que o dado é justo, não viciado.

 

Se enumerarmos todas as possíveis combinações de resultados para dois lançamentos de dados, temos o espaço {(1,1),(1,2),…,(1,6),…,(6,1),(6,2),…,(6,6)}. Note que este conjunto tem 36 elementos, o que significa dizer que a probabilidade de cada uma das combinações para o resultado é de 1/36. Em suma, P(X=x,Y=y) = 1/36 para qualquer uma das combinações de valores das variáveis aleatórias X e Y, que representam o primeiro e segundo lançamento do dado, respectivamente.

 

Ao analisar cada lançamento da moeda isoladamente, vimos que P(X=x) = 1/6. Da mesma forma, P(Y = y) = 1/6. E sendo  P(X=x,Y=y) = 1/36 para qualquer valor de X e Y, resta demonstrado que  P(X=x,Y=y) = P(X = x) * P(Y = y).

 

Vejamos uma das propriedades mais importantes de variáveis independentes. Se X e Y são independentes, então Cov(X, Y) = 0 e, conseqüentemente, Corr(X, Y) = 0. Naturalmente, se duas variáveis são independentes, não há qualquer “interferência” de uma na variação da outra. Importante destacar, porém, que o contrário não é necessariamente verdadeiro. O fato de que duas variáveis possuem valor zero para covariância e correlação não implica independência entre elas.

Tabelas de Contingência

 

Uma tabela de contingência ou tabela bidirecional é uma organização de dados em que existem duas variáveis: uma variável de linha e uma variável de coluna. Os números da tabela correspondem a contagens de observações que se enquadram nas respectivas combinações de linha e coluna.


Assim, a tabela permite visualizar rapidamente a quantidade de ocorrências para cada combinação de variáveis nas linhas e colunas, como vimos na tabela de passageiros do Titanic por sexo e status de sobrevivente, e também por sexo e classe da cabine.

 

Existem, portanto, duas colunas que representam variáveis categóricas, e uma terceira coluna de frequência, que fornece as contagens para cada combinação de linha e coluna. Podemos obter uma tabela de contingência para qualquer conjunto de dados a partir de um data frame utilizando a função xtabs():

> xtabs(~ df$Pclass + df$Sex, data = df)

Sexo

Classe female male

        1 94 122

        2 76 108

        3 144 347

 

A função xtabs() pode ser usada de duas maneiras: uma indicando a coluna de frequência (quantidade de ocorrências de combinações de variáveis), caso exista; e outra sem indicar esta coluna. É necessário, em ambos os casos, informas as demais colunas a serem exibidas na tabela de contingência.

> xtabs(~ df$Pclass + df$Sex, data = df)

No exemplo acima temos o uso sem informar a coluna de frequência. Isto porque, em nosso conjunto de dados dos passageiros do Titanic, não há uma coluna de frequência, como podemos notar ao obter uma amostra dos dados usando a função head().

> head(df)

PassengerId Survived Pclass Name Sex Age SibSp Parch Ticket Fare Cabin Embarked

1 0 3 Braund, Mr. Owen Harris male 22 1 0 A/5 21171 7.2500 S

2 1 1 Cumings, Mrs. John Bradley (Florence Briggs Thayer) female 38 1 0 PC 17599 71.2833 C85 C

3 1 3 Heikkinen, Miss. Laina female 26 0 0 STON/O2. 3101282 7.9250 S

4 1 1 Futrelle, Mrs. Jacques Heath (Lily May Peel) female 35 1 0 113803 53.1000 C123 S

5 0 3 Allen, Mr. William Henry male 35 0 0 373450 8.0500 S

6 0 3 Moran, Mr. James male NA 0 0 330877 8.4583 Q

Para ilustrar o uso da função xtabs() para um conjunto de dados contendo a coluna de frequência, podemos usar o dataset do Titanic que faz parte do conjunto de pacotes da plataforma R. Este conjunto de dados tem o seguinte formato:

> head(as.data.frame(Titanic))

Class Sex Age Survived Freq

1st Male Child No 0

2nd Male Child No 0

3rd Male Child No 35

Crew Male Child No 0

1st Female Child No 0

2nd Female Child No 0

Observe que neste dataset temos uma coluna de frequência chamada “Freq”. A coluna não precisa ter este nome, mas é comum que tenha para facilitar a identificação. De toda maneira, é possível identificar uma tabela de frequência pelo seu formato característico com uma coluna de frequência e todas as combinações possíveis de variáveis nas demais colunas.

> xtabs(Freq ~ Class + Sex, data = Titanic)

Sex

Class   Male Female

  1st 180 145

  2nd 179 106

  3rd 510 196

  Crew 862 23

Observe que, neste caso, a função xtabs() tem como primeiro parâmetro a coluna de frequência do conjunto de dados, seguida por um sinal de “~”. Depois, podemos indicar um ou mais parâmetros para compor a tabela. Neste exemplo exibimos as combinações de sexo e classe da cabine. Podemos melhorar a tabela acrescentando as somas para cada linha e coluna.

> addmargins(xtabs(Freq ~ Class + Sex, data = Titanic))

Male Female Sum

1st 180 145 325

2nd 179 106 285

3rd 510 196 706

Crew 862 23 885

Sum 1731 470 2201

Temos, então uma tabela de contingência mais completa para que possamos analisar melhor os dados.

Árvores de Probabilidade

 

Muitos problemas de probabilidade podem ter sua resolução facilitada usando um recurso chamado árvore de probabilidade. Isso é especialmente verdadeiro em situações em que ações são executadas ou decisões tomadas sucessivamente. As árvores de probabilidade fornecem um método para gerar os elementos de um espaço amostral adequado e determinar suas probabilidades.

 

Árvores de probabilidade podem ser apresentadas crescendo da esquerda para a direita ou de cima para baixo. A raiz da árvore corresponde ao ponto inicial do processo, e pode ser identificado com informações da(s) variável(is) cuja probabilidade está sendo calculada.

 

Segmentos de linha que identificam as primeiras ramificações da árvore conectam a raiz aos nós que representam os diferentes resultados possíveis. Cada um dos nós dessas ramificações é conectado aos nós que representam os resultados possíveis na próxima ramificação, e o processo continua até que se chegue ao resultado final, identificado como a folha da árvore, representando a ocorrência daquela combinação de probabilidades das ramificações.

Tabela de Conteúdo

  • estatistica-para-ciencia-de-dados-com-linguagem-r
    • Apresentação
    • Dedicação
    • Autor
    • resumo
  • plataformas-análise-dados-estatísticas
    • Plataformas de análise estatística de dados
  • plataforma-linguagem-r
    • A plataforma R
    • Linha de comando
    • RStudio
    • Conseguindo ajuda
    • Explorando o
    • RStudio
    • Operadores
    • Variáveis e tipos de
    • Dados
    • Objetos
    • Vetor
    • Matrizes
    • Matrizes
    • Listas
    • Quadros de dados
    • Funções
    • Estruturas de controle
  • estatística para ciência de dados
    • Introdução à Estatística para Análise de Dados
    • Visualizando e descrevendo dados quantitativos
    • Estatística Descritiva x
    • Estatística Inferencial
  • medidas-dispersão-tendência-central
    • Visualização e
      Descrição de dados quantitativos
    • Definindo variáveis quantitativas discretas e contínuas
    • Medidas de tendência central – média
    • Medidas de Tendência Central – Mediana
    • Medidas de Tendência Central – Moda
    • Outras medidas de tendência central
    • Medidas de dispersão
    • Medidas de posição relativa – quartis e percentis
    • Gráficos para variáveis quantitativas
  • associações-correlação-causalidade
    • Análise bidimensional
      Associação entre
    • variáveis qualitativas
    • Medidas de associação entre variáveis qualitativas
    • Associação entre variáveis quantitativas
    • Medidas de associação entre variáveis quantitativas
    • Associação entre variáveis qualitativas e quantitativas
    • Analisando e interpretando gráficos de dispersão
      Atribuindo funções a variáveis de plotagem de dispersão
    • Noções básicas sobre correlação
    • Condições para análise de correlação
    • Correlação e Causalidade
  • probabilidade
    • Probabilidade conjunta
    • Probabilidade
    • Condicional e Independência
    • Tabelas de contingência
    • Árvores de probabilidade
  • regra-de-bayes-distribuições-probabilidade
    • Variáveis aleatórias e
    • Distribuições de probabilidade
    • Distribuição uniforme
    • Distribuição normal
    • Teorema do limite central
    • Distribuição Exponencial
    • Distribuição Qui-Quadrado
    • Distribuição t de student
    • Distribuição F
  • testes-hipótese-análise-variância-anova
    • Introdução à Inferência Estatística
    • Distribuições e proporções de amostragem
    • Testes de Hipóteses
    • Projeto de Experimentos e Análise de Variância (ANOVA)