LIVRO GRATUITO: ESTATÍSTICA PARA CIÊNCIA DE DADOS COM LINGUAGEM R

A Regra de Bayes

 

A regra de Bayes é um método rigoroso para interpretar evidências no contexto

de experiência ou conhecimento anterior. Foi descoberto por Thomas Bayes (c. 1701-1761), e descoberto independentemente por Pierre-Simon Laplace (1749-1827).

 

Depois de mais de dois séculos de controvérsia, durante o qual os métodos bayesianos têm sido elogiados e ridicularizados, a regra de Bayes surgiu recentemente como uma ferramenta poderosa com uma ampla gama de aplicações, que incluem: genética, lingüística, processamento de imagem, exames de imagem cerebral, cosmologia, aprendizado de máquina, epidemiologia, psicologia, ciência forense, reconhecimento de objetos, evolução, percepção visual, ecologia e outras áreas. Historicamente, métodos bayesianos foram aplicados até por Alan Turing ao problema de decodificação do código enigma alemão na Segunda Guerra Mundial.

 

A fim de compreender o funcionamento de qualquer uma de suas aplicações, precisamos entender por que a regra de Bayes é útil e como isso constitui uma base matemática para o raciocínio.

 

As regras da inferência bayesiana podem ser interpretadas como uma extensão da lógica. Muitos métodos modernos de aprendizado de máquina são baseados em princípios bayesianos.

 

A regra de Bayes nos fornece uma ferramenta para raciocinar com probabilidades condicionais. Probabilidade condicional é a probabilidade de um evento, dado que outro evento ocorreu, e ajuda a medir a correlação ou associação entre eles.

 

O teorema de Bayes também é conhecido como regra de Bayes ou lei de Bayes, sendo resultado da teoria da probabilidade que relaciona probabilidades condicionais. Se A e B denotam dois eventos, então P(A | B) denota a probabilidade condicional de A ocorrer, dado que B ocorre.

 

As duas probabilidades condicionais P(A | B) e P(B | A) em geral são diferentes. O teorema de Bayes fornece uma relação entre P(A | B) e P(B | A).

 

Uma aplicação importante do teorema de Bayes é que ele fornece uma regra sobre como atualizar ou revisar a força de uma ou mais crenças baseadas em evidências, levando em conta novas evidências obtidas a posteriori.

 

O teorema de Bayes é válido em todas as interpretações de probabilidade, e relaciona as probabilidades condicionais e marginais de eventos A e B:

P(A | B)    = P(B | A) P(A) 

P(B)

Cada termo no teorema de Bayes é definido da seguinte forma:

  • P(A) é a probabilidade prévia, também denominada probabilidade marginal de A. É “anterior”, no sentido de que não leva em conta qualquer informação sobre B;
  • P(A | B) é a probabilidade condicional de A, dado o evento B. Também é chamada de probabilidade posterior, porque é derivada ou depende do valor especificado de B;
  • P(B | A) é a probabilidade condicional de B dado o evento A.
  • P(B) é a probabilidade anterior ou marginal de B e atua como uma constante.

 

Já vimos a fórmula que expressa a regra de Bayes. No entanto, para alguns a fórmula pode parecer intimidante. Assim, podemos aprender a usar facilmente a regra de Bayes sem recorrer à fórmula, simplesmente pela aplicação de árvores de probabilidade.

 

Problemas relacionados a urnas são uma excelente ilustração da regra de Bayes. Suponha que eu tenha duas urnas, chamadas Urna 1 e Urna 2. Suponha que a Urna 1 tenha 5 bolinhas vermelhas e 5 bolinhas azuis, e a Urna II tem 2 bolinhas vermelhas e 6 bolinhas azuis.

 

Jogamos uma moeda para selecionar uma urna. Tendo selecionado uma urna, selecionamos uma bolinha sem olhar na urna. Verificamos que a bolinha que escolhemos é vermelha. Diante desse resultado, qual é a probabilidade que tenhamos escolhido a Urna 1?

 

Esta é uma típica questão bayesiana, porque temos eventos mutuamente exclusivos (escolher Urna 1 ou Urna 2); temos probabilidades condicionais claras, como P(escolher vermelho | escolheu Urna 1) e queremos inverter a probabilidade condicional: P(ter escolhido Urna 1 | escolheu bolinha vermelha)? Uma ótima ferramenta para resolver este problema é desenhar uma árvore de probabilidades.

A Regra de Bayes e Distribuições de Probabilidade Parte 1 4

Figura 14: Árvore de probabilidades das urnas (fonte própria)

Queremos encontrar a probabilidade condicional P(ter escolhido Urna 1 | escolheu bolinha vermelha). Da definição de probabilidade condicional, temos:

 

A probabilidade condicional de B dado A, denotada P (B | A), é definida por

P(B | A) = P(A ∩ B) ÷ P(A), se P(A) > 0.

Sendo A o evento de escolher uma bolinha vermelha e B o evento que consiste em escolher a Urna 1, temos:

P(B | A) = P(escolher bolinha vermelha ∩ escolher Urna 1) ÷

P(escolher bolinha vermelha)

 

Da árvore de probabilidades temos que P(escolher bolinha vermelha ∩ escolher Urna 1) = 0,25 ou 25%, e que P(escolher bolinha vermelha) = 0,25 + 0,125 = 0,375 ou 37,5%. Portanto, P(ter escolhido Urna 1 | escolheu bolinha vermelha) = 0,25 / 0,375 = 2/3. Ou seja, a probabilidade de escolhermos a Urna I é de dois terços ou 66,67%.

 

Vejamos mais alguns exemplos interessantes da aplicação da regra de Bayes.

 

Suponha que você acorda um dia com manchas por todo o rosto. Preocupado, você vai ao médico, que lhe diz que 90% das pessoas com varíola têm os mesmos sintomas que você. Em outras palavras, a probabilidade de ter estes sintomas, desde que você tenha varíola, é de 0,9 (ou seja, 90%).

 

Como a varíola costuma ser fatal, você fica aterrorizado. No entanto, depois de alguns momentos de reflexão, você percebe que não deseja saber a probabilidade de ter esses sintomas (afinal, você já sabe que tem). Em vez disso, o que você realmente quer saber é a probabilidade de você ter varíola.

 

Então você pergunta ao médico: “Sim, mas qual é a probabilidade de que eu estar com varíola, uma vez que tenho esses sintomas?”. “Ah”, diz o médico, “uma pergunta muito boa.”

 

Depois de consultar algumas informações no computador, o médico olha para você e diz: “A probabilidade de você ter varíola, dado que você tem esses sintomas, é de 0,011 ou 1,1%.”

 

Certamente não é uma boa notícia, mas soa melhor do que 90%, e (mais importante) é uma informação útil, que demonstra o contraste gritante entre a probabilidade dos sintomas dado que se tem a doença (algo que não contribui para a sua situação) e a probabilidade da doença dados os sintomas (algo relevante para encaminhar um possível tratamento).

 

Veja como a regra de Bayes transforma probabilidades que parecem úteis (mas  frequentemente não são) em probabilidades que são úteis. No exemplo acima, o médico usou a regra de Bayes para transformar a probabilidade não informativa dos seus sintomas, dado que você tem varíola, para a probabilidade informativa de você ter varíola devido aos seus sintomas.

 

Não é garantido que a inferência bayesiana forneça a resposta correta. Em vez disso, o que ela fornece é a probabilidade de que cada uma de uma série de respostas alternativas seja verdade, e estas podem ser usadas para encontrar a resposta que é muito provavelmente a verdadeira. Em outras palavras, é o que podemos chamar de palpite embasado.

 

Pode não parecer muito, mas está longe de ser adivinhação aleatória. De fato, pode-se mostrar que praticamente nenhum outro procedimento pode fornecer suposição melhor, de modo que a inferência bayesiana pode ser justificadamente interpretada como a melhor alternativa à adivinhação.

 

Para exemplificar a aplicação da regra de Bayes na plataforma R, voltemos ao exemplo das urnas. Sendo A o evento de escolher uma bolinha vermelha e B o evento que consiste em escolher a Urna 1, temos que:

  • P(A) = 0,375 ou 37,5%;
  • P(B) = 0,5 ou 50%;
  • P(A ∩ B) = 0,25 ou 25%.

Lembrando o que diz a regra de Bayes:

P(A | B)    = P(B | A) P(A) 

P(B)

Pela probabilidade condicional, temos:

P(B | A) = P(A ∩ B) ÷ P(A), se P(A) > 0.

Assim, podemos realizar os cálculos em R conforme trecho de código abaixo:

> pVERM = 0.375

> pU1 = 0.5

> pVERMeU1 = 0.25

> pU1dadoVERM = 0.25 / 0.375

> pU1dadoVERM

0.666666666666667

> pVERMdadoU1 = pU1dadoVERM * pVERM / pU1

> pVERMdadoU1

0.5

Observe que, embora não estivéssemos interessados em P(A | B), ou seja, a probabilidade de retirar uma bola vermelha dado que foi escolhida a Urna 1. Observe que não precisaríamos fazer este cálculo, pois é intuitivo que, uma vez escolhida a Urna 1, onde metade das bolinhas são vermelhas, a chance de retirar uma bolinha vermelha é 50%. O cálculo serve, portanto, para validar que a regra de Bayes é aplicável neste caso, assim como em tantos outros.

 

Note ainda que não há necessidade de utilizar pacotes ou funções especializadas para aplicar a regra de Bayes, por se tratar de cálculos matemáticos simples.

Variáveis Aleatórias e Distribuições de Probabilidade

 

Frequentemente, é útil ter um número associado ao experimento. Conduzimos um experimento aleatório E e depois de aprendermos o resultado, calculamos um número X. Ou seja, para cada resultado no espaço amostral associamos um número.

 

Uma variável aleatória X é uma função que associa a cada resultado do espaço amostral exatamente um número. Geralmente, denotamos variáveis aleatórias em letras maiúsculas, como X, Y e Z, e denotamos os valores observados por letras minúsculas x, y e z. Assim como S é o conjunto de todos os resultados possíveis de E, chamamos o conjunto de todos os valores possíveis de X de suporte de X e identificamos como SX.

Seja E o experimento de lançar uma moeda duas vezes. Temos que o espaço da amostra é S = {AA, AO, OA, OO} (sendo A correspondente ao resultado “cara” e O “coroa”). Seja a variável aleatória X correspondente ao número de vezes que o resultado foi “cara”. Isto é, por exemplo, X (AA) = 2, enquanto X (AO) = 1. Podemos fazer uma tabela das possibilidades:

Resultado ω AA AO OA OO

X(ω) = x 2 1 1 0

Tabela 1 – possibilidades de resultado ao lançar uma moeda duas vezes.

 

Ao observar a segunda linha da tabela, que demonstra a quantidade de resultados “cara”, vemos que o suporte de X (conjunto de todos os números que X assume) é SX = {0,1,2}. Em outras palavras: o resultado do lançamento de uma moeda duas vezes seguidas pode conter uma quantidade de zero, uma ou duas ocorrências de “cara”.

 

Se considerarmos o experimento E de lançar uma moeda repetidamente até observar uma “cara”. O espaço de amostra seria S = {A, OA, OOA, …}. Seja a variável aleatória Y igual ao número de “coroas” antes da primeira “cara”. Então o suporte de Y seria SY = {0,1,2,…}.

 

Seja E o experimento de jogar uma moeda no ar e seja a variável aleatória Z definida como o tempo (em segundos) até a moeda atingir o solo. Nesse caso, o espaço de amostra é inconveniente para descrever. No entanto, o suporte de Z seria (0, ∞).

 

É razoável supor que a moeda cairá no chão em um curto espaço de tempo. Na prática, o conjunto (0, ∞) é matematicamente correto, porém muito grande do ponto de vista prático para efeito de análise. Ainda assim, há circunstâncias em que é matematicamente conveniente estudar o conjunto estendido em vez de um restrito.

 

O objetivo de abordar exemplos distintos de variáveis aleatórias consiste em deixar claro que existem diferenças importantes entre os suportes das variáveis aleatórias X, Y e Z. O suporte de X é uma coleta de elementos que pode ser verificada sem maiores dificuldades. Já o suporte de Y, ainda que não possa ser exaustivamente escrito, seus elementos podem ser listados em uma sequência naturalmente ordenada.

 

Variáveis aleatórias com suportes semelhantes aos de X e Y são chamadas de variáveis aleatórias discretas. Diferentemente de Z, cujo suporte é um intervalo contínuo de números positivos dentro do conjunto dos números reais. Assim, variáveis aleatórias com suportes como o de Z são ditas contínuas.

 

Outros exemplos de variáveis aleatórias, para que você reflita sobre sua classificação:

  • O número de alunos em uma turma de um curso de estatística;
  • A pressão do ar em um pneu de automóvel;
  • A altura dos moradores do estado de São Paulo;
  • A quantidade de cavalos do motor de veículos selecionados aleatoriamente em uma rodovia;
  • O tempo que leva para completar uma avaliação do curso de estatística.

 

Uma vez compreendido o conceito de variável aleatória, precisamos explorar o conceito de distribuição de probabilidade. Uma distribuição de probabilidade é uma atribuição de probabilidades para valores específicos de uma variável aleatória discreta, ou a um intervalo de valores de uma variável contínua. Uma distribuição de probabilidade pode ser entendida como uma distribuição de frequência relativa organizada em uma tabela. Lembrando que a soma de todas as probabilidades deve ser um.

 

Para uma variável aleatória discreta x e sua probabilidade P(x):

média = valor esperado = ∑ x * P(x)

desvio padrão = √ ∑(x – µ)2 * P(x)

 

Quando a variável aleatória é dada na forma de intervalos de números, defina x igual ao ponto médio de cada intervalo. Vejamos um exemplo:

Nota Ponto médio P(x)

0-3 2 0,3

4-6 5 0,3

7-10 8,5 0,4

Tabela 2 – exemplo de distribuição de probabilidade para variável discreta.

 

Toda variável aleatória tem uma função de probabilidade, que representa a probabilidade de ocorrência de cada valor do seu espaço amostral, dentro do intervalo entre 0 e 1, naturalmente.

 

Distribuição Uniforme

 

Uma variável aleatória X com a distribuição uniforme discreta no conjunto dos números inteiros 1,2,…,m, tem função de probabilidade dada por:

fX(x) = 1 / m, para x = 1,2,…,m.

Matematicamente, isso é expressado por:

X ∼ disunif(m).

Um experimento aleatório em que ocorre essa distribuição é a escolha de um inteiro aleatoriamente entre 1 e 100, inclusive. Seja X o número escolhido. Então:

X ∼ disunif(m = 100) e P (X = x) = 1 / 100, para x = 1,…,100.

A fórmula direta para a média de X ∼ disunif (m) é dada por:

μ = (m + 1) / 2.

A demonstração matemática dessa fórmula se dá baseada na observação que, se repetidamente escolhermos um número aleatório dentro do espaço amostral, em média, o valor esperado será (m + 1) / 2.

 

Para a variância, temos σ2 = (m2 −1) / 12.

 

A título de exemplo, temos que, para um lançamento de dado: m = 6, µ = 7/2 = 3,5 e σ2 = (62 −1) / 12 = 35/12.

 

A plataforma R disponibiliza funções para facilitar os cálculos relativos aos dados que apresentam comportamento compatível com a distribuição uniforme. Duas das mais úteis são dunif() e sample(). Para escolher um inteiro simulando uma variável aleatória uniforme discreta com a função sample(), a sintaxe geral é sample(x, size, replace = TRUE).

 

O valor do argumento x indica a dimensão do tamanho da amostra e a opção replace indica se os números devem ou não ser substituídos na urna após terem sido retirados. A opção padrão é replace = FALSE, mas para uniformes discretos, os valores da amostra devem ser substituídos. Vejamos alguns exemplos:

 

Para rolar uma dado 3000 vezes, temos:

> sample(6, size = 3000, replace = TRUE)

Para escolher 27 números aleatórios de 30 a 70, temos:

> sample(30:70, size = 27, replace = TRUE)

Para lançar uma moeda justa 1000 vezes, temos:

> sample(c (“A”, “O”), size = 1000, replace = TRUE).

Tabela de Conteúdo

  • estatistica-para-ciencia-de-dados-com-linguagem-r
    • Apresentação
    • Dedicação
    • Autor
    • resumo
  • plataformas-análise-dados-estatísticas
    • Plataformas de análise estatística de dados
  • plataforma-linguagem-r
    • A plataforma R
    • Linha de comando
    • RStudio
    • Conseguindo ajuda
    • Explorando o
    • RStudio
    • Operadores
    • Variáveis e tipos de
    • Dados
    • Objetos
    • Vetor
    • Matrizes
    • Matrizes
    • Listas
    • Quadros de dados
    • Funções
    • Estruturas de controle
  • estatística para ciência de dados
    • Introdução à Estatística para Análise de Dados
    • Visualizando e descrevendo dados quantitativos
    • Estatística Descritiva x
    • Estatística Inferencial
  • medidas-dispersão-tendência-central
    • Visualização e
      Descrição de dados quantitativos
    • Definindo variáveis quantitativas discretas e contínuas
    • Medidas de tendência central – média
    • Medidas de Tendência Central – Mediana
    • Medidas de Tendência Central – Moda
    • Outras medidas de tendência central
    • Medidas de dispersão
    • Medidas de posição relativa – quartis e percentis
    • Gráficos para variáveis quantitativas
  • associações-correlação-causalidade
    • Análise bidimensional
      Associação entre
    • variáveis qualitativas
    • Medidas de associação entre variáveis qualitativas
    • Associação entre variáveis quantitativas
    • Medidas de associação entre variáveis quantitativas
    • Associação entre variáveis qualitativas e quantitativas
    • Analisando e interpretando gráficos de dispersão
      Atribuindo funções a variáveis de plotagem de dispersão
    • Noções básicas sobre correlação
    • Condições para análise de correlação
    • Correlação e Causalidade
  • probabilidade
    • Probabilidade conjunta
    • Probabilidade
    • Condicional e Independência
    • Tabelas de contingência
    • Árvores de probabilidade
  • regra-de-bayes-distribuições-probabilidade
    • Variáveis aleatórias e
    • Distribuições de probabilidade
    • Distribuição uniforme
    • Distribuição normal
    • Teorema do limite central
    • Distribuição Exponencial
    • Distribuição Qui-Quadrado
    • Distribuição t de student
    • Distribuição F
  • testes-hipótese-análise-variância-anova
    • Introdução à Inferência Estatística
    • Distribuições e proporções de amostragem
    • Testes de Hipóteses
    • Projeto de Experimentos e Análise de Variância (ANOVA)