A regra de Bayes é um método rigoroso para interpretar evidências no contexto
de experiência ou conhecimento anterior. Foi descoberto por Thomas Bayes (c. 1701-1761), e descoberto independentemente por Pierre-Simon Laplace (1749-1827).
Depois de mais de dois séculos de controvérsia, durante o qual os métodos bayesianos têm sido elogiados e ridicularizados, a regra de Bayes surgiu recentemente como uma ferramenta poderosa com uma ampla gama de aplicações, que incluem: genética, lingüística, processamento de imagem, exames de imagem cerebral, cosmologia, aprendizado de máquina, epidemiologia, psicologia, ciência forense, reconhecimento de objetos, evolução, percepção visual, ecologia e outras áreas. Historicamente, métodos bayesianos foram aplicados até por Alan Turing ao problema de decodificação do código enigma alemão na Segunda Guerra Mundial.
A fim de compreender o funcionamento de qualquer uma de suas aplicações, precisamos entender por que a regra de Bayes é útil e como isso constitui uma base matemática para o raciocínio.
As regras da inferência bayesiana podem ser interpretadas como uma extensão da lógica. Muitos métodos modernos de aprendizado de máquina são baseados em princípios bayesianos.
A regra de Bayes nos fornece uma ferramenta para raciocinar com probabilidades condicionais. Probabilidade condicional é a probabilidade de um evento, dado que outro evento ocorreu, e ajuda a medir a correlação ou associação entre eles.
O teorema de Bayes também é conhecido como regra de Bayes ou lei de Bayes, sendo resultado da teoria da probabilidade que relaciona probabilidades condicionais. Se A e B denotam dois eventos, então P(A | B) denota a probabilidade condicional de A ocorrer, dado que B ocorre.
As duas probabilidades condicionais P(A | B) e P(B | A) em geral são diferentes. O teorema de Bayes fornece uma relação entre P(A | B) e P(B | A).
Uma aplicação importante do teorema de Bayes é que ele fornece uma regra sobre como atualizar ou revisar a força de uma ou mais crenças baseadas em evidências, levando em conta novas evidências obtidas a posteriori.
O teorema de Bayes é válido em todas as interpretações de probabilidade, e relaciona as probabilidades condicionais e marginais de eventos A e B:
P(A | B) = P(B | A) P(A)
P(B)
Cada termo no teorema de Bayes é definido da seguinte forma:
Já vimos a fórmula que expressa a regra de Bayes. No entanto, para alguns a fórmula pode parecer intimidante. Assim, podemos aprender a usar facilmente a regra de Bayes sem recorrer à fórmula, simplesmente pela aplicação de árvores de probabilidade.
Problemas relacionados a urnas são uma excelente ilustração da regra de Bayes. Suponha que eu tenha duas urnas, chamadas Urna 1 e Urna 2. Suponha que a Urna 1 tenha 5 bolinhas vermelhas e 5 bolinhas azuis, e a Urna II tem 2 bolinhas vermelhas e 6 bolinhas azuis.
Jogamos uma moeda para selecionar uma urna. Tendo selecionado uma urna, selecionamos uma bolinha sem olhar na urna. Verificamos que a bolinha que escolhemos é vermelha. Diante desse resultado, qual é a probabilidade que tenhamos escolhido a Urna 1?
Esta é uma típica questão bayesiana, porque temos eventos mutuamente exclusivos (escolher Urna 1 ou Urna 2); temos probabilidades condicionais claras, como P(escolher vermelho | escolheu Urna 1) e queremos inverter a probabilidade condicional: P(ter escolhido Urna 1 | escolheu bolinha vermelha)? Uma ótima ferramenta para resolver este problema é desenhar uma árvore de probabilidades.
Figura 14: Árvore de probabilidades das urnas (fonte própria)
Queremos encontrar a probabilidade condicional P(ter escolhido Urna 1 | escolheu bolinha vermelha). Da definição de probabilidade condicional, temos:
A probabilidade condicional de B dado A, denotada P (B | A), é definida por
P(B | A) = P(A ∩ B) ÷ P(A), se P(A) > 0.
Sendo A o evento de escolher uma bolinha vermelha e B o evento que consiste em escolher a Urna 1, temos:
P(B | A) = P(escolher bolinha vermelha ∩ escolher Urna 1) ÷
P(escolher bolinha vermelha)
Da árvore de probabilidades temos que P(escolher bolinha vermelha ∩ escolher Urna 1) = 0,25 ou 25%, e que P(escolher bolinha vermelha) = 0,25 + 0,125 = 0,375 ou 37,5%. Portanto, P(ter escolhido Urna 1 | escolheu bolinha vermelha) = 0,25 / 0,375 = 2/3. Ou seja, a probabilidade de escolhermos a Urna I é de dois terços ou 66,67%.
Vejamos mais alguns exemplos interessantes da aplicação da regra de Bayes.
Suponha que você acorda um dia com manchas por todo o rosto. Preocupado, você vai ao médico, que lhe diz que 90% das pessoas com varíola têm os mesmos sintomas que você. Em outras palavras, a probabilidade de ter estes sintomas, desde que você tenha varíola, é de 0,9 (ou seja, 90%).
Como a varíola costuma ser fatal, você fica aterrorizado. No entanto, depois de alguns momentos de reflexão, você percebe que não deseja saber a probabilidade de ter esses sintomas (afinal, você já sabe que tem). Em vez disso, o que você realmente quer saber é a probabilidade de você ter varíola.
Então você pergunta ao médico: “Sim, mas qual é a probabilidade de que eu estar com varíola, uma vez que tenho esses sintomas?”. “Ah”, diz o médico, “uma pergunta muito boa.”
Depois de consultar algumas informações no computador, o médico olha para você e diz: “A probabilidade de você ter varíola, dado que você tem esses sintomas, é de 0,011 ou 1,1%.”
Certamente não é uma boa notícia, mas soa melhor do que 90%, e (mais importante) é uma informação útil, que demonstra o contraste gritante entre a probabilidade dos sintomas dado que se tem a doença (algo que não contribui para a sua situação) e a probabilidade da doença dados os sintomas (algo relevante para encaminhar um possível tratamento).
Veja como a regra de Bayes transforma probabilidades que parecem úteis (mas frequentemente não são) em probabilidades que são úteis. No exemplo acima, o médico usou a regra de Bayes para transformar a probabilidade não informativa dos seus sintomas, dado que você tem varíola, para a probabilidade informativa de você ter varíola devido aos seus sintomas.
Não é garantido que a inferência bayesiana forneça a resposta correta. Em vez disso, o que ela fornece é a probabilidade de que cada uma de uma série de respostas alternativas seja verdade, e estas podem ser usadas para encontrar a resposta que é muito provavelmente a verdadeira. Em outras palavras, é o que podemos chamar de palpite embasado.
Pode não parecer muito, mas está longe de ser adivinhação aleatória. De fato, pode-se mostrar que praticamente nenhum outro procedimento pode fornecer suposição melhor, de modo que a inferência bayesiana pode ser justificadamente interpretada como a melhor alternativa à adivinhação.
Para exemplificar a aplicação da regra de Bayes na plataforma R, voltemos ao exemplo das urnas. Sendo A o evento de escolher uma bolinha vermelha e B o evento que consiste em escolher a Urna 1, temos que:
Lembrando o que diz a regra de Bayes:
P(A | B) = P(B | A) P(A)
P(B)
Pela probabilidade condicional, temos:
P(B | A) = P(A ∩ B) ÷ P(A), se P(A) > 0.
Assim, podemos realizar os cálculos em R conforme trecho de código abaixo:
> pVERM = 0.375
> pU1 = 0.5
> pVERMeU1 = 0.25
> pU1dadoVERM = 0.25 / 0.375
> pU1dadoVERM
0.666666666666667
> pVERMdadoU1 = pU1dadoVERM * pVERM / pU1
> pVERMdadoU1
0.5
Observe que, embora não estivéssemos interessados em P(A | B), ou seja, a probabilidade de retirar uma bola vermelha dado que foi escolhida a Urna 1. Observe que não precisaríamos fazer este cálculo, pois é intuitivo que, uma vez escolhida a Urna 1, onde metade das bolinhas são vermelhas, a chance de retirar uma bolinha vermelha é 50%. O cálculo serve, portanto, para validar que a regra de Bayes é aplicável neste caso, assim como em tantos outros.
Note ainda que não há necessidade de utilizar pacotes ou funções especializadas para aplicar a regra de Bayes, por se tratar de cálculos matemáticos simples.
Frequentemente, é útil ter um número associado ao experimento. Conduzimos um experimento aleatório E e depois de aprendermos o resultado, calculamos um número X. Ou seja, para cada resultado no espaço amostral associamos um número.
Uma variável aleatória X é uma função que associa a cada resultado do espaço amostral exatamente um número. Geralmente, denotamos variáveis aleatórias em letras maiúsculas, como X, Y e Z, e denotamos os valores observados por letras minúsculas x, y e z. Assim como S é o conjunto de todos os resultados possíveis de E, chamamos o conjunto de todos os valores possíveis de X de suporte de X e identificamos como SX.
Seja E o experimento de lançar uma moeda duas vezes. Temos que o espaço da amostra é S = {AA, AO, OA, OO} (sendo A correspondente ao resultado “cara” e O “coroa”). Seja a variável aleatória X correspondente ao número de vezes que o resultado foi “cara”. Isto é, por exemplo, X (AA) = 2, enquanto X (AO) = 1. Podemos fazer uma tabela das possibilidades:
Resultado ω AA AO OA OO
X(ω) = x 2 1 1 0
Tabela 1 – possibilidades de resultado ao lançar uma moeda duas vezes.
Ao observar a segunda linha da tabela, que demonstra a quantidade de resultados “cara”, vemos que o suporte de X (conjunto de todos os números que X assume) é SX = {0,1,2}. Em outras palavras: o resultado do lançamento de uma moeda duas vezes seguidas pode conter uma quantidade de zero, uma ou duas ocorrências de “cara”.
Se considerarmos o experimento E de lançar uma moeda repetidamente até observar uma “cara”. O espaço de amostra seria S = {A, OA, OOA, …}. Seja a variável aleatória Y igual ao número de “coroas” antes da primeira “cara”. Então o suporte de Y seria SY = {0,1,2,…}.
Seja E o experimento de jogar uma moeda no ar e seja a variável aleatória Z definida como o tempo (em segundos) até a moeda atingir o solo. Nesse caso, o espaço de amostra é inconveniente para descrever. No entanto, o suporte de Z seria (0, ∞).
É razoável supor que a moeda cairá no chão em um curto espaço de tempo. Na prática, o conjunto (0, ∞) é matematicamente correto, porém muito grande do ponto de vista prático para efeito de análise. Ainda assim, há circunstâncias em que é matematicamente conveniente estudar o conjunto estendido em vez de um restrito.
O objetivo de abordar exemplos distintos de variáveis aleatórias consiste em deixar claro que existem diferenças importantes entre os suportes das variáveis aleatórias X, Y e Z. O suporte de X é uma coleta de elementos que pode ser verificada sem maiores dificuldades. Já o suporte de Y, ainda que não possa ser exaustivamente escrito, seus elementos podem ser listados em uma sequência naturalmente ordenada.
Variáveis aleatórias com suportes semelhantes aos de X e Y são chamadas de variáveis aleatórias discretas. Diferentemente de Z, cujo suporte é um intervalo contínuo de números positivos dentro do conjunto dos números reais. Assim, variáveis aleatórias com suportes como o de Z são ditas contínuas.
Outros exemplos de variáveis aleatórias, para que você reflita sobre sua classificação:
Uma vez compreendido o conceito de variável aleatória, precisamos explorar o conceito de distribuição de probabilidade. Uma distribuição de probabilidade é uma atribuição de probabilidades para valores específicos de uma variável aleatória discreta, ou a um intervalo de valores de uma variável contínua. Uma distribuição de probabilidade pode ser entendida como uma distribuição de frequência relativa organizada em uma tabela. Lembrando que a soma de todas as probabilidades deve ser um.
Para uma variável aleatória discreta x e sua probabilidade P(x):
média = valor esperado = ∑ x * P(x)
desvio padrão = √ ∑(x – µ)2 * P(x)
Quando a variável aleatória é dada na forma de intervalos de números, defina x igual ao ponto médio de cada intervalo. Vejamos um exemplo:
Nota Ponto médio P(x)
0-3 2 0,3
4-6 5 0,3
7-10 8,5 0,4
Tabela 2 – exemplo de distribuição de probabilidade para variável discreta.
Toda variável aleatória tem uma função de probabilidade, que representa a probabilidade de ocorrência de cada valor do seu espaço amostral, dentro do intervalo entre 0 e 1, naturalmente.
Uma variável aleatória X com a distribuição uniforme discreta no conjunto dos números inteiros 1,2,…,m, tem função de probabilidade dada por:
fX(x) = 1 / m, para x = 1,2,…,m.
Matematicamente, isso é expressado por:
X ∼ disunif(m).
Um experimento aleatório em que ocorre essa distribuição é a escolha de um inteiro aleatoriamente entre 1 e 100, inclusive. Seja X o número escolhido. Então:
X ∼ disunif(m = 100) e P (X = x) = 1 / 100, para x = 1,…,100.
A fórmula direta para a média de X ∼ disunif (m) é dada por:
μ = (m + 1) / 2.
A demonstração matemática dessa fórmula se dá baseada na observação que, se repetidamente escolhermos um número aleatório dentro do espaço amostral, em média, o valor esperado será (m + 1) / 2.
Para a variância, temos σ2 = (m2 −1) / 12.
A título de exemplo, temos que, para um lançamento de dado: m = 6, µ = 7/2 = 3,5 e σ2 = (62 −1) / 12 = 35/12.
A plataforma R disponibiliza funções para facilitar os cálculos relativos aos dados que apresentam comportamento compatível com a distribuição uniforme. Duas das mais úteis são dunif() e sample(). Para escolher um inteiro simulando uma variável aleatória uniforme discreta com a função sample(), a sintaxe geral é sample(x, size, replace = TRUE).
O valor do argumento x indica a dimensão do tamanho da amostra e a opção replace indica se os números devem ou não ser substituídos na urna após terem sido retirados. A opção padrão é replace = FALSE, mas para uniformes discretos, os valores da amostra devem ser substituídos. Vejamos alguns exemplos:
Para rolar uma dado 3000 vezes, temos:
> sample(6, size = 3000, replace = TRUE)
Para escolher 27 números aleatórios de 30 a 70, temos:
> sample(30:70, size = 27, replace = TRUE)
Para lançar uma moeda justa 1000 vezes, temos:
> sample(c (“A”, “O”), size = 1000, replace = TRUE).
Tabela de Conteúdo