LIVRO GRATUITO: ESTATÍSTICA PARA CIÊNCIA DE DADOS COM LINGUAGEM R

Distribuição t de Student

A distribuição t é uma distribuição estatística publicada por William Gosset em 1908. Seu empregador, Guinness Breweries, exigia que ele publicasse sob um pseudônimo, então ele escolheu “Student“.

Assim, a distribuição t de Student é uma distribuição de probabilidade usada para estimar os parâmetros da população quando o tamanho da amostra é pequeno e/ou quando a variância da população é desconhecida.

De acordo com o teorema central do limite, a distribuição amostral de uma estatística seguirá uma distribuição normal, desde que o tamanho da amostra seja suficientemente grande. Portanto, quando conhecemos o desvio padrão da população, podemos calcular a estatística Z e usar a distribuição normal para avaliar as probabilidades com a média da amostra.

Mas os tamanhos das amostras são às vezes pequenos e muitas vezes não sabemos o desvio padrão da população. Quando um desses problemas ocorre, a melhor alternativa é confiar na distribuição da estatística t, cujos valores são dados por:

t = (X – μ) / (s / √n)

onde X é a média da amostra, μ é a média da população, s é o desvio padrão da amostra e n é o tamanho da amostra. A distribuição da estatística t é chamada de distribuição t ou distribuição t de Student.

A distribuição t nos permite realizar análises estatísticas em determinados conjuntos de dados que não são apropriados para análise, usando a distribuição normal.

Na verdade, existem muitas distribuições t diferentes. A forma particular da curva para a distribuição t é determinada pelos seus graus de liberdade. Os graus de liberdade referem-se ao número de observações independentes em um conjunto de dados.

Ao estimar um valor médio ou uma proporção de uma única amostra, o número de observações independentes é igual ao tamanho da amostra menos um. Assim, a distribuição da estatística t para amostras de tamanho 8 é descrita por uma distribuição t com 7 graus de liberdade. Da mesma forma, uma distribuição t com 15 graus de liberdade seria usada com uma amostra de tamanho 16.

A distribuição t tem as seguintes propriedades:

  • A média da distribuição é igual a 0;
  • A variância é igual a v/(v-2), onde v corresponde aos graus de liberdade e v>2;
  • A variância é sempre maior que 1, embora seja próxima de 1 quando há muitos graus de liberdade. Com infinitos graus de liberdade, a distribuição t é igual à distribuição normal padrão.

A plataforma R oferece funções para facilitar a análise de variáveis aleatórias e verificação das propriedades através da distribuição T, entre elas as funções dt(), pt() e t.test().

Distribuição Fs

A distribuição F é a distribuição de probabilidade associada à estatística f. A estatística f é uma variável aleatória que possui uma distribuição F.

Seja uma amostra aleatória de tamanho n1 de uma população normal, com um desvio padrão igual a σ1.

Seja uma segunda amostra aleatória independente de tamanho n2 de uma população normal, com um desvio padrão igual a σ2.

A estatística f é a razão entre s12 / σ12 e s22 / σ22.

A distribuição de todos os valores possíveis da estatística f é chamada de distribuição F, com v1 = n1 – 1 e v2 = n2 – 1 graus de liberdade.

A curva da distribuição F depende dos graus de liberdade, v1 e v2. Assim, f(5,9) se refere a uma distribuição F com v1 = 5 e v2 = 9 graus de liberdade.

Propriedades da distribuição F:

  • A média da distribuição é igual a v2/ (v2 – 2) para v2 > 2;
  • A variância é igual a [2 * v22* (v1 + v1 – 2)] / [v1 * (v2 – 2)2 * (v2 – 4)], v2 > 4.

As distribuições de probabilidade são ferramentas extremamente úteis para facilitar a análise de dados tirando vantagem de suas propriedades. Porém, é importante considerar as características dos dados, com especial atenção para a sua visualização, aproveitando recursos como as funções de plotagem de gráficos da plataforma R.

Além disso, é importante, além de buscar a distribuição mais adequada para a análise dos dados, não perder de vista que há situações em que nenhuma distribuição se adequa, sendo necessário adotar abordagens alternativas ou compensar as distorções de alguma maneira.

Questões importantes devem ser consideradas na decisão: se a variável é discreta ou contínua, se os valores possuem limite inferior ou superior, se a distribuição dos dados é simétrica ou não, se o conjunto de dados é multimodal, dentre outras. De posse dessas informações, a escolha por uma distribuição tende a apresentar maior assertividade e os resultados mais confiabilidade.

Sintetizando

 

Neste capítulo aprendemos sobre métodos e técnicas estatísticas importantes para o processo de análise de dados, que fazem parte da chamada Estatística Inferencial, ferramenta importante para auxiliar na obtenção de conclusões a partir do estudo dos dados e suas características.

Iniciando pelo estudo da teoria de probabilidade, vimos que a teoria é de extrema utilidade para situações diversas em que é necessário lidar com a incerteza.

Entendemos como a relação de independência entre eventos e variáveis aleatórias afeta o cálculo de suas probabilidades, compreendendo a importância de usar as técnicas adequadas para avaliar esta relação e evitar o risco de fazer inferências incorretas.

Estudamos as ferramentas disponíveis para aplicar estas técnias, incluindo as tabelas de contingênia, árvores de probabilidade e outras.

Aprendemos sobre a relevância da regra da Bayes, largamente utilizada em vários campos da ciência e cuja utilidade já foi demonstrada através de sua aplicação em diversas soluções para problemas comuns como a detecção de SPAM.

Exploramos o conceito de variáveis aleatórias e suas características, em especial as funções de probabilidade que permitem analisar seu comportamento.

Vimos como o Teorema Central do Limite auxilia na aproximação da distribuição para uma variável aleatória quando os dados apresentam certas restrições.

Aprendemos sobre as principais distribuições de probabilidade, incluindo as distribuições Uniforme, Normal, Exponencial, Qui-Quadrado, t de Student e distribuição F.

Com o embasamento sobre a teoria das probabilidades e sua importância, esperamos que você tenha construído um conhecimento sólido que permita avaliar qualquer conjunto de dados e realizar estimativas.

Através das ferramentas estatísticas descritas para auxiliar na análise de dados, você deve ser capaz de entender as variáveis aleatórias relacionadas, suas distribuições, e assim extrair o máximo de valor e utilidade, otimizando os resultados alcançados.

Para isso, você deve tirar proveito dos principais recursos da plataforma R para lidar com probabilidades, variáveis aleatórias e suas distribuições, conforme demonstrado e exemplificado aqui.

Tabela de Conteúdo

  • estatistica-para-ciencia-de-dados-com-linguagem-r
    • Apresentação
    • Dedicação
    • Autor
    • resumo
  • plataformas-análise-dados-estatísticas
    • Plataformas de análise estatística de dados
  • plataforma-linguagem-r
    • A plataforma R
    • Linha de comando
    • RStudio
    • Conseguindo ajuda
    • Explorando o
    • RStudio
    • Operadores
    • Variáveis e tipos de
    • Dados
    • Objetos
    • Vetor
    • Matrizes
    • Matrizes
    • Listas
    • Quadros de dados
    • Funções
    • Estruturas de controle
  • estatística para ciência de dados
    • Introdução à Estatística para Análise de Dados
    • Visualizando e descrevendo dados quantitativos
    • Estatística Descritiva x
    • Estatística Inferencial
  • medidas-dispersão-tendência-central
    • Visualização e
      Descrição de dados quantitativos
    • Definindo variáveis quantitativas discretas e contínuas
    • Medidas de tendência central – média
    • Medidas de Tendência Central – Mediana
    • Medidas de Tendência Central – Moda
    • Outras medidas de tendência central
    • Medidas de dispersão
    • Medidas de posição relativa – quartis e percentis
    • Gráficos para variáveis quantitativas
  • associações-correlação-causalidade
    • Análise bidimensional
      Associação entre
    • variáveis qualitativas
    • Medidas de associação entre variáveis qualitativas
    • Associação entre variáveis quantitativas
    • Medidas de associação entre variáveis quantitativas
    • Associação entre variáveis qualitativas e quantitativas
    • Analisando e interpretando gráficos de dispersão
      Atribuindo funções a variáveis de plotagem de dispersão
    • Noções básicas sobre correlação
    • Condições para análise de correlação
    • Correlação e Causalidade
  • probabilidade
    • Probabilidade conjunta
    • Probabilidade
    • Condicional e Independência
    • Tabelas de contingência
    • Árvores de probabilidade
  • regra-de-bayes-distribuições-probabilidade
    • Variáveis aleatórias e
    • Distribuições de probabilidade
    • Distribuição uniforme
    • Distribuição normal
    • Teorema do limite central
    • Distribuição Exponencial
    • Distribuição Qui-Quadrado
    • Distribuição t de student
    • Distribuição F
  • testes-hipótese-análise-variância-anova
    • Introdução à Inferência Estatística
    • Distribuições e proporções de amostragem
    • Testes de Hipóteses
    • Projeto de Experimentos e Análise de Variância (ANOVA)