ESTATÍSTICA BAYESIANA COMPUTACIONAL – uma introdução
Maria Antónia Amaral Turkman e Carlos Daniel Paulino
Em 1975, Dennis Lindley escreveu um artigo em Advances in Applied Probability intitulado The Future of Statistics – a Bayesian 21st Century, prevendo o predomínio, no século XXI, da abordagem bayesiana como metodologia inferencial em Estatística. Hoje pode facilmente dizer-se que Dennis Lindley acertou na sua previsão, embora não exatamente pelas razões por ele preconizadas, devido ao grande avanço registado durante a última década do século XX, da denominada Estatística Bayesiana Computacional. É certo que a “solução bayesiana” para os problemas de inferência é altamente atrativa, particularmente no que diz respeito à interpretabilidade das inferências resultantes. Contudo, na prática, a obtenção dessa solução passa dominantemente pela necessidade de calcular integrais, na maioria dos casos multidimensionais, não sendo portanto fácil, se não impossível, executá-la sem recurso ao computador. O desenvolvimento de métodos computacionais, mais ou menos sofisticados, veio mudar por completo o panorama. Hoje os métodos bayesianos são usados para resolver problemas em praticamente todas as áreas científicas, particularmente quando os processos a modelar são extremamente complexos. Contudo, a aplicação da metodologia bayesiana não pode ser feita cegamente. Apesar de existir atualmente muito software de análise bayesiana, é absolutamente necessário que se perceba o que se está a ser produzido e porquê.
O objetivo deste minicurso é precisamente o de apresentar as ideias fundamentais que estão subjacentes à formulação e análise dos modelos bayesianos, dando particular relevo a esquemas e meios computacionais que as permitem realizar.
Começa-se por apresentar uma breve resenha sobre os fundamentos da inferência bayesiana com referência às principais diferenças entre os paradigmas bayesiano e clássico. Como uma das pedras basilares da inferência bayesiana, a quantificação da informação a priori é uma questão que será também abordada nos seus aspetos essenciais, ainda que infelizmente seja tantas vezes ignorada nas aplicações. Exemplos simples serão usados para ilustrar a solução bayesiana a problemas de inferência estatística. A “grande ideia” por trás do desenvolvimento da Estatística Bayesiana Computacional é o reconhecimento de que as inferências bayesianas podem ser feitas por recurso a amostras simuladas da distribuição a posteriori. Os métodos clássicos de Monte Carlo são então apresentados como um primeiro recurso para resolver problemas computacionais com que de imediato nos deparamos, mesmo em situações uniparamétricas simples. Situações mais complexas exigem o recurso a métodos de simulação mais sofisticados, nomeadamente a métodos de Monte Carlo via cadeias de Markov (MCMC). Estes serão apresentados de um modo tão simples quanto possível. A possibilidade de recurso a estes métodos para amostrar da distribuição a posteriori, a par do desenvolvimento do software BUGS, permitiu a aplicação da metodologia bayesiana a uma grande variedade de problemas e a sua expansão a outras áreas científicas. Os avanços verificados no instrumental e tecnologias em geral têm vindo a mudar o paradigma da Estatística, havendo hoje a necessidade de lidar com quantidades massivas de dados (“Big Data Era”), muitas vezes de natureza espacial e temporal. Como consequência, simular da distribuição a posteriori em problemas com dados de natureza complexa e de grande dimensão, passou a ser um novo desafio, o qual veio acompanhado de novos e melhores métodos computacionais e do desenvolvimento de software mais adequado para ultrapassar as limitações do BUGS e seus sucessores, WinBUGS e OpenBUGS. Neste curso serão também abordados outros pacotes estatísticos que implementam métodos MCMC e suas variantes, como seja o BayesX, JAGS, STAN. Outra alternativa à simulação da distribuição a posteriori é a utilização de métodos de aproximação da distribuição a posteriori. A abordagem Integrated Nested Laplace Approximation (INLA) permite ganhos quer em tempo computacional (por vezes enormes) quer na precisão das inferências efetuadas. Embora o tipo de problemas que podem ser manejados com esta metodologia seja vasto, é bem mais limitado do que aqueles tratados por métodos de simulação estocástica. Aborda-se também neste curso aspetos relevantes da abordagem INLA com uma breve referência à programoteca do R que a implementa (R-INLA).
Para terminar, é bom recordar ainda a frase de Dennis Lindley no fim do referido artigo: Man thinks, the computer calculates: that is the basic rule. A Bayesian data package will require thoughtful specification of the model; thoughtful assessment of the initial distribution (and utility if decision is involved) followed by calculation according to the laws of probability. It will not be as easy to use as today´s packages because the user will have to think whether it is data on hogs or butterflies that he is analysing.