Inferencia bayesiana

A inferencia bayesiana é un tipo de inferencia estatística na que as evidencias ou observacións se empregan para actualizar ou inferir a probabilidade de que unha hipótese poida ser certa. O nome «bayesiana» provén do uso frecuente que se fai do teorema de Bayes durante o proceso de inferencia. O teorema de Bayes derivouse do traballo realizado polo matemático Thomas Bayes. Hoxe en día, algúns dos campos de aplicación son a teoría da decisión, visión artificial (simulación da percepción en xeral) e recoñecemento de padróns por ordenador.

Contexto inicial

A incerteza e a imprecisión son connaturais no proceso de razoamento. A lóxica establece unhas regras de inferencia a partir das que se constrúe o sistema de razoamento dedutivo, no que unha proposición determinada se considera como certa ou falsa, sen que se admitan graos entre estes dous extremos. Os métodos de razoamento aproximado, entre os que se atopan os métodos bayesianos, achegan modelos teóricos que simulan a capacidade de razoamento en condicións de incerteza, cando non se coñece con absoluta certeza a verdade ou falsidade dun enunciado ou hipótese, e imprecisión, enunciados nos que se admite un rango de variación.

Entre os métodos de razoamento aproximado atópanse os métodos bayesianos, baseados no coñecido teorema de Bayes. Todos eles teñen en común a asignación dunha probabilidade como medida da credibilidade das hipóteses. Neste contexto, a inferencia enténdese como un proceso de actualización das medidas de credibilidade ao coñecérense novas evidencias. Mediante a aplicación do teorema de Bayes búscase obter as probabilidades das hipóteses condicionadas ás evidencias que se coñecen. A diferenza entre os distintos métodos bayesianos, modelos causais e redes bayesianas, apóiase nas hipóteses de independencia condicional entre hipóteses e evidencias. Estas relacións exprésanse comunmente mediante un grafo acíclico dirixido.

Evidencia e crenzas cambiantes

A inferencia bayesiana emprega aspectos do método científico, que implica recoller evidencias que se consideran consistentes ou inconsistentes cunha hipótese dada. A medida que a evidencia se acumula, o grao de crenza nunha hipótese vaise modificando. Con evidencia suficiente, a miúdo poderá facerse moi alto ou moi baixo. Así, os que sosteñen a inferencia bayesiana din que pode ser empregada para discriminar entre hipóteses en conflito: as hipóteses cun grao de certeza moi alto deben ser aceptadas como verdadeiras e as que teñen un grao de certeza moi baixo deben ser rexeitadas como falsas. Con todo, os detractores din que este método de inferencia pode estar afectado por un nesgo debido ás crenzas iniciais que se deben soster antes de comezar a recoller calquera evidencia.

Interese da Estatística Bayesiana

Construción axiomática
Unha soa regra de decisión
A única que ofrece solución para certos problemas

Axiomas de coherencia

Comparación
Transitividade
Dominancia-Substitución
Referencia

Exemplos de inferencia

Un exemplo de inferencia bayesiana é o seguinte:

Durante miles de millóns de anos, o sol saíu despois de poñerse. O sol púxose esta noite. Hai unha probabilidade moi alta de (ou "eu creo firmemente" ou "é verdade") que o sol vai volver a saír mañá. Existe unha probabilidade moi baixa de (ou "eu non creo de ningún modo" ou "é falso") que o sol non saia mañá.

A inferencia bayesiana usa un estimador numérico do grao de crenza nunha hipótese aínda antes de observar a evidencia e calcula un estimador numérico do grao de crenza na hipótese despois de observar a evidencia. A inferencia bayesiana xeralmente baséase en graos de crenza, ou probabilidades subxectivas, no proceso de indución e non necesariamente declara prover un método obxectivo de indución.

Definicións formais

A pesar de todo, algúns estatísticos bayesianos cren que as probabilidades poden ter un valor obxectivo e polo tanto a inferencia bayesiana pode prover un método obxectivo de indución. Dada unha nova evidencia, o teorema de Bayes axusta as probabilidades da mesma da seguinte maneira:

P(H_{0}|E)={\frac {P(E|H_{0})\;P(H_{0})}{P(E)}}

onde

$H_{0}$ representa unha hipótese, chamada hipótese nula, que foi inferida antes de que a nova evidencia, $E$ , resultase dispoñible.
$P(H_{0})$ chámase probabilidade a priori de $H_{0}$ .
$P(E|H_{0})$ chámase probabilidade condicional de que se cumpra a evidencia $E$ se a hipótese $H_{0}$ é verdadeira. Chámase tamén función de verosimilitude cando se expresa como unha función de $E$ dado $H_{0}$ .
$P(E)$ chámase probabilidade marxinal de $E$ : a probabilidade de observar a nova evidencia $E$ baixo todas as hipóteses mutuamente excluíntes. Pode calcularse como a suma do produto de todas as hipóteses mutuamente excluíntes polas correspondentes probabilidades condicionais: $\sum P(E|H_{i})P(H_{i})$ .
$P(H_{0}|E)$ chámase probabilidade a posteriori de $H_{0}$ dado $E$ .

O factor $P(E|H_{0})/P(E)$ representa o impacto que a evidencia ten na crenza na hipótese. Se é posible que se observe a evidencia cando a hipótese considerada é verdadeira, entón este factor vai ser grande. Multiplicando a probabilidade a priori da hipótese por este factor vai resultar nunha gran probabilidade a posteriori dada a evidencia. Na inferencia bayesiana, polo tanto, o teorema de Bayes mide canto é capaz a nova evidencia de alterar a crenza na hipótese.

Establecemento da inferencia

Os estatísticos bayesianos sosteñen que mesmo cando distintas persoas poidan propor probabilidades a priori moi diferentes, a nova evidencia que xorde de novas observacións vai lograr que as probabilidades subxectivas se aproximen cada vez máis. Outros, con todo, sosteñen que cando distintas persoas propoñen probabilidades a priori moi diferentes, as probabilidades subxectivas a posteriori poden non converxer nunca, por máis evidencias novas que se recollan. Estes críticos consideran que visións do mundo que son completamente diferentes ao principio poden seguir sendo completamente diferentes a través do tempo por máis evidencias que se acumulen.

Multiplicando a probabilidade anterior $P(H_{0})$ polo factor $P(E|H_{0})/P(E)$ nunca se poderá obter unha probabilidade superior a 1. Xa que $P(E)$ é polo menos maior que $P(E\cap H_{0})$ , o que permite a igualdade $P(E|H_{0})\cdot P(H_{0})$ , substituíndo $P(E)$ con $P(E\cap H_{0})$ no factor $P(E|H_{0})/P(E)$ isto deixará unha probabilidade posterior de 1. Polo tanto, a probabilidade posterior non chegará a ser maior que un só se $P(E)$ fose menor que $P(E\cap H_{0})$ , o que nunca é certo.

A probabilidade de $E$ dado $H_{0}$ , $P(E|H_{0})$ , pode representarse como unha función do seu segundo argumento, o que pode facerse propocionando un valor. Tal función denomínase función de verosimilitude; é función de H_0 dado E. Unha proporción de dúas funcións de verosimilitude que se denomina proporción de verosimilitude, $\Lambda$ . Por exemplo:

\Lambda ={\frac {L(H_{0}|E)}{L(\mathrm {not} \,H_{0}|E)}}={\frac {P(E|H_{0})}{P(E|\mathrm {not} \,H_{0})}}

A probabilidade marxinal P(E), pode ser representada ademais como a suma dos produtos de todas as probabilidades das hipóteses exclusivas mutuamente e que corresponden a probabildades condicionais: $P(E|H_{0})P(H_{0})+P(E|\mathrm {not} \,H_{0})P(\mathrm {not} \,H_{0})$ .

Como resultado, pódese reescribir o teorema de Bayes como:

P(H_{0}|E)={\frac {P(E|H_{0})P(H_{0})}{P(E|H_{0})P(H_{0})+P(E|\mathrm {not} \,H_{0})P(\mathrm {not} \,H_{0})}}={\frac {\Lambda P(H_{0})}{\Lambda P(H_{0})+P(\mathrm {not} \,H_{0})}}

Con dúas evidencias independentes $E_{1}$ e $E_{2}$ , a inferencia bayesiana pódese aplicar iterativamente. Pódese empregar a primeira evidencia para calcular a primeira probabilidade posterior e empregar esta no cálculo da seguinte probabilidade e continuar desta forma coas demais.

A independencia de evidencias implica que:

P(E_{1},E_{2}|H_{0})=P(E_{1}|H_{0})\times P(E_{2}|H_{0})

P(E_{1},E_{2})=P(E_{1})\times P(E_{2})

P(E_{1},E_{2}|\mathrm {not} \,H_{0})=P(E_{1}|\mathrm {not} \,H_{0})\times P(E_{2}|\mathrm {not} \,H_{0})

Aplicando o teorema de Bayes de forma iterativa, implica

P(H_{0}|E_{1},E_{2})={\frac {P(E_{1}|H_{0})\times P(E_{2}|H_{0})\;P(H_{0})}{P(E_{1})\times P(E_{2})}}

Empregando os cocientes de verosimilitude, pódese atopar que

,

P(H_{0}|E_{1},E_{2})={\frac {\Lambda _{1}\Lambda _{2}P(H_{0})}{[\Lambda _{1}P(H_{0})+P(\mathrm {not} \,H_{0})][\Lambda _{2}P(H_{0})+P(\mathrm {not} \,H_{0})]}}

Esta iteración da inferencia bayesiana pode expandirse coa inclusión de máis evidencias. A inferencia bayesiana emprégase no cálculo de probabilidades na toma de decisións. Empréganse nas probabilidades calculadas na teoría de cálculo de riscos, na denominada función de perda que reflicte as consecuencias de cometer un erro.

Véxase tamén

Bibliografía

Berger, J.Ou. (1999) Statistical Decision Theory and Bayesian Analysis. Second Edition. Springer Verlag, Nova York. ISBN 0-387-96098-8 e tamén ISBN 3-540-96098-8.
Bolstad, William M. (2004) Introduction to Bayesian Statistics, John Wiley ISBN 0-471-27020-2
Bretthorst, G. Larry, 1988, Bayesian Spectrum Analysis and Parameter Estimation in Lecture Notes in Statistics, 48, Springer-Verlag, Nova York, Nova York
Dawid, A.P. e Mortera, J. (1996) Coherent analysis of forensic identification evidence. Journal of the Royal Statistical Society, Series B, 58,425-443.
Foreman, L.A; Smith, A.F.M. e Evett, I.W. (1997). Bayesian analysis of deoxyribonucleic acid profiling data in forensic identification applications (with discussion). Journal of the Royal Statistical Society, Series A, 160, 429-469.
Gardner-Medwin, A. What probability should the jury address?. Significance. Volume 2, Número 1, marzo de 2005.
Gelman, A., Carlin, B., Stern, H., e Rubin, D.B. (2003). Bayesian Data Analysis. Segunda edición. Chapman & Hall/CRD, Boca Raton, Florida. ISBN 1-58488-388-X.
Gelman, A. e Meng, X.L. (2004). Applied Bayesian Modeling and Causal Inference from Incomplete-Data Perspectives: an essential journey with Donald Rubin's statistical family. John Wiley & Sons, Chichester, UK. ISBN 0-470-09043-X
Giffin, A. e Caticha, A. (2007) Updating Probabilities with Data and Moments
Jaynes, E.T. (1998) Probability Theory: The Logic of Science.[1]
Le, Peter M. Bayesian Statistics: An Introduction. Second Edition. (1997). ISBN 0-340-67785-6.
Ou'Fagan, A. e Forster, J. (2003) Kendall's Advanced Theory of Statistics, Volume 2B: Bayesian Inference. Arnold, Nova York. ISBN 0-340-52922-9.
Pearl, J. (1988) Probabilistic Reasoning in Intelligent Systems, San Mateo, CA: Morgan Kaufmann.
Robert, C.P. (2001) The Bayesian Choice. Springer Verlag, Nova York.
Robertson, B. e Vignaux, G.A. (1995) Interpreting Evidence: Evaluating Forensic Science in the Courtroom. John Wiley e Sons. Chichester.
Winkler, Robert L, Introduction to Bayesian Inference and Decision, 2nd Edition (2003) Probabilistic. ISBN 0-9647938-4-9

Outros artigos