Per a un no expert, quina diferència hi ha entre els enfocaments bayesians i els més freqüentistes?


Resposta 1:

P: Quants freqüentistes cal canviar una bombeta? A: Hi ha respostes defensables diverses ...

P: Quants Bayesians triguen a canviar una bombeta? A: Tot depèn del seu client anterior!

Narrador: Sigui p una distribució de probabilitats desconeguda. Un estimador és una funció que intenta respondre a una pregunta sobre p, donat un conjunt de dades que es va fer mostreig de p.

Les estadístiques es refereixen en gran mesura al disseny i anàlisi d'estimadors ...

Freddy, el freqüentista: aquí teniu un estimador que acabo de fer! I puc demostrar que per a qualsevol p d'aquesta família de distribucions, el meu estimador "funciona bé".

Narrador: expliqueu "funciona bé" al nostre públic. És possible que agiti les mans.

Freddy (agitant les mans): independentment de quina sigui la p, el meu estimador generalment donarà respostes bastant exactes als conjunts de dades mostrats a la pàgina. Per descomptat, fallarà en el conjunt de dades no representatiu ocasional, però no s'evita la mala sort.

Basia el Bayesià: Felicitats! És òptim per "funcionar bé"? Jo sempre vull òptim.

Freddy: Oh, no hi ha cap millor estimador per aquest problema. Però almenys puc demostrar que la meva és "admissible". És a dir, algun altre estimador podria vèncer el meu estimador per alguna p, però no per a totes les p.

Bàsia: D'acord ... doncs, què passa amb les distribucions p que espereu a la pràctica? El vostre estimador s’adapta especialment a aquells?

Freddy: Qui sap què p sorgirà a la pràctica?

Aparentment, sí. Ja heu suposat que p provindrà d’una família determinada. Si no és així, el vostre estimador no té garanties.

Freddy: Està bé. Però el meu supòsit és bastant suau. Sovint, la gent té bons motius (per exemple, el teorema del límit central) per creure que la seva distribució generadora de dades prové més o menys de la meva família. Vull que el meu estimador funcioni bé sempre que p estigui en aquesta família.

Bàsia: Però obtindreu el vostre conjunt de dades real per part dels científics. No tindran una visió científica més específica sobre quina és la probabilitat de ser? Llavors, podríeu obtenir millors resultats tenint en compte això.

Freddy: Sembla sospitós. Els científics volen conclusions objectives, no conclusions que reflecteixin els seus supòsits existents.

Basia: Objectiu ?? Els antropòlegs i periodistes diuen que no hi ha cap cosa com un punt de vista objectiu: com en física, sempre aporteu el vostre propi marc de referència. El màxim que podeu fer les dades és actualitzar les vostres creences existents. No vas prestar atenció a la classe de filosofia? Els escèptics ens diuen que no hi ha manera de saber-ho amb certesa. Els existencialistes ens diuen que no podeu renunciar al vostre voluntat, tant com vulguis. Pots intentar renunciar a aquesta responsabilitat adoptant algun principi com ara la llei o la lleialtat o la religió, o el freqüentisme!

Freddy: bla, bla, bla. L’estadística és matemàtica, no filosofia.

Basia: les estadístiques són epistemologia aplicada. Vosaltres i jo seguim una conversa filosòfica antiga: com podem concloure adequadament res a partir de dades? Sí, les nostres modernes eines matemàtiques ens permeten treure conclusions precises, però només un cop fetes suposicions. Fins i tot els matemàtics han d’assumir alguns axiomes. Quan tractem dades, també hem de fer suposicions sobre d’on provenien les dades. Sense suposicions, sense conclusions. La vida xucla així.

Freddy: Però ja vaig fer una hipòtesi lleugera i vaig inventar un bon estimador. Tota la vostra derrota derrotista no m’està donant de millor.

Bàsia: No, no et donaré un estimador. Us donaré una manera de obtenir automàticament un estimador millor fent més supòsits. El vostre està garantit per funcionar força bé per a tots els membres de la família, però el meu funcionarà millor per a les pàgines típiques.

Freddy: Típic ?? Estic fent l'anàlisi dels pitjors casos. Voleu fer anàlisis de casos mitjans, doncs quin és el cas mitjà? Suposo que promedio per igual entre tots els p?

Basia: només cal que anoteu la vostra distribució prèvia a p, que reflecteixi les vostres veritables creences –abans de l’experiment– sobre on podria caure p. Si realment no esteu segurs, el vostre prior hauria de ser "pla" i tractar tots els p més o menys per igual.

Freddy: I ​​un cop heu anotat la distribució prèvia ...?

Bàsia: L estimador bayesià acabarà caient! No queda res per dissenyar. Tenint en compte un conjunt de dades, l'estimador bayesià només ponderarà el seu criteri anterior en cada hipòtesi p segons la probabilitat d'aquesta generació de conjunt de dades. Si teniu una funció de pèrdua, aleshores les decisions òptimes no seran de les noves creences, de nou sense cap disseny addicional, gràcies a la teoria de decisions bayesiana.

Freddy: decisions "òptimes" ... si creieu el prior.

Bàsia: Hola, heu admès que no teniu cap manera de triar entre els estimadors admissibles. Diferents estimadors també fan prediccions diferents.

He d’especificar el meu anterior. No tinc una manera fonamental de triar entre diferents prioritats; Només hauria de tenir una creença prèvia. Però, almenys, estic explicitat al respecte! De manera que qui llegeixi el meu article pot veure exactament el que va portar a les meves conclusions. No estic pendent amb diferents estimadors. El meu estimador insisteix a utilitzar totes les dades. Segons els principis bayesians, les dades i el precedent condueixen inexorablement a les conclusions.

Per descomptat, els meus lectors són lliures de discutir amb mi sobre si el meu anterior representa l’estat actual del coneixement científic. Podem provar com afectarien les conclusions a diferents nivells.

Narrador: Gràcies per una discussió estimulant! Això està aconseguint molt; El públic ara és lliure de sortir.

Freddy: veig que realment voleu extreure cada gota de valor fora de les dades. Però, per què intenteu definir el One True Estimator? La meva és prou bona. Puc vincular el biaix i la variació del meu estimador en funció de la mida del conjunt de dades, de manera que puc demostrar-vos que els errors grans no són molt probables en els conjunts de dades pràctics.

Com a pràctica, el meu estimador també és fàcil de calcular. De fet, així és com vaig arribar: vaig conjecturar un simple procediment raonable i després vaig demostrar que tenia bones propietats. El vostre estimador bayesià era prou fàcil per anotar-se matemàticament, però potser és un problema a les rodes per calcular, cosa que també fa difícil d'analitzar.

Basia: És just. De fet, normalment no tinc cap forma pràctica de calcular-ho exactament. He de dissenyar un algorisme o una aproximació variacional aleatoritzada. Per tant, les meves conclusions pràctiques no se'n deriven inexorablement de les dades més les anteriors. També estan afectats per l’aproximació computacional.

Però potser treure conclusions exactes a partir de dades hauria de ser intensivament computacional. El raonament científic està força implicat quan els humans ho fan. Els processos científics són complexos, la qual cosa condueix a famílies complexes de models. Els experiments científics produeixen dades heterogènies, sorolloses i incompletes.

L’enfocament bayesià gestiona tota aquesta complexitat perfectament. Una vegada dissenyat el vostre model, el bayesianisme consta d’un únic principi estadístic simple, avalat a la pràctica per una biblioteca de trucs computacionals.

Freddy: Us dono que, en aquestes situacions fantàstiques, els estimadors freqüentistes també es costarien computacionalment. També admeto que em costaria concebre un estimador per a aquesta situació (i molt menys per a moltes situacions relacionades) que tinguessin propietats freqüentment probablement bones.

Probablement recaigui en un estimador de probabilitats màximes. És com una versió reduïda del vostre estimador bayesià, per la qual cosa és almenys tan factible de calcular. I no necessita cap programa previ.

Bàsia: no estic boig per la màxima probabilitat. Ignora la informació de l’anterior. I només dóna una estimació puntual ximple en lloc de representar la incertesa posterior. Això us portarà a decisions pitjors.

Freddy: Potser potser afegiré un regulador. Independentment, l’efecte de les vostres anteriors disminueix a mesura que creix el conjunt de dades, i també fa la vostra incertesa posterior. Així, almenys, coincidirem entre nosaltres en el límit de dades infinites. I en aquest moment també estarem d’acord amb la veritat: tampoc estic boig per l’estimació de la màxima probabilitat, però almenys és consistent.

Narrador: D'acord! Genial de veure’t d’acord.

Freddy: Adéu, audiència no experta! Espero que us hagueu divertit. Ens podeu votar a la vostra sortida.

Però Basia, entre els dos, encara no comparteixo la vostra posició filosòfica sobre allò que volem d'un estimador. Deixem caure la fantasia de dades infinites. Disposarem de dades finites, de manera que volem que el risc de l’estimador disminueixi ràpidament en funció de la mida del conjunt de dades. Si estigués considerant un estimador per a un model complicat, intentaria demostrar que ho feia per a qualsevol distribució de la família. Això no requeriria cap abans.

Bàsia: Però a què es refereix "distribució a la família"? Amb models complicats, és fins i tot un concepte natural? Permeteu-me esbossar un model baesià jeràrquic bàsic:

  1. dibuixa alguns hiperparametres dels paràmetres de distribució prèvia de distribució de distribucions controlades per les dades d’hiperparametresdrac de distribucions controlades pels paràmetres

Què hi ha aquí la família?

Freddy: Aquí tractaria els hiperparametres i els paràmetres de manera diferent. Estic disposat a suposar que p té la vostra forma jeràrquica: com heu apuntat abans, acceptaré restriccions a p. Només llenço el vostre prior sobre els hiperparametres, que és una restricció suau a la pàgina. Cada paràmetre dels hiperparametres és una p de distribució diferent, així que vull dissenyar un mètode freqüentista que funcioni bé per a qualsevol configuració d’aquest tipus.

Bàsia: Però no heu llençat les distribucions que generen els paràmetres.

Freddy: Dret. Per tant, he de considerar aquests paràmetres al pas 2 com a dades que no es poden observar que es generen pel model al llarg del pas 3. Són variables “molèsties”. Aleshores, quan faig una mitjana de conjunts de dades aleatoris, també faig anàlisis de casos mitjos dels paràmetres. Però com que intento demostrar que aquesta anàlisi surt bé per a qualsevol distribució, estic fent l'anàlisi dels pitjors casos dels hiperparametres.

Bàsia: Quina és la vostra motivació per tractar aquests dos nivells de manera diferent?

Freddy: Oh, sempre distingeixo dos nivells. Hi ha un conjunt de distribucions. Per a cada distribució del conjunt, vull fer-ho bé de mitjana.

Basia: veieu aquest model jeràrquic de tres nivells i veieu un conjunt de distribucions sobre les distribucions. Mitjançant l'ús d'un precedent sobre els hiperparametres, el converteixo en una distribució per sobre de les distribucions sobre les distribucions. O de forma equivalent, una gran distribució. Així que només estic analitzant tot en el cas mitjà. No veig per què traçaries una línia especial entre els nivells 1. i 2. del meu model.

Freddy: Però no he de dibuixar allà. Puc dibuixar-lo on vulgui. Voleu llançar al màxim l'anàlisi dels pitjors casos. Però aconsegueixo barrejar anàlisis entre els pitjors casos i els casos mitjans de diferents maneres.

Quan traço la línia per sobre del nivell 1. Tot això és mitjà de majúscules i la meva anàlisi és indiscutible de la d’un Bayesian. En aquest cas, la família només conté una distribució p, que genera els hiperparametres, paràmetres i dades. Així que el meu estimador no estima les propietats de p, cosa que se sap. Es donen valors imputables de les variables de molèsties, donada p i el conjunt de dades observat.

I aquí el risc del meu estimador ja no depèn d’una tria de p. És una mitjana superior a tot, inclosos els hiperparametres.

Basia: Bé! Això és el que sempre minimitzo. El meu estimador està definit explícitament per minimitzar el risc de Bayes, és a dir, la pèrdua esperada de la predicció, segons el posterior del conjunt de dades. Com que el meu estimador minimitza el risc de Bayes per a qualsevol conjunt de dades que s’ofereixi, també minimitza el risc freqüentista de què parleu, que a més a més fa de tots els conjunts de dades possibles.

Freddy: Sí, el vostre estimador sembla una solució ideal si traço la línia per sobre del nivell 1, acceptant el vostre anterior com a part del propi model. Però es tracta d’un resultat únic, bastant feble. En triar traçar la línia en altres llocs, també arribo a formular teoremes addicionals sobre estimadors. Teoremes que contenen símbols because perquè fan l'anàlisi dels pitjors casos.

Basia: Aquest "resultat feble" és tot el que necessito a la pràctica. Els vostres teoremes addicionals són prou certs, però, com us ajuden?

Freddy: Bé, em faig més còmode recomanant als científics un estimador. Puc dir-los quines propietats conegudes té, incloent-hi diversos tipus de propietats pitjors.

Bàsia: Però un altre freqüentista pot igualment recomanar un estimador diferent, que també té bones propietats, però farà prediccions diferents.

Els vostres teoremes són només punts de conversa; confonen el tema. No necessito cap teorema per fer cap recomanació. La meva recomanació bayesiana és obtenir l'estimador directament dels vostres supòsits científics i els vostres objectius d'enginyeria. Sempre vaig a dir als científics que utilitzin una regla generalitzada de Bayes: si confien realment en el seu model i prèvia, llavors la millor predicció de les dades és la que minimitzi el risc de Bayes.

Freddy: Crec que estàs basant-te en el teorema de les classes completes. El que sentiu resol totes les estadístiques. Què feu tot el dia? Ha de ser un treball coixí.

Bàsia: Bé, ajudo els científics a formalitzar el seu model de funció prèvia i de pèrdua. Això no requereix nous teoremes estadístics, però encara hi ha matemàtiques. Pot ser que hagi de dissenyar i analitzar noves distribucions de probabilitats. També dissenyo i analitzo algoritmes per ajudar els científics a calcular la millor predicció.

Freddy: Mereixen saber si aquesta "millor predicció" serà bona. Potser hauria de fer una anàlisi freqüentista del vostre estimador bayesià.

Basia: Per què molestar? Només els advertiria del risc que Bayes tenia de la seva predicció real. Aquest número és informació molt útil perquè condiciona el seu conjunt de dades real.

La vostra anàlisi freqüentista prestaria la mateixa atenció a les distribucions p que es descarten pel seu conjunt de dades real. A qui li importa fer-ho bé? Sobretot, quan "passeu bé", significa un rendiment mitjà de molts conjunts de dades de ficció. Són irrellevants.

Freddy: Però, i si els científics encara no tenen un "conjunt de dades real"? Analitzaran molts conjunts de dades. Cal que prenguin algunes decisions prèviament. En primer lloc, haurien d’adoptar el seu programari estadístic? En segon lloc, quantes dades han de recopilar?

Es tracta, certament, de preguntes sobre el funcionament del vostre programari (o el meu) en el conjunt de dades mitjà de la mida n, per a un rang de distribucions p. Qualsevol quadre de programari ha de tenir un adhesiu "informació nutricional" amb respostes a aquestes preguntes.

Bàsia: D'acord, però aquest adhesiu no ha de centrar-se en la p. Els científics tenen un prior sobre p. El meu programari consulta el que precedeix i el vostre no. Però en cada cas, els científics volen conèixer el funcionament del programari a les distribucions escollides entre les seves prèvies. Podria estimar que per ells mostrant les distribucions i conjunts de dades dels seus anteriors.

Freddy: En principi podries. Però a la pràctica és possible que vulgueu publicar l’adhesiu abans de saber qui farà servir el programari. Els teoremes freqüents són agradables i portàtils, de la mateixa manera que les etiquetes nutricionals, estan destinades a ajudar a molts usuaris diferents que poden tenir diferents nivells.

Podem formular un estimador freqüentista sense conèixer-ne l’anterior. I podem publicar el seu pitjor risc sense saber-ne l’anterior. L'usuari sap que el risc pitjor és almenys un límit superior del seu risc mitjà, no importa com prefereixin la mitjana.

Bàsia: Crec que la vostra objecció tornarà a provocar inconvenients computacionals. Voleu idear estimadors generals i provar teoremes generals ... per evitar fer càlculs específics que us donin la millor resposta possible en la vostra situació precisa.

No és estrany que les estadístiques s’hagin centrat històricament en teoremes generals. No era computable fer més. Potser sóc Bayesià perquè vaig arribar a l'edat envoltada de poder computacional i tècniques com MCMC. Respecto la generalitat i l’elegància dels límits teòrics, en els casos senzills en què els podeu aconseguir. Però també agraeixo el treball d’aprenentatge automàtic que es centra en mesurar i maximitzar el rendiment de sistemes predictius específics, en lloc de demostrar teoremes més amplis sobre sistemes més febles.


Resposta 2:

Totes les respostes interessants i sobretot molt vàlides.

Afegeixo això:

Quan, per exemple, voleu guanyar una guerra, trobar un nou medicament, guanyar diners a la borsa, predir el clima o predir el resultat de les eleccions, la vostra millor aposta és utilitzar el plantejament bayesà.

És a dir, l’enfocament bayesià és el que realment funciona. (sempre que l’alimenteu amb els vostres millors coneixements sobre els models a utilitzar i els valors dels paràmetres).

L’explicació d’això és que l’atzar tracta sobre modelar la realitat i l’enfocament de Baysian us ofereix un millor model de poder.


Resposta 3:

Crec que d’altres han respost amb precisió a la pregunta concreta, però també afegiria que un bayesí està més alineat amb la manera en què tots processem de debò la informació nova, fins i tot si realment sou un ... freqüentista.

Dir que un conegut expert de la zona dels raigs de sol et diu que un model de predicció (algorisme) que acaba de crear diu que la sortida del sol començarà a venir molt més tard del previst. De fet, d'aquí a una setmana, espera la sortida del sol a les 8:00. La vostra reacció natural i lògica a aquesta és comprendre el coneixement existent (aquesta sortida del sol ha estat al voltant de les 6 de la matinada darrerament) i modificar les vostres expectatives de la sortida del sol de la setmana que ve.

Això ho fa tot i que el model utilitza matemàtiques de so i no trobeu cap forat de lògica a l'algorisme ni a les entrades. Teniu anys de "dades" observades que us diuen que la sortida del sol serà al voltant de les 6 del matí la setmana que ve.

Aquesta és la versió sense plantejament de l'aproximació bayesiana.

Fins i tot aquells que poden promoure una troballa en termes absoluts tenen molt probablement una creença bayesiana en el seu nucli.