Les bookmarks de ClemShaared links2021-11-23T12:09:25+01:00http://caloine.ouvaton.org/shaarli/http://caloine.ouvaton.org/shaarli/http://caloine.ouvaton.org/shaarli/ShaarliRestarting NIMBLE MCMChttp://caloine.ouvaton.org/shaarli/?dYynZA2021-11-23T12:09:25+01:002021-11-23T12:09:25+01:00— Permalink]]>Rank-normalized split-Rhat and effective sample sizehttp://caloine.ouvaton.org/shaarli/?Rmfwrw2019-03-04T17:21:47+01:002019-03-04T17:21:47+01:00— Permalink]]>Subjectivity in statisticshttp://caloine.ouvaton.org/shaarli/?BpnYaQ2016-12-16T09:49:56+01:002016-12-16T09:49:56+01:00
"Bayesian methods can in many ways be more “objective” than conventional approaches in that Bayesian inference, with its smoothing and partial pooling, is well adapted to including diverse sources of information and thus can reduce the number of data coding or data exclusion choice points in an analysis."
Illustré par John Cook: si je dois prendre une décision concernant un problème (e.g. autoriser telle ou telle décision politique), et trop peu d'individus pour une analyse fréquentiste. La décision sera alors prise complètement subjectivement. Le bayésien permet de tirer parti du minimum d'individus dont on dispose. Ça reste subjectif car la prior va avoir un poids important, mais moins que l'approche alternative.
— Permalink]]>» GAM splines now easy in JAGS and OpenBUGS. An example on 2D spatial datahttp://caloine.ouvaton.org/shaarli/?IlPXTg2016-05-04T21:23:09+02:002016-05-04T21:23:09+02:00— Permalink]]>[1511.02644] Approximate methods for dynamic ecological modelshttp://caloine.ouvaton.org/shaarli/?OQFnfA2015-11-11T09:43:52+01:002015-11-11T09:43:52+01:00— Permalink]]>Variables cachées estimées à titre informatif par MCMC: Faut pas. Mais alors vraiment pas.http://caloine.ouvaton.org/shaarli/?zSX35Q2015-10-09T13:18:15+02:002015-10-09T13:18:15+02:00
Quand on ajuste un modèle par MCMC avec un sampler de Gibbs (JAGS, Winbugs, etc.), toutes les variables pour lesquelles on va générer des valeurs jouent sur le comportement du sampler.
Ça a l'air évident à dire, mais je viens de me faire avoir comme un bleu en oubliant ça.
Je cherchais à ajuster un modèle estimant des limites de populations, avec estimation de probabilités de migration d'une pop à l'autre. Et je m'étais dit, tiens, ben comme j'ai tous les éléments nécessaires, pour chaque individu de mon échantillon, je vais échantillonner une appartenance de l'individu à une population dans la posterior. Pour chaque individu, je considère cette appartenance comme une variable cachée n'ayant aucune influence sur mon estimation. Cette appartenance dépend des paramètres estimés, du coup, à chaque itération, je génère une valeur et comme ça à la fin, j'ai déjà les dépendances dont je peux me servir directement à titre exploratoire.
Et j'avais pas pensé que ça marche aussi dans l'autre sens: le sampler de Gibbs, quand il va sampler dans la postérior conditionnelle pour les limites de population, il va le faire conditionnellement aux appartenances des individus à une population à l'itération t. Donc pour modifier une limite de population, il faut simultanément modifier les paramètres qui contrôlent cette limite ET les appartenance de tous les individus "frontaliers" concerné (changer leur "nationalité"). Or, la question du simultané avec un sampler de Gibbs, c'est très compliqué...
Résultat: mélange franchement dégueulasse, et résultat inutilisable.
Bon ben je le saurai pour la prochaine fois. Conclusion évidente toujours bonne à rappeler: On ne met dans le modèle à ajuster que les paramètres que l'on souhaite ajuster. Et rien d'autre.
— Permalink]]>STAN et les paramètres entiershttp://caloine.ouvaton.org/shaarli/?qWoCMg2015-09-16T16:00:49+02:002015-09-16T16:00:49+02:00
Edit: le manuel de Stan, section 11.3, évoque les modèles de CMR. Il présente deux cas de figure:
* l'estimateur de Lincoln-Petersen de la taille de population N à partir d'animaux marqués à une première occasion de capture, puis recapturés à une deuxième occasion. Dans ce cas, on peut traiter le modèle en prenant N comme paramètre continu.
* le modèle de Cormack-Jolly-Seber, dans lequel on a une variable latente z_i(t) pour chaque animal i qui prend la valeur 1 si l'animal est vivant au temps t et 0 sinon. Pour pouvoir ajuster ce modèle, il faut marginaliser pour se débarrasser du paramètre.
Oui, donc Stan, uniquement quand on a des paramètres continus (éviter les variables latentes discrètes genre effectif réel non observé).
— Permalink]]>The publication of one of my pet ideas: Simulation-efficient shortest probability intervals - Statistical Modeling, Causal Inference, and Social Science Statistical Modeling, Causal Inference, and Social Sciencehttp://caloine.ouvaton.org/shaarli/?igmJHw2015-03-30T14:54:39+02:002015-03-30T14:54:39+02:00— Permalink]]>Doing Bayesian Data Analysis: Why to use highest density intervals instead of equal tailed intervalshttp://caloine.ouvaton.org/shaarli/?HwLjUg2015-03-30T14:23:01+02:002015-03-30T14:23:01+02:00
Une meilleure approche consiste à rechercher la valeur k telle que l'intégrale de P(x|theta) sur les valeurs de x telles que P(x|theta)>k = 1-alpha. Alors, l'intervalle crédible "highest posterior density intervals" consiste à l'ensemble des x tels que P(x|theta)>k. L'avantage de cette approche est qu'elle renvoie les intervalles les plus petits. En outre, elle contient le mode de la distribution, ce qui n'est pas forcément le cas de la méthode par les quantiles (qui elle incluera nécessairement la médiane). Voir p. 38 du Gelman et al.
Edit: pas si évident que ce soit la meilleure approche. Dans certains cas, en gestion de la faune par exemple, le fait de disposer d'IC basés sur des quantiles pourrait être jugé comme plus juste par les différentes parties. Comme les distributions à postériori sur les effectifs dans des sites sont souvent asymétriques, utiliser des HPD consisterait à systématiquement inclure 0 dans l'estimation, et du coup à diminuer la borne supérieure de l'intervalle. Autrement dit, on concevrait certes l'intervalle le plus court possible tel que la probabilité de trouver la vraie valeur soit de 95%, mais on aurait 0% de chances d'avoir une vraie valeur inférieure à la borne inférieure de l'IC, et tout le risque serait situé du côté des fortes valeurs. Quand on a deux parties qui se tapent dessus concernant les effectifs, une telle décision peut être vue comme un parti pris en faveur de ceux qui pensent qu'il n'y en a pas assez. À garder en tête quand même dans ce choix.
— Permalink]]>Probably Overthinking It: Bayesian survival analysis for "Game of Thrones"http://caloine.ouvaton.org/shaarli/?0P33XA2015-03-27T09:28:41+01:002015-03-27T09:28:41+01:00— Permalink]]>Introducing shinyStan - Statistical Modeling, Causal Inference Statistical Modeling, Causal Inference, and Social Sciencehttp://caloine.ouvaton.org/shaarli/?zdk3Zw2015-03-03T11:34:33+01:002015-03-03T11:34:33+01:00
À suivre de près.
— Permalink]]>Bayesian Cognitive Modeling | A Practical Coursehttp://caloine.ouvaton.org/shaarli/?AaQzwA2014-12-10T09:19:44+01:002014-12-10T09:19:44+01:00— Permalink]]>insufficient statistics for ABC model choice | Xi'an's Oghttp://caloine.ouvaton.org/shaarli/?P2xgIQ2014-10-17T09:37:29+02:002014-10-17T09:37:29+02:00— Permalink]]>Bayesian parameter estimation is not quite the same thing as Bayesian prediction - Statistical Modeling, Causal Inference, and Social Science Statistical Modeling, Causal Inference, and Social Sciencehttp://caloine.ouvaton.org/shaarli/?DSse0w2014-09-23T15:09:31+02:002014-09-23T15:09:31+02:00
Considérons le problème consistant à *estimer* theta, la taille de la mère, sachant y, la taille de sa fille adulte. Notons que nous ne parlons pas ici de prédiction mais bien d'estimation, et pour être tout-à-fait clair, je vais formuler le problème en fréquentiste. Nous supposons ici que la distribution jointe de la taille de la mère et de la fille est une loi normale bivariée de moyenne c(160,160), de variances sigma^2 égales, et de corrélation r=0.5.
Dans un problème d'estimation classique, nous avons un paramètre theta qui caractérise un processus qui "génère" une "population" de valeurs. Ici, le paramètre theta caractérise la taille de la mère qui va générer une population de filles de taille différentes. Nous effectuons alors un échantillonnage d'une fille dans cette population, et nous mesurons sa taille y. La question est alors comment estimer ce paramètre theta qui caractérise la taille de la mère à partir de la donnée y. Nous avons besoin d'un estimateur. L'estimateur sera non-biaisé si, après avoir répété cette opération d'échantillonnage un grand nombre de fois, l'espérance des estimées theta.hat est égale à la vraie valeur theta.
Pour une valeur de theta donnée, nous effectuons donc un échantillonnage et nous mesurons la valeur d'une fille y. Ce que nous avons dit précédemment de la distribution jointe supposée connue de la taille de la mère et de la fille suggère alors l'utilisation d'un estimateur. En effet, la solution la plus logique consisterait à nous servir comme estimateur de E(theta|y), c'est à dire l'espérance de la taille de la mère sachant la taille de la fille. La théorie statistique nous permet de calculer cette valeur (cf. http://en.wikipedia.org/wiki/Multivariate_normal_distribution#Bivariate_case):
E(theta|y) = 160 + 0.5(y-160) (équation 8.1 de Gelman et al.)
Mais cette espérance à postériori n'est pas un *estimateur non biaisé* de theta. En effet, pour que ce soit un estimateur non-biaisé de theta, il faudrait que lorsque l'on répète l'échantillonnage de y sachant la valeur fixée de theta, et que l'on réapplique l'estimateur, en moyenne, on obtienne theta. Pourtant, si l'on répète l'échantillonnage de y pour une valeur de theta fixée, en moyenne, la valeur de y que l'on échantillonnera sera E(y|theta) = 160 + 0.5(theta-160).
Et si l'on applique de façon répétée l'estimateur 8.1 sur les répétitions d'échantillonnage de valeurs y pour une vraie valeur de theta fixée, on obtiendra en moyenne:
Autrement dit, l'application de l'estimateur 8.1 sur des tirages répétés de y sachant une valeur fixée de theta ne donne pas theta en moyenne. Cet estimateur est biaisé.
Maintenant, imaginons que l'on ait utilisé cet estimateur sorti du chapeau:
theta.hat = 160 + 2(y-160) (appelons le par exemple estimateur B)
Alors, après échantillonnage répété, l'espérance de cet estimateur serait:
Et cet estimateur B serait non biaisé. Mais l'estimateur B n'a aucun sens: par exemple, si une fille mesure 10 cm de plus que la moyenne il estime que sa mère mesure 20 cm de plus que la moyenne.
L'argument de Gelman et al. est alors que n'importe qui de sensé rejetterait l'estimateur non-biaisé. En fait, dans un problème tel que celui-là, ça n'a aucun sens de chercher à *estimer* theta. /Instead, this problem would be classified as 'prediction' rather than 'estimation', and procedures would not be evaluated conditional on the random variable theta/.
Dans l'article de blog pointé ici, Gelman formalise également les choses, de façon concise et très pédagogique:
In frequentist statistics, theta.hat is an unbiased estimate if E(theta.hat|theta) = theta, for any theta [c'est ce qui est illustré dans l'exemple ci-dessus]. But y.hat is an unbiased prediction if E(y.hat|theta) = E(y|theta) for any theta [ainsi, dans l'exemple ci-dessus, le prédicteur 8.1 est non biaisé]. Note the difference: the frequentist averages over y, but not over theta.
On voit alors que la définition de ``non-biaisé'' dépend de l'objectif en fréquentiste. Et il conclue:
Another way of putting this is: everybody, frequentists and Bayesians alike, agree that it’s appropriate to be Bayesian for predictions. (This is particularly clear in time series analysis, for example.) The debate arises over what to do with estimation: whether or not to average over a distribution for those unknown thetas.
Remarque: Le principe illustré par cet exemple, et parfaitement pris en compte par l'estimation bayésienne (et la prédiction fréquentiste par régression linéaire), est le principe de la régression vers la moyenne. Certes, la prédiction est une estimation biaisée. Mais c'est pas plus mal. Comme le disent Gelman et al. "In many ways, Bayesian analysis can be seen as a logical extension of the principle of regression to the mean, ensuring that proper weighting is made of information from different sources".
J'aime beaucoup les qualités pédagogiques de ce gars-là...
— Permalink]]>[1405.7867] Lazy ABChttp://caloine.ouvaton.org/shaarli/?NyM6pw2014-09-23T09:24:17+02:002014-09-23T09:24:17+02:00
À voir
— Permalink]]>A slice of infinity | Xi'an's Oghttp://caloine.ouvaton.org/shaarli/?x_zi7w2014-08-05T21:49:28+02:002014-08-05T21:49:28+02:00
grrrrrr
Edit: si le problème se produit, il ne faut pas oublier que la distribution gamma inclue une *fonction* gamma, et que Gamma(x) = (x-1)!
Et la factorielle augmente assez fortement avec x. Donc pour une distribution gamma G(a,b), si a est trop important, Gamma(a) ne pourra être calculé numériquement, et ça se traduira par une valeur infinie. Un bidouillage consiste à tronquer la prior de a si a est une variable à estimer.
— Permalink]]>JAGS: Just Another Gibbs Sampler / Discussion / Help:sporadichttp://caloine.ouvaton.org/shaarli/?9jhshg2014-08-05T20:36:58+02:002014-08-05T20:36:58+02:00— Permalink]]>Autocorrélation temporelle sous JAGS: modèle de corrélation exponentiellehttp://caloine.ouvaton.org/shaarli/?qwEB7w2014-07-31T16:49:58+02:002014-07-31T16:49:58+02:00
residus~dmnorm(vecteurDeZeros, Omega)
for (i in 1:10) {
esperance[i]<- mu[i] + residus[i]
}
Mais plutôt faire ça:
esperance~dmnorm(mu, Omega)
Les chaînes se mélangent mieux. Fallait le savoir...
Edit: Bon apparemment, la stratégie est connue et est valable pour tout modèle linéaire réclamant un résidu quelconque: on ne doit jamais tirer au sort un résidu dans une loi normale de moyenne nulle. Mais on indique que la réponse suit une loi normale de moyenne correspondant à l'espérance modélisée. Ça s'appelle du hierarchical centring (voir Browne et al. 2009, dans Journal of the Royal Statistical Society). Par contre, il paraît que ça marche pas top quand la variance est faible.
— Permalink]]>Handy statistical lexicon « Statistical Modeling, Causal Inference, and Social Science Statistical Modeling, Causal Inference, and Social Sciencehttp://caloine.ouvaton.org/shaarli/?2rykMA2014-02-17T11:11:56+01:002014-02-17T11:11:56+01:00— Permalink]]>Citations de Gelmanhttp://caloine.ouvaton.org/shaarli/?XSDNKA2014-02-17T11:00:43+01:002014-02-17T11:00:43+01:00
J'aime bien
"People don't go around introducing you to their ex-wives", pour souligner le fait que normalement, on ne devrait pas passer son temps dans les papiers à expliquer quels modèles on a testé avant de sélectionner le modèle final.
Les coefficients significatifs avec un signe inattendu (genre négatif au lieu de positif) indiquent qu'une interaction manque.
Pour le reste, je lirai plus tard
— Permalink]]>Barry Rowlingson's GeoSpatial Blog: Why You Should Not Use WinBUGS (or OpenBUGS)http://caloine.ouvaton.org/shaarli/?qeBPMw2014-02-13T16:40:27+01:002014-02-13T16:40:27+01:00— Permalink]]>» Spatial autocorrelation of errors in JAGShttp://caloine.ouvaton.org/shaarli/?1NixRQ2014-02-11T13:03:36+01:002014-02-11T13:03:36+01:00
Qui pourrait bien arriver plus rapidement que prévu (je crains cependant qu'on ne soit limité en termes de nombre d'unités spatiales que l'on peut intégrer le modèle).
À lire un jour
— Permalink]]>Introduction to the particle Gibbs sampler | Darren Wilkinson's research bloghttp://caloine.ouvaton.org/shaarli/?ijZXVA2014-01-26T12:33:41+01:002014-01-26T12:33:41+01:00— Permalink]]>Stan: Project Home Pagehttp://caloine.ouvaton.org/shaarli/?Uk0Qnw2014-01-07T09:06:11+01:002014-01-07T09:06:11+01:00— Permalink]]>Bertrand paradox (probability) - Wikipedia, the free encyclopediahttp://caloine.ouvaton.org/shaarli/?U8iByg2013-12-02T09:34:26+01:002013-12-02T09:34:26+01:00
Et le plus drôle de l'affaire, c'est que Jaynes, en utilisant le principe d'indifférence, résoud le problème! Comme quoi le bayésien ça sert!
— Permalink]]>Statistical zealots | Simply Statisticshttp://caloine.ouvaton.org/shaarli/?um9q2w2013-12-02T09:25:31+01:002013-12-02T09:25:31+01:00— Permalink]]>Hidden dangers of noninformative priors « Statistical Modeling, Causal Inference, and Social Science Statistical Modeling, Causal Inference, and Social Sciencehttp://caloine.ouvaton.org/shaarli/?jlRf8Q2013-11-21T19:11:22+01:002013-11-21T19:11:22+01:00
* Ce qui avait été noté par John Cook, et qui est expliqué plus clairement là: on se comporte avec la prior de la même façon qu'avec la vraisemblance dans un modèle classique. On commence par un modèle/une prior simple. Si le résultat est naze, on améliore. Du bon sens.
* que ce qu'on croît être non informatif ne l'est pas toujours. Comme il l'écrit dans son blog:
"Traditionally in statistics we’ve worked with the paradigm of a single highly informative dataset with only weak external information. But if the data are sparse and prior information is strong, we have to think differently. And, when you increase the dimensionality of a problem, both these things happen: data per parameter become more sparse, and priors distribution that are innocuous in low dimensions become strong and highly informative (sometimes in a bad way) in high dimensions."
Et il donne des exemples. Le prochain modèle bayésien que j'ajuste, je fais des tests de ça. Apparemment, même une prior uniforme, ça peut générer des structures merdiques.
— Permalink]]>Convenient and innocuous priors | The Endeavourhttp://caloine.ouvaton.org/shaarli/?jMianA2013-11-21T19:08:05+01:002013-11-21T19:08:05+01:00
On commence par ajuster du non informatif, sur lequel on est inattaquable. On ne prend alors aucun risque. Et s'il est clair que le non-informatif conduit à des conclusions sans intérêt car trop vague, alors il est temps de revenir à la définition des prior, et d'en définir des plus réalistes, mais aussi plus criticable.
C'est du bon sens, mais je n'imagine pas le nombre de référés qui vont nous rentrer dans le lard avec une telle stratégie. Ce serait pas mal d'avoir une ref à renvoyer en retour sur la question. Je vais chercher
— Permalink]]>Weak statistical standards implicated in scientific irreproducibility : Nature Newshttp://caloine.ouvaton.org/shaarli/?uW4EEQ2013-11-12T20:08:41+01:002013-11-12T20:08:41+01:00— Permalink]]>Reversible jump MCMChttp://caloine.ouvaton.org/shaarli/?2Gxbqg2013-09-12T20:25:20+02:002013-09-12T20:25:20+02:00— Permalink]]>