Les bookmarks de Clem

Restarting NIMBLE MCMC

2021-11-23T12:09:25+01:00

Comment redémarrer un MCMC. Et définir son propre sampler avec Nimble
— Permalink

Rank-normalized split-Rhat and effective sample size

2019-03-04T17:21:47+01:00

Intéressant.
— Permalink

Subjectivity in statistics

2016-12-16T09:49:56+01:00

Excellent post de John Cook, basé sur une déclaration d'Andrew Gelman, qui met le doigt sur un aspect important du Bayésien. Souvent critiqué pour sa subjectivité affichée, il peut en réalité se révéler plus objectif qu'une approche fréquentiste. Le cœur de ce point de vue de Gelman:

"Bayesian methods can in many ways be more “objective” than conventional approaches in that Bayesian inference, with its smoothing and partial pooling, is well adapted to including diverse sources of information and thus can reduce the number of data coding or data exclusion choice points in an analysis."

Illustré par John Cook: si je dois prendre une décision concernant un problème (e.g. autoriser telle ou telle décision politique), et trop peu d'individus pour une analyse fréquentiste. La décision sera alors prise complètement subjectivement. Le bayésien permet de tirer parti du minimum d'individus dont on dispose. Ça reste subjectif car la prior va avoir un poids important, mais moins que l'approche alternative.
— Permalink

» GAM splines now easy in JAGS and OpenBUGS. An example on 2D spatial data

2016-05-04T21:23:09+02:00

Article de blog intéressant sur l'ajustement de spline 2D avec JAGS. La fonction jagam du package mgcv semble très intéressante. Décortiquer cette fonction, programmée par S.Wood lui-même (!), risque d'apporter pas mal d'infos super intéressantes!
— Permalink

[1511.02644] Approximate methods for dynamic ecological models

2015-11-11T09:43:52+01:00

Ouh mais ça m'a l'air super intéressant ça. Le bouquin va être passionnant à mon avis. Et j'aime bien les auteurs...
— Permalink

Variables cachées estimées à titre informatif par MCMC: Faut pas. Mais alors vraiment pas.

2015-10-09T13:18:15+02:00

Je stocke l'expérience ici car je viens de perdre une semaine à cause de cette connerie.

Quand on ajuste un modèle par MCMC avec un sampler de Gibbs (JAGS, Winbugs, etc.), toutes les variables pour lesquelles on va générer des valeurs jouent sur le comportement du sampler.
Ça a l'air évident à dire, mais je viens de me faire avoir comme un bleu en oubliant ça.

Je cherchais à ajuster un modèle estimant des limites de populations, avec estimation de probabilités de migration d'une pop à l'autre. Et je m'étais dit, tiens, ben comme j'ai tous les éléments nécessaires, pour chaque individu de mon échantillon, je vais échantillonner une appartenance de l'individu à une population dans la posterior. Pour chaque individu, je considère cette appartenance comme une variable cachée n'ayant aucune influence sur mon estimation. Cette appartenance dépend des paramètres estimés, du coup, à chaque itération, je génère une valeur et comme ça à la fin, j'ai déjà les dépendances dont je peux me servir directement à titre exploratoire.

Et j'avais pas pensé que ça marche aussi dans l'autre sens: le sampler de Gibbs, quand il va sampler dans la postérior conditionnelle pour les limites de population, il va le faire conditionnellement aux appartenances des individus à une population à l'itération t. Donc pour modifier une limite de population, il faut simultanément modifier les paramètres qui contrôlent cette limite ET les appartenance de tous les individus "frontaliers" concerné (changer leur "nationalité"). Or, la question du simultané avec un sampler de Gibbs, c'est très compliqué...

Résultat: mélange franchement dégueulasse, et résultat inutilisable.

Bon ben je le saurai pour la prochaine fois. Conclusion évidente toujours bonne à rappeler: On ne met dans le modèle à ajuster que les paramètres que l'on souhaite ajuster. Et rien d'autre.
— Permalink

STAN et les paramètres entiers

2015-09-16T16:00:49+02:00

Première tentative d'ajustement de modèle bayésien sous STAN... échec: STAN ne permet pas l'ajustement de modèles avec des variables cachées entières (e.g. un effectif détecté comme réponse, un effectif réel comme paramètre). Ce qui rétrospectivement semble assez logique, quand on connaît le principe du Monte Carlo Hamiltonien. La seule solution est de marginaliser le paramètre entier quand on en a un... Ce qui n'est pas toujours simple à réaliser. Enfin, dans le cas présent, je n'ai pas le choix, mon modèle est caractérisé par un mélange moisi avec un sampler de Gibbs, et je pense que le fait de m'appuyer sur un paramètre latent entier n'y est pas pour rien.

Edit: le manuel de Stan, section 11.3, évoque les modèles de CMR. Il présente deux cas de figure:
* l'estimateur de Lincoln-Petersen de la taille de population N à partir d'animaux marqués à une première occasion de capture, puis recapturés à une deuxième occasion. Dans ce cas, on peut traiter le modèle en prenant N comme paramètre continu.
* le modèle de Cormack-Jolly-Seber, dans lequel on a une variable latente z_i(t) pour chaque animal i qui prend la valeur 1 si l'animal est vivant au temps t et 0 sinon. Pour pouvoir ajuster ce modèle, il faut marginaliser pour se débarrasser du paramètre.
Oui, donc Stan, uniquement quand on a des paramètres continus (éviter les variables latentes discrètes genre effectif réel non observé).
— Permalink

The publication of one of my pet ideas: Simulation-efficient shortest probability intervals - Statistical Modeling, Causal Inference, and Social Science Statistical Modeling, Causal Inference, and Social Science

2015-03-30T14:54:39+02:00

Sur les highest posterior density intervals. À récupérer et à lire.
— Permalink

Doing Bayesian Data Analysis: Why to use highest density intervals instead of equal tailed intervals

2015-03-30T14:23:01+02:00

Tiens je n'y avais jamais pensé, mais il existe plusieurs façons de définir des intervalles crédibles en bayésien. L'approche la plus courante consiste à définir l'intervalle comme défini par les quantiles (alpha/2, et 1-alpha/2) de la posterior. Mais elle a des inconvénients, comme illustré ici.

Une meilleure approche consiste à rechercher la valeur k telle que l'intégrale de P(x|theta) sur les valeurs de x telles que P(x|theta)>k = 1-alpha. Alors, l'intervalle crédible "highest posterior density intervals" consiste à l'ensemble des x tels que P(x|theta)>k. L'avantage de cette approche est qu'elle renvoie les intervalles les plus petits. En outre, elle contient le mode de la distribution, ce qui n'est pas forcément le cas de la méthode par les quantiles (qui elle incluera nécessairement la médiane). Voir p. 38 du Gelman et al.

Edit: pas si évident que ce soit la meilleure approche. Dans certains cas, en gestion de la faune par exemple, le fait de disposer d'IC basés sur des quantiles pourrait être jugé comme plus juste par les différentes parties. Comme les distributions à postériori sur les effectifs dans des sites sont souvent asymétriques, utiliser des HPD consisterait à systématiquement inclure 0 dans l'estimation, et du coup à diminuer la borne supérieure de l'intervalle. Autrement dit, on concevrait certes l'intervalle le plus court possible tel que la probabilité de trouver la vraie valeur soit de 95%, mais on aurait 0% de chances d'avoir une vraie valeur inférieure à la borne inférieure de l'IC, et tout le risque serait situé du côté des fortes valeurs. Quand on a deux parties qui se tapent dessus concernant les effectifs, une telle décision peut être vue comme un parti pris en faveur de ceux qui pensent qu'il n'y en a pas assez. À garder en tête quand même dans ce choix.
— Permalink

Probably Overthinking It: Bayesian survival analysis for "Game of Thrones"

2015-03-27T09:28:41+01:00

Marrant
— Permalink

Introducing shinyStan - Statistical Modeling, Causal Inference Statistical Modeling, Causal Inference, and Social Science

2015-03-03T11:34:33+01:00

Très intéressant!
À suivre de près.
— Permalink

Bayesian Cognitive Modeling | A Practical Course

2014-12-10T09:19:44+01:00

À récupérer et à lire. Les premiers chapitres ont l'air super-intéressant.
— Permalink

insufficient statistics for ABC model choice | Xi'an's Og

2014-10-17T09:37:29+02:00

À lire
— Permalink

Bayesian parameter estimation is not quite the same thing as Bayesian prediction - Statistical Modeling, Causal Inference, and Social Science Statistical Modeling, Causal Inference, and Social Science

2014-09-23T15:09:31+02:00

Je stocke ça ici, parce que ça fait plusieurs fois que je recherche la référence, et que j'essaie de reproduire le raisonnement. Dans cet article de son blog, Gelman décrit très précisément en quoi la notion de prédiction diffère de la notion d'estimation sur un plan purement statistique: "you estimate parameters and you predict observables". C'est important, et p. 248 dans le "Bayesian Data Analysis" (Gelman, A.; Carlin, J.; Stern, H. & Rubin, D. Bayesian data analysis Chapman & Hall/CRC, 2004), Gelman et al. donnent un bon exemple de la distinction entre ces deux approches, que je reproduit ici pour ne pas avoir à me recogner le truc la prochaine fois que je me poserai la question.

Considérons le problème consistant à *estimer* theta, la taille de la mère, sachant y, la taille de sa fille adulte. Notons que nous ne parlons pas ici de prédiction mais bien d'estimation, et pour être tout-à-fait clair, je vais formuler le problème en fréquentiste. Nous supposons ici que la distribution jointe de la taille de la mère et de la fille est une loi normale bivariée de moyenne c(160,160), de variances sigma^2 égales, et de corrélation r=0.5.

Dans un problème d'estimation classique, nous avons un paramètre theta qui caractérise un processus qui "génère" une "population" de valeurs. Ici, le paramètre theta caractérise la taille de la mère qui va générer une population de filles de taille différentes. Nous effectuons alors un échantillonnage d'une fille dans cette population, et nous mesurons sa taille y. La question est alors comment estimer ce paramètre theta qui caractérise la taille de la mère à partir de la donnée y. Nous avons besoin d'un estimateur. L'estimateur sera non-biaisé si, après avoir répété cette opération d'échantillonnage un grand nombre de fois, l'espérance des estimées theta.hat est égale à la vraie valeur theta.

Pour une valeur de theta donnée, nous effectuons donc un échantillonnage et nous mesurons la valeur d'une fille y. Ce que nous avons dit précédemment de la distribution jointe supposée connue de la taille de la mère et de la fille suggère alors l'utilisation d'un estimateur. En effet, la solution la plus logique consisterait à nous servir comme estimateur de E(theta|y), c'est à dire l'espérance de la taille de la mère sachant la taille de la fille. La théorie statistique nous permet de calculer cette valeur (cf. http://en.wikipedia.org/wiki/Multivariate_normal_distribution#Bivariate_case):

E(theta|y) = 160 + 0.5(y-160) (équation 8.1 de Gelman et al.)

Mais cette espérance à postériori n'est pas un *estimateur non biaisé* de theta. En effet, pour que ce soit un estimateur non-biaisé de theta, il faudrait que lorsque l'on répète l'échantillonnage de y sachant la valeur fixée de theta, et que l'on réapplique l'estimateur, en moyenne, on obtienne theta. Pourtant, si l'on répète l'échantillonnage de y pour une valeur de theta fixée, en moyenne, la valeur de y que l'on échantillonnera sera E(y|theta) = 160 + 0.5(theta-160).

Et si l'on applique de façon répétée l'estimateur 8.1 sur les répétitions d'échantillonnage de valeurs y pour une vraie valeur de theta fixée, on obtiendra en moyenne:

160 + 0.5(E(y|theta) -160) = 160 + 0.5([160+0.5(theta-160)] - 160) = 160 + 0.25(theta-160)

Autrement dit, l'application de l'estimateur 8.1 sur des tirages répétés de y sachant une valeur fixée de theta ne donne pas theta en moyenne. Cet estimateur est biaisé.

Maintenant, imaginons que l'on ait utilisé cet estimateur sorti du chapeau:

theta.hat = 160 + 2(y-160) (appelons le par exemple estimateur B)

Alors, après échantillonnage répété, l'espérance de cet estimateur serait:

160 + 2(E(y|theta) -160) = 160 + 2([160+0.5(theta-160)] - 160) = theta

Et cet estimateur B serait non biaisé. Mais l'estimateur B n'a aucun sens: par exemple, si une fille mesure 10 cm de plus que la moyenne il estime que sa mère mesure 20 cm de plus que la moyenne.

L'argument de Gelman et al. est alors que n'importe qui de sensé rejetterait l'estimateur non-biaisé. En fait, dans un problème tel que celui-là, ça n'a aucun sens de chercher à *estimer* theta. /Instead, this problem would be classified as 'prediction' rather than 'estimation', and procedures would not be evaluated conditional on the random variable theta/.

Dans l'article de blog pointé ici, Gelman formalise également les choses, de façon concise et très pédagogique:

In frequentist statistics, theta.hat is an unbiased estimate if E(theta.hat|theta) = theta, for any theta [c'est ce qui est illustré dans l'exemple ci-dessus]. But y.hat is an unbiased prediction if E(y.hat|theta) = E(y|theta) for any theta [ainsi, dans l'exemple ci-dessus, le prédicteur 8.1 est non biaisé]. Note the difference: the frequentist averages over y, but not over theta.

On voit alors que la définition de ``non-biaisé'' dépend de l'objectif en fréquentiste. Et il conclue:

Another way of putting this is: everybody, frequentists and Bayesians alike, agree that it’s appropriate to be Bayesian for predictions. (This is particularly clear in time series analysis, for example.) The debate arises over what to do with estimation: whether or not to average over a distribution for those unknown thetas.

Remarque: Le principe illustré par cet exemple, et parfaitement pris en compte par l'estimation bayésienne (et la prédiction fréquentiste par régression linéaire), est le principe de la régression vers la moyenne. Certes, la prédiction est une estimation biaisée. Mais c'est pas plus mal. Comme le disent Gelman et al. "In many ways, Bayesian analysis can be seen as a logical extension of the principle of regression to the mean, ensuring that proper weighting is made of information from different sources".

J'aime beaucoup les qualités pédagogiques de ce gars-là...
— Permalink

[1405.7867] Lazy ABC

2014-09-23T09:24:17+02:00

Ah? Bon, faut que je trouve le temps de lire ça, m'a l'air pas mal comme concept.
À voir
— Permalink

A slice of infinity | Xi'an's Og

2014-08-05T21:49:28+02:00

Une autre solution au slicer coincé à l'infini. Et une explication au problème...
grrrrrr

Edit: si le problème se produit, il ne faut pas oublier que la distribution gamma inclue une *fonction* gamma, et que Gamma(x) = (x-1)!
Et la factorielle augmente assez fortement avec x. Donc pour une distribution gamma G(a,b), si a est trop important, Gamma(a) ne pourra être calculé numériquement, et ça se traduira par une valeur infinie. Un bidouillage consiste à tronquer la prior de a si a est une variable à estimer.
— Permalink

JAGS: Just Another Gibbs Sampler / Discussion / Help:sporadic

2014-08-05T20:36:58+02:00

La loi gamma est une loi de merde. Mais malheureusement, parfois inévitable.
— Permalink

Autocorrélation temporelle sous JAGS: modèle de corrélation exponentielle

2014-07-31T16:49:58+02:00

Je me stocke ça ici pour si jamais un jour je retombe sur le même problème. Quand on ajuste un modèle de tendance temporelle avec des résidus autocorrélés selon un modèle de corrélation exponentielle (Diggle et al. 2002, Analysis of longitudinal data, p. 56) avec JAGS, il ne faut pas générer les résidus en tirant dans une loi multinormale de moyenne nulle que l'on va ajouter à une tendance. Il faut tirer dans une loi multinormale dont le vecteur moyenne EST la tendance. Je me suis arraché les cheveux là-dessus, mais le mélange est bien meilleur si l'on procède comme ça. Autrement dit, il ne faut pas faire ça:

residus~dmnorm(vecteurDeZeros, Omega)
for (i in 1:10) {
esperance[i]<- mu[i] + residus[i]
}

Mais plutôt faire ça:

esperance~dmnorm(mu, Omega)

Les chaînes se mélangent mieux. Fallait le savoir...

Edit: Bon apparemment, la stratégie est connue et est valable pour tout modèle linéaire réclamant un résidu quelconque: on ne doit jamais tirer au sort un résidu dans une loi normale de moyenne nulle. Mais on indique que la réponse suit une loi normale de moyenne correspondant à l'espérance modélisée. Ça s'appelle du hierarchical centring (voir Browne et al. 2009, dans Journal of the Royal Statistical Society). Par contre, il paraît que ça marche pas top quand la variance est faible.
— Permalink

Handy statistical lexicon « Statistical Modeling, Causal Inference, and Social Science Statistical Modeling, Causal Inference, and Social Science

2014-02-17T11:11:56+01:00

Et puisqu'on parle d'Andrew Gelman, ya ça aussi...
— Permalink

Citations de Gelman

2014-02-17T11:00:43+01:00

Des citations de Gelman sur les pratiques de la statistique.

J'aime bien

"People don't go around introducing you to their ex-wives", pour souligner le fait que normalement, on ne devrait pas passer son temps dans les papiers à expliquer quels modèles on a testé avant de sélectionner le modèle final.

Les coefficients significatifs avec un signe inattendu (genre négatif au lieu de positif) indiquent qu'une interaction manque.

Pour le reste, je lirai plus tard
— Permalink

Barry Rowlingson's GeoSpatial Blog: Why You Should Not Use WinBUGS (or OpenBUGS)

2014-02-13T16:40:27+01:00

Ah ben je suis pas le seul à pas aimer WinBUGS et OpenBUGS.
— Permalink

» Spatial autocorrelation of errors in JAGS

2014-02-11T13:03:36+01:00

Utiliser JAGS pour ajuster du modèle avec autocorrélation spatiale. À garder sous le coude pour le jour où...
Qui pourrait bien arriver plus rapidement que prévu (je crains cependant qu'on ne soit limité en termes de nombre d'unités spatiales que l'on peut intégrer le modèle).
À lire un jour
— Permalink

Introduction to the particle Gibbs sampler | Darren Wilkinson's research blog

2014-01-26T12:33:41+01:00

Faudrait que je prenne le temps de creuser c't'affaire. Pas mal de références fournies.
— Permalink

Stan: Project Home Page

2014-01-07T09:06:11+01:00

Vinzou, faut vraiment que je prenne le temps de creuser ce logiciel. Ça m'a l'air d'être une alternative intéressante à JAGS pour le MCMC. Plus rapide apparemment... Et ya même une interface pour R
— Permalink

Bertrand paradox (probability) - Wikipedia, the free encyclopedia

2013-12-02T09:34:26+01:00

Le paradoxe de Bertrand, ou pourquoi "Quelle est la distribution de telle statistique x sachant que mes points sont tirés aléatoirement" ne veut rien dire.
Et le plus drôle de l'affaire, c'est que Jaynes, en utilisant le principe d'indifférence, résoud le problème! Comme quoi le bayésien ça sert!
— Permalink

Statistical zealots | Simply Statistics

2013-12-02T09:25:31+01:00

Sur la bataille bayésien/fréquentistes. Oui, je trouve que ça résume assez bien ma position. Et ça m'agace toujours un peu quand j'entends des opinions définitives (comme j'ai entendu récemment) du genre: "le bayésien c'est pas de la science" par des personnes qui régurgitent sans trop réfléchir les préfaces de bouquins fréquentistes écrits dans les années 1970.
— Permalink

Hidden dangers of noninformative priors « Statistical Modeling, Causal Inference, and Social Science Statistical Modeling, Causal Inference, and Social Science

2013-11-21T19:11:22+01:00

Bon, le blog de Gelman donne des explications plus détaillées, et plein de refs. Article hyper intéressant, on y apprend plein de choses essentielles en modélisation bayésienne. Notamment:
* Ce qui avait été noté par John Cook, et qui est expliqué plus clairement là: on se comporte avec la prior de la même façon qu'avec la vraisemblance dans un modèle classique. On commence par un modèle/une prior simple. Si le résultat est naze, on améliore. Du bon sens.
* que ce qu'on croît être non informatif ne l'est pas toujours. Comme il l'écrit dans son blog:

"Traditionally in statistics we’ve worked with the paradigm of a single highly informative dataset with only weak external information. But if the data are sparse and prior information is strong, we have to think differently. And, when you increase the dimensionality of a problem, both these things happen: data per parameter become more sparse, and priors distribution that are innocuous in low dimensions become strong and highly informative (sometimes in a bad way) in high dimensions."

Et il donne des exemples. Le prochain modèle bayésien que j'ajuste, je fais des tests de ça. Apparemment, même une prior uniforme, ça peut générer des structures merdiques.
— Permalink

Convenient and innocuous priors | The Endeavour

2013-11-21T19:08:05+01:00

L'opinion de Gelman sur les prior en bayésien décrite par John Cook. Et elle vaut son pesant d'or:
On commence par ajuster du non informatif, sur lequel on est inattaquable. On ne prend alors aucun risque. Et s'il est clair que le non-informatif conduit à des conclusions sans intérêt car trop vague, alors il est temps de revenir à la définition des prior, et d'en définir des plus réalistes, mais aussi plus criticable.
C'est du bon sens, mais je n'imagine pas le nombre de référés qui vont nous rentrer dans le lard avec une telle stratégie. Ce serait pas mal d'avoir une ref à renvoyer en retour sur la question. Je vais chercher
— Permalink

Weak statistical standards implicated in scientific irreproducibility : Nature News

2013-11-12T20:08:41+01:00

Tiens? ça cause débat fréquentiste/bayésien dans Nature. Pas encore lu, mais à lire un jour parce que l'attaque a l'air violente
— Permalink

Reversible jump MCMC

2013-09-12T20:25:20+02:00

Un nouvel article dans the american statistician sur la sélection de modèle en bayésien. De Barker et Link. À lire donc.
— Permalink