2352 shaares
30 results
tagged
bayésien
Comment redémarrer un MCMC. Et définir son propre sampler avec Nimble
Intéressant.
Excellent post de John Cook, basé sur une déclaration d'Andrew Gelman, qui met le doigt sur un aspect important du Bayésien. Souvent critiqué pour sa subjectivité affichée, il peut en réalité se révéler plus objectif qu'une approche fréquentiste. Le cœur de ce point de vue de Gelman:
"Bayesian methods can in many ways be more “objective” than conventional approaches in that Bayesian inference, with its smoothing and partial pooling, is well adapted to including diverse sources of information and thus can reduce the number of data coding or data exclusion choice points in an analysis."
Illustré par John Cook: si je dois prendre une décision concernant un problème (e.g. autoriser telle ou telle décision politique), et trop peu d'individus pour une analyse fréquentiste. La décision sera alors prise complètement subjectivement. Le bayésien permet de tirer parti du minimum d'individus dont on dispose. Ça reste subjectif car la prior va avoir un poids important, mais moins que l'approche alternative.
"Bayesian methods can in many ways be more “objective” than conventional approaches in that Bayesian inference, with its smoothing and partial pooling, is well adapted to including diverse sources of information and thus can reduce the number of data coding or data exclusion choice points in an analysis."
Illustré par John Cook: si je dois prendre une décision concernant un problème (e.g. autoriser telle ou telle décision politique), et trop peu d'individus pour une analyse fréquentiste. La décision sera alors prise complètement subjectivement. Le bayésien permet de tirer parti du minimum d'individus dont on dispose. Ça reste subjectif car la prior va avoir un poids important, mais moins que l'approche alternative.
Article de blog intéressant sur l'ajustement de spline 2D avec JAGS. La fonction jagam du package mgcv semble très intéressante. Décortiquer cette fonction, programmée par S.Wood lui-même (!), risque d'apporter pas mal d'infos super intéressantes!
Ouh mais ça m'a l'air super intéressant ça. Le bouquin va être passionnant à mon avis. Et j'aime bien les auteurs...
Je stocke l'expérience ici car je viens de perdre une semaine à cause de cette connerie.
Quand on ajuste un modèle par MCMC avec un sampler de Gibbs (JAGS, Winbugs, etc.), toutes les variables pour lesquelles on va générer des valeurs jouent sur le comportement du sampler.
Ça a l'air évident à dire, mais je viens de me faire avoir comme un bleu en oubliant ça.
Je cherchais à ajuster un modèle estimant des limites de populations, avec estimation de probabilités de migration d'une pop à l'autre. Et je m'étais dit, tiens, ben comme j'ai tous les éléments nécessaires, pour chaque individu de mon échantillon, je vais échantillonner une appartenance de l'individu à une population dans la posterior. Pour chaque individu, je considère cette appartenance comme une variable cachée n'ayant aucune influence sur mon estimation. Cette appartenance dépend des paramètres estimés, du coup, à chaque itération, je génère une valeur et comme ça à la fin, j'ai déjà les dépendances dont je peux me servir directement à titre exploratoire.
Et j'avais pas pensé que ça marche aussi dans l'autre sens: le sampler de Gibbs, quand il va sampler dans la postérior conditionnelle pour les limites de population, il va le faire conditionnellement aux appartenances des individus à une population à l'itération t. Donc pour modifier une limite de population, il faut simultanément modifier les paramètres qui contrôlent cette limite ET les appartenance de tous les individus "frontaliers" concerné (changer leur "nationalité"). Or, la question du simultané avec un sampler de Gibbs, c'est très compliqué...
Résultat: mélange franchement dégueulasse, et résultat inutilisable.
Bon ben je le saurai pour la prochaine fois. Conclusion évidente toujours bonne à rappeler: On ne met dans le modèle à ajuster que les paramètres que l'on souhaite ajuster. Et rien d'autre.
Quand on ajuste un modèle par MCMC avec un sampler de Gibbs (JAGS, Winbugs, etc.), toutes les variables pour lesquelles on va générer des valeurs jouent sur le comportement du sampler.
Ça a l'air évident à dire, mais je viens de me faire avoir comme un bleu en oubliant ça.
Je cherchais à ajuster un modèle estimant des limites de populations, avec estimation de probabilités de migration d'une pop à l'autre. Et je m'étais dit, tiens, ben comme j'ai tous les éléments nécessaires, pour chaque individu de mon échantillon, je vais échantillonner une appartenance de l'individu à une population dans la posterior. Pour chaque individu, je considère cette appartenance comme une variable cachée n'ayant aucune influence sur mon estimation. Cette appartenance dépend des paramètres estimés, du coup, à chaque itération, je génère une valeur et comme ça à la fin, j'ai déjà les dépendances dont je peux me servir directement à titre exploratoire.
Et j'avais pas pensé que ça marche aussi dans l'autre sens: le sampler de Gibbs, quand il va sampler dans la postérior conditionnelle pour les limites de population, il va le faire conditionnellement aux appartenances des individus à une population à l'itération t. Donc pour modifier une limite de population, il faut simultanément modifier les paramètres qui contrôlent cette limite ET les appartenance de tous les individus "frontaliers" concerné (changer leur "nationalité"). Or, la question du simultané avec un sampler de Gibbs, c'est très compliqué...
Résultat: mélange franchement dégueulasse, et résultat inutilisable.
Bon ben je le saurai pour la prochaine fois. Conclusion évidente toujours bonne à rappeler: On ne met dans le modèle à ajuster que les paramètres que l'on souhaite ajuster. Et rien d'autre.
Première tentative d'ajustement de modèle bayésien sous STAN... échec: STAN ne permet pas l'ajustement de modèles avec des variables cachées entières (e.g. un effectif détecté comme réponse, un effectif réel comme paramètre). Ce qui rétrospectivement semble assez logique, quand on connaît le principe du Monte Carlo Hamiltonien. La seule solution est de marginaliser le paramètre entier quand on en a un... Ce qui n'est pas toujours simple à réaliser. Enfin, dans le cas présent, je n'ai pas le choix, mon modèle est caractérisé par un mélange moisi avec un sampler de Gibbs, et je pense que le fait de m'appuyer sur un paramètre latent entier n'y est pas pour rien.
Edit: le manuel de Stan, section 11.3, évoque les modèles de CMR. Il présente deux cas de figure:
* l'estimateur de Lincoln-Petersen de la taille de population N à partir d'animaux marqués à une première occasion de capture, puis recapturés à une deuxième occasion. Dans ce cas, on peut traiter le modèle en prenant N comme paramètre continu.
* le modèle de Cormack-Jolly-Seber, dans lequel on a une variable latente z_i(t) pour chaque animal i qui prend la valeur 1 si l'animal est vivant au temps t et 0 sinon. Pour pouvoir ajuster ce modèle, il faut marginaliser pour se débarrasser du paramètre.
Oui, donc Stan, uniquement quand on a des paramètres continus (éviter les variables latentes discrètes genre effectif réel non observé).
Edit: le manuel de Stan, section 11.3, évoque les modèles de CMR. Il présente deux cas de figure:
* l'estimateur de Lincoln-Petersen de la taille de population N à partir d'animaux marqués à une première occasion de capture, puis recapturés à une deuxième occasion. Dans ce cas, on peut traiter le modèle en prenant N comme paramètre continu.
* le modèle de Cormack-Jolly-Seber, dans lequel on a une variable latente z_i(t) pour chaque animal i qui prend la valeur 1 si l'animal est vivant au temps t et 0 sinon. Pour pouvoir ajuster ce modèle, il faut marginaliser pour se débarrasser du paramètre.
Oui, donc Stan, uniquement quand on a des paramètres continus (éviter les variables latentes discrètes genre effectif réel non observé).
Sur les highest posterior density intervals. À récupérer et à lire.
Doing Bayesian Data Analysis: Why to use highest density intervals instead of equal tailed intervals
Tiens je n'y avais jamais pensé, mais il existe plusieurs façons de définir des intervalles crédibles en bayésien. L'approche la plus courante consiste à définir l'intervalle comme défini par les quantiles (alpha/2, et 1-alpha/2) de la posterior. Mais elle a des inconvénients, comme illustré ici.
Une meilleure approche consiste à rechercher la valeur k telle que l'intégrale de P(x|theta) sur les valeurs de x telles que P(x|theta)>k = 1-alpha. Alors, l'intervalle crédible "highest posterior density intervals" consiste à l'ensemble des x tels que P(x|theta)>k. L'avantage de cette approche est qu'elle renvoie les intervalles les plus petits. En outre, elle contient le mode de la distribution, ce qui n'est pas forcément le cas de la méthode par les quantiles (qui elle incluera nécessairement la médiane). Voir p. 38 du Gelman et al.
Edit: pas si évident que ce soit la meilleure approche. Dans certains cas, en gestion de la faune par exemple, le fait de disposer d'IC basés sur des quantiles pourrait être jugé comme plus juste par les différentes parties. Comme les distributions à postériori sur les effectifs dans des sites sont souvent asymétriques, utiliser des HPD consisterait à systématiquement inclure 0 dans l'estimation, et du coup à diminuer la borne supérieure de l'intervalle. Autrement dit, on concevrait certes l'intervalle le plus court possible tel que la probabilité de trouver la vraie valeur soit de 95%, mais on aurait 0% de chances d'avoir une vraie valeur inférieure à la borne inférieure de l'IC, et tout le risque serait situé du côté des fortes valeurs. Quand on a deux parties qui se tapent dessus concernant les effectifs, une telle décision peut être vue comme un parti pris en faveur de ceux qui pensent qu'il n'y en a pas assez. À garder en tête quand même dans ce choix.
Une meilleure approche consiste à rechercher la valeur k telle que l'intégrale de P(x|theta) sur les valeurs de x telles que P(x|theta)>k = 1-alpha. Alors, l'intervalle crédible "highest posterior density intervals" consiste à l'ensemble des x tels que P(x|theta)>k. L'avantage de cette approche est qu'elle renvoie les intervalles les plus petits. En outre, elle contient le mode de la distribution, ce qui n'est pas forcément le cas de la méthode par les quantiles (qui elle incluera nécessairement la médiane). Voir p. 38 du Gelman et al.
Edit: pas si évident que ce soit la meilleure approche. Dans certains cas, en gestion de la faune par exemple, le fait de disposer d'IC basés sur des quantiles pourrait être jugé comme plus juste par les différentes parties. Comme les distributions à postériori sur les effectifs dans des sites sont souvent asymétriques, utiliser des HPD consisterait à systématiquement inclure 0 dans l'estimation, et du coup à diminuer la borne supérieure de l'intervalle. Autrement dit, on concevrait certes l'intervalle le plus court possible tel que la probabilité de trouver la vraie valeur soit de 95%, mais on aurait 0% de chances d'avoir une vraie valeur inférieure à la borne inférieure de l'IC, et tout le risque serait situé du côté des fortes valeurs. Quand on a deux parties qui se tapent dessus concernant les effectifs, une telle décision peut être vue comme un parti pris en faveur de ceux qui pensent qu'il n'y en a pas assez. À garder en tête quand même dans ce choix.
Marrant
Très intéressant!
À suivre de près.
À suivre de près.
À récupérer et à lire. Les premiers chapitres ont l'air super-intéressant.
À lire
Je stocke ça ici, parce que ça fait plusieurs fois que je recherche la référence, et que j'essaie de reproduire le raisonnement. Dans cet article de son blog, Gelman décrit très précisément en quoi la notion de prédiction diffère de la notion d'estimation sur un plan purement statistique: "you estimate parameters and you predict observables". C'est important, et p. 248 dans le "Bayesian Data Analysis" (Gelman, A.; Carlin, J.; Stern, H. & Rubin, D. Bayesian data analysis Chapman & Hall/CRC, 2004), Gelman et al. donnent un bon exemple de la distinction entre ces deux approches, que je reproduit ici pour ne pas avoir à me recogner le truc la prochaine fois que je me poserai la question.
Considérons le problème consistant à *estimer* theta, la taille de la mère, sachant y, la taille de sa fille adulte. Notons que nous ne parlons pas ici de prédiction mais bien d'estimation, et pour être tout-à-fait clair, je vais formuler le problème en fréquentiste. Nous supposons ici que la distribution jointe de la taille de la mère et de la fille est une loi normale bivariée de moyenne c(160,160), de variances sigma^2 égales, et de corrélation r=0.5.
Dans un problème d'estimation classique, nous avons un paramètre theta qui caractérise un processus qui "génère" une "population" de valeurs. Ici, le paramètre theta caractérise la taille de la mère qui va générer une population de filles de taille différentes. Nous effectuons alors un échantillonnage d'une fille dans cette population, et nous mesurons sa taille y. La question est alors comment estimer ce paramètre theta qui caractérise la taille de la mère à partir de la donnée y. Nous avons besoin d'un estimateur. L'estimateur sera non-biaisé si, après avoir répété cette opération d'échantillonnage un grand nombre de fois, l'espérance des estimées theta.hat est égale à la vraie valeur theta.
Pour une valeur de theta donnée, nous effectuons donc un échantillonnage et nous mesurons la valeur d'une fille y. Ce que nous avons dit précédemment de la distribution jointe supposée connue de la taille de la mère et de la fille suggère alors l'utilisation d'un estimateur. En effet, la solution la plus logique consisterait à nous servir comme estimateur de E(theta|y), c'est à dire l'espérance de la taille de la mère sachant la taille de la fille. La théorie statistique nous permet de calculer cette valeur (cf. http://en.wikipedia.org/wiki/Multivariate_normal_distribution#Bivariate_case):
E(theta|y) = 160 + 0.5(y-160) (équation 8.1 de Gelman et al.)
Mais cette espérance à postériori n'est pas un *estimateur non biaisé* de theta. En effet, pour que ce soit un estimateur non-biaisé de theta, il faudrait que lorsque l'on répète l'échantillonnage de y sachant la valeur fixée de theta, et que l'on réapplique l'estimateur, en moyenne, on obtienne theta. Pourtant, si l'on répète l'échantillonnage de y pour une valeur de theta fixée, en moyenne, la valeur de y que l'on échantillonnera sera E(y|theta) = 160 + 0.5(theta-160).
Et si l'on applique de façon répétée l'estimateur 8.1 sur les répétitions d'échantillonnage de valeurs y pour une vraie valeur de theta fixée, on obtiendra en moyenne:
160 + 0.5(E(y|theta) -160) = 160 + 0.5([160+0.5(theta-160)] - 160) = 160 + 0.25(theta-160)
Autrement dit, l'application de l'estimateur 8.1 sur des tirages répétés de y sachant une valeur fixée de theta ne donne pas theta en moyenne. Cet estimateur est biaisé.
Maintenant, imaginons que l'on ait utilisé cet estimateur sorti du chapeau:
theta.hat = 160 + 2(y-160) (appelons le par exemple estimateur B)
Alors, après échantillonnage répété, l'espérance de cet estimateur serait:
160 + 2(E(y|theta) -160) = 160 + 2([160+0.5(theta-160)] - 160) = theta
Et cet estimateur B serait non biaisé. Mais l'estimateur B n'a aucun sens: par exemple, si une fille mesure 10 cm de plus que la moyenne il estime que sa mère mesure 20 cm de plus que la moyenne.
L'argument de Gelman et al. est alors que n'importe qui de sensé rejetterait l'estimateur non-biaisé. En fait, dans un problème tel que celui-là, ça n'a aucun sens de chercher à *estimer* theta. /Instead, this problem would be classified as 'prediction' rather than 'estimation', and procedures would not be evaluated conditional on the random variable theta/.
Dans l'article de blog pointé ici, Gelman formalise également les choses, de façon concise et très pédagogique:
In frequentist statistics, theta.hat is an unbiased estimate if E(theta.hat|theta) = theta, for any theta [c'est ce qui est illustré dans l'exemple ci-dessus]. But y.hat is an unbiased prediction if E(y.hat|theta) = E(y|theta) for any theta [ainsi, dans l'exemple ci-dessus, le prédicteur 8.1 est non biaisé]. Note the difference: the frequentist averages over y, but not over theta.
On voit alors que la définition de ``non-biaisé'' dépend de l'objectif en fréquentiste. Et il conclue:
Another way of putting this is: everybody, frequentists and Bayesians alike, agree that it’s appropriate to be Bayesian for predictions. (This is particularly clear in time series analysis, for example.) The debate arises over what to do with estimation: whether or not to average over a distribution for those unknown thetas.
Remarque: Le principe illustré par cet exemple, et parfaitement pris en compte par l'estimation bayésienne (et la prédiction fréquentiste par régression linéaire), est le principe de la régression vers la moyenne. Certes, la prédiction est une estimation biaisée. Mais c'est pas plus mal. Comme le disent Gelman et al. "In many ways, Bayesian analysis can be seen as a logical extension of the principle of regression to the mean, ensuring that proper weighting is made of information from different sources".
J'aime beaucoup les qualités pédagogiques de ce gars-là...
Considérons le problème consistant à *estimer* theta, la taille de la mère, sachant y, la taille de sa fille adulte. Notons que nous ne parlons pas ici de prédiction mais bien d'estimation, et pour être tout-à-fait clair, je vais formuler le problème en fréquentiste. Nous supposons ici que la distribution jointe de la taille de la mère et de la fille est une loi normale bivariée de moyenne c(160,160), de variances sigma^2 égales, et de corrélation r=0.5.
Dans un problème d'estimation classique, nous avons un paramètre theta qui caractérise un processus qui "génère" une "population" de valeurs. Ici, le paramètre theta caractérise la taille de la mère qui va générer une population de filles de taille différentes. Nous effectuons alors un échantillonnage d'une fille dans cette population, et nous mesurons sa taille y. La question est alors comment estimer ce paramètre theta qui caractérise la taille de la mère à partir de la donnée y. Nous avons besoin d'un estimateur. L'estimateur sera non-biaisé si, après avoir répété cette opération d'échantillonnage un grand nombre de fois, l'espérance des estimées theta.hat est égale à la vraie valeur theta.
Pour une valeur de theta donnée, nous effectuons donc un échantillonnage et nous mesurons la valeur d'une fille y. Ce que nous avons dit précédemment de la distribution jointe supposée connue de la taille de la mère et de la fille suggère alors l'utilisation d'un estimateur. En effet, la solution la plus logique consisterait à nous servir comme estimateur de E(theta|y), c'est à dire l'espérance de la taille de la mère sachant la taille de la fille. La théorie statistique nous permet de calculer cette valeur (cf. http://en.wikipedia.org/wiki/Multivariate_normal_distribution#Bivariate_case):
E(theta|y) = 160 + 0.5(y-160) (équation 8.1 de Gelman et al.)
Mais cette espérance à postériori n'est pas un *estimateur non biaisé* de theta. En effet, pour que ce soit un estimateur non-biaisé de theta, il faudrait que lorsque l'on répète l'échantillonnage de y sachant la valeur fixée de theta, et que l'on réapplique l'estimateur, en moyenne, on obtienne theta. Pourtant, si l'on répète l'échantillonnage de y pour une valeur de theta fixée, en moyenne, la valeur de y que l'on échantillonnera sera E(y|theta) = 160 + 0.5(theta-160).
Et si l'on applique de façon répétée l'estimateur 8.1 sur les répétitions d'échantillonnage de valeurs y pour une vraie valeur de theta fixée, on obtiendra en moyenne:
160 + 0.5(E(y|theta) -160) = 160 + 0.5([160+0.5(theta-160)] - 160) = 160 + 0.25(theta-160)
Autrement dit, l'application de l'estimateur 8.1 sur des tirages répétés de y sachant une valeur fixée de theta ne donne pas theta en moyenne. Cet estimateur est biaisé.
Maintenant, imaginons que l'on ait utilisé cet estimateur sorti du chapeau:
theta.hat = 160 + 2(y-160) (appelons le par exemple estimateur B)
Alors, après échantillonnage répété, l'espérance de cet estimateur serait:
160 + 2(E(y|theta) -160) = 160 + 2([160+0.5(theta-160)] - 160) = theta
Et cet estimateur B serait non biaisé. Mais l'estimateur B n'a aucun sens: par exemple, si une fille mesure 10 cm de plus que la moyenne il estime que sa mère mesure 20 cm de plus que la moyenne.
L'argument de Gelman et al. est alors que n'importe qui de sensé rejetterait l'estimateur non-biaisé. En fait, dans un problème tel que celui-là, ça n'a aucun sens de chercher à *estimer* theta. /Instead, this problem would be classified as 'prediction' rather than 'estimation', and procedures would not be evaluated conditional on the random variable theta/.
Dans l'article de blog pointé ici, Gelman formalise également les choses, de façon concise et très pédagogique:
In frequentist statistics, theta.hat is an unbiased estimate if E(theta.hat|theta) = theta, for any theta [c'est ce qui est illustré dans l'exemple ci-dessus]. But y.hat is an unbiased prediction if E(y.hat|theta) = E(y|theta) for any theta [ainsi, dans l'exemple ci-dessus, le prédicteur 8.1 est non biaisé]. Note the difference: the frequentist averages over y, but not over theta.
On voit alors que la définition de ``non-biaisé'' dépend de l'objectif en fréquentiste. Et il conclue:
Another way of putting this is: everybody, frequentists and Bayesians alike, agree that it’s appropriate to be Bayesian for predictions. (This is particularly clear in time series analysis, for example.) The debate arises over what to do with estimation: whether or not to average over a distribution for those unknown thetas.
Remarque: Le principe illustré par cet exemple, et parfaitement pris en compte par l'estimation bayésienne (et la prédiction fréquentiste par régression linéaire), est le principe de la régression vers la moyenne. Certes, la prédiction est une estimation biaisée. Mais c'est pas plus mal. Comme le disent Gelman et al. "In many ways, Bayesian analysis can be seen as a logical extension of the principle of regression to the mean, ensuring that proper weighting is made of information from different sources".
J'aime beaucoup les qualités pédagogiques de ce gars-là...
Ah? Bon, faut que je trouve le temps de lire ça, m'a l'air pas mal comme concept.
À voir
À voir
Une autre solution au slicer coincé à l'infini. Et une explication au problème...
grrrrrr
Edit: si le problème se produit, il ne faut pas oublier que la distribution gamma inclue une *fonction* gamma, et que Gamma(x) = (x-1)!
Et la factorielle augmente assez fortement avec x. Donc pour une distribution gamma G(a,b), si a est trop important, Gamma(a) ne pourra être calculé numériquement, et ça se traduira par une valeur infinie. Un bidouillage consiste à tronquer la prior de a si a est une variable à estimer.
grrrrrr
Edit: si le problème se produit, il ne faut pas oublier que la distribution gamma inclue une *fonction* gamma, et que Gamma(x) = (x-1)!
Et la factorielle augmente assez fortement avec x. Donc pour une distribution gamma G(a,b), si a est trop important, Gamma(a) ne pourra être calculé numériquement, et ça se traduira par une valeur infinie. Un bidouillage consiste à tronquer la prior de a si a est une variable à estimer.
La loi gamma est une loi de merde. Mais malheureusement, parfois inévitable.
Je me stocke ça ici pour si jamais un jour je retombe sur le même problème. Quand on ajuste un modèle de tendance temporelle avec des résidus autocorrélés selon un modèle de corrélation exponentielle (Diggle et al. 2002, Analysis of longitudinal data, p. 56) avec JAGS, il ne faut pas générer les résidus en tirant dans une loi multinormale de moyenne nulle que l'on va ajouter à une tendance. Il faut tirer dans une loi multinormale dont le vecteur moyenne EST la tendance. Je me suis arraché les cheveux là-dessus, mais le mélange est bien meilleur si l'on procède comme ça. Autrement dit, il ne faut pas faire ça:
residus~dmnorm(vecteurDeZeros, Omega)
for (i in 1:10) {
esperance[i]<- mu[i] + residus[i]
}
Mais plutôt faire ça:
esperance~dmnorm(mu, Omega)
Les chaînes se mélangent mieux. Fallait le savoir...
Edit: Bon apparemment, la stratégie est connue et est valable pour tout modèle linéaire réclamant un résidu quelconque: on ne doit jamais tirer au sort un résidu dans une loi normale de moyenne nulle. Mais on indique que la réponse suit une loi normale de moyenne correspondant à l'espérance modélisée. Ça s'appelle du hierarchical centring (voir Browne et al. 2009, dans Journal of the Royal Statistical Society). Par contre, il paraît que ça marche pas top quand la variance est faible.
residus~dmnorm(vecteurDeZeros, Omega)
for (i in 1:10) {
esperance[i]<- mu[i] + residus[i]
}
Mais plutôt faire ça:
esperance~dmnorm(mu, Omega)
Les chaînes se mélangent mieux. Fallait le savoir...
Edit: Bon apparemment, la stratégie est connue et est valable pour tout modèle linéaire réclamant un résidu quelconque: on ne doit jamais tirer au sort un résidu dans une loi normale de moyenne nulle. Mais on indique que la réponse suit une loi normale de moyenne correspondant à l'espérance modélisée. Ça s'appelle du hierarchical centring (voir Browne et al. 2009, dans Journal of the Royal Statistical Society). Par contre, il paraît que ça marche pas top quand la variance est faible.
Et puisqu'on parle d'Andrew Gelman, ya ça aussi...
Des citations de Gelman sur les pratiques de la statistique.
J'aime bien
"People don't go around introducing you to their ex-wives", pour souligner le fait que normalement, on ne devrait pas passer son temps dans les papiers à expliquer quels modèles on a testé avant de sélectionner le modèle final.
Les coefficients significatifs avec un signe inattendu (genre négatif au lieu de positif) indiquent qu'une interaction manque.
Pour le reste, je lirai plus tard
J'aime bien
"People don't go around introducing you to their ex-wives", pour souligner le fait que normalement, on ne devrait pas passer son temps dans les papiers à expliquer quels modèles on a testé avant de sélectionner le modèle final.
Les coefficients significatifs avec un signe inattendu (genre négatif au lieu de positif) indiquent qu'une interaction manque.
Pour le reste, je lirai plus tard