2385 shaares
448 results
tagged
stats
Encore un post super intéressant de Gelman. En vrac, dans le texte:
"In general, people are uncomfortable with not knowing and would like to use statistics to create fortresses of certainty in a dangerous, uncertain world. Along with this is an even more extreme attitude, which is not just to deny uncertainty but to deny variation."
"My message there is that sometimes variation itself is the story, but there’s a tendency among researchers to express statements in terms of average"
Dans les commentaires (David Lentini):
"I’ve thought of these conclusions as a sort of “reification of the mean”, in which the investigator creates a mystical uniform population that have the properties of the mean and then examine a representative their mystical population."
"In addition to Tversky and Kahneman, I can recommend Leonard Mlodinow’s book “The Drunkard’s Walk.”"
Va falloir que je me procure ce dernier bouquin, l'a l'air intéressant...
"In general, people are uncomfortable with not knowing and would like to use statistics to create fortresses of certainty in a dangerous, uncertain world. Along with this is an even more extreme attitude, which is not just to deny uncertainty but to deny variation."
"My message there is that sometimes variation itself is the story, but there’s a tendency among researchers to express statements in terms of average"
Dans les commentaires (David Lentini):
"I’ve thought of these conclusions as a sort of “reification of the mean”, in which the investigator creates a mystical uniform population that have the properties of the mean and then examine a representative their mystical population."
"In addition to Tversky and Kahneman, I can recommend Leonard Mlodinow’s book “The Drunkard’s Walk.”"
Va falloir que je me procure ce dernier bouquin, l'a l'air intéressant...
À récupérer et à lire. Les premiers chapitres ont l'air super-intéressant.
Ah tiens? à lire un jour.
Un jour.
Un jour.
Apparemment, ce n'est pas si simple: le big data existe qu'on le veuille ou non. Pour le moment, le truc est mobilisé par les informaticiens, mais les stateux devraient aussi s'intéresser à la chose. Pour le moment, la rupture est claire. Mais à l'avenir? "The goal is to prepare members of our profession to collaborate on Big Data problems". On va y venir, on n'y coupera pas...
Comme l'indique l'auteur: "We know statistical thinking—our understanding of modeling, bias, confounding, false discovery, uncertainty, sampling, and design—brings much to the table. We also must be prepared to understand other ways of thinking that are critical in the Age of Big Data and to integrate these with our own expertise and knowledge."
Ça me fait penser aux données GPS et au SIG en écologie: pendant longtemps, ça a été très à la mode, la révolution, on pouvait plus rien faire sans utiliser ça. Ensuite, retour de balancier, comme on savait pas quoi en faire on a commencé à se dire que c'était pas la solution. Et maintenant, des solutions apparaissent, et on se rend compte que ça permet de répondre à certaine question et pas à d'autres... et on devient plus raisonnable
Là, c'est un peut pareil: on a des bouquin du genre: "Big Data: A Revolution That Will Transform How We Live, Work, and Think", tout le monde qui le vend à toutes les sauces, et quand on aura compris qu'on peut faire de la belle merde avec ça, on reviendra à des questions plus raisonnables... mais tout aussi pertinentes.
Bon ben d'accord, je vais lancer une veille là-dessus... à rapprocher de la veille sur les sciences participatives, ce sont les mêmes questions qui se posent!
Comme l'indique l'auteur: "We know statistical thinking—our understanding of modeling, bias, confounding, false discovery, uncertainty, sampling, and design—brings much to the table. We also must be prepared to understand other ways of thinking that are critical in the Age of Big Data and to integrate these with our own expertise and knowledge."
Ça me fait penser aux données GPS et au SIG en écologie: pendant longtemps, ça a été très à la mode, la révolution, on pouvait plus rien faire sans utiliser ça. Ensuite, retour de balancier, comme on savait pas quoi en faire on a commencé à se dire que c'était pas la solution. Et maintenant, des solutions apparaissent, et on se rend compte que ça permet de répondre à certaine question et pas à d'autres... et on devient plus raisonnable
Là, c'est un peut pareil: on a des bouquin du genre: "Big Data: A Revolution That Will Transform How We Live, Work, and Think", tout le monde qui le vend à toutes les sauces, et quand on aura compris qu'on peut faire de la belle merde avec ça, on reviendra à des questions plus raisonnables... mais tout aussi pertinentes.
Bon ben d'accord, je vais lancer une veille là-dessus... à rapprocher de la veille sur les sciences participatives, ce sont les mêmes questions qui se posent!
Faire une ACC sur les gros jeux de données.
Une question TRÈS intéressante sur reddit. Je connais beaucoup de ces livres, et effectivement, ce sont des must read. Donc je vais me procurer les autres
Je stocke ça ici. Si on considère une variable N correspondant à la somme de P lois de Poisson iid de paramètre lambda, avec P lui-même tiré d'une loi de Poisson de paramètre mu. Alors N suit une distribution de Neyman type A (Johnson et al. 2005, univariate discrete distribution). L'espérance de N est mu*lambda, et la variance de N est donnée par McElduff (2012, Models for discrete epidemiological and clinical data. Doctoral thesis, University College London) comme mu×lambda×(lambda+1). Et la pdf ne peut pas être obtenue en closed form (voir la thèse de McElduff 2012).
Concernant l'espérance et la variance, voir aussi Diggle (1983, Statistical analysis of spatial points pattern -- à noter Diggle ne parle pas de distribution de Neyman type A, mais ça revient au même dans le cas du cluster poisson process),
Concernant l'espérance et la variance, voir aussi Diggle (1983, Statistical analysis of spatial points pattern -- à noter Diggle ne parle pas de distribution de Neyman type A, mais ça revient au même dans le cas du cluster poisson process),
Un outil pour corriger la présence de frontière dans l'estimation d'une densité par la méthode du noyau.
À garder sous le coude.
À garder sous le coude.
Je stocke ça ici parce que je me prends la tête à chaque fois pour l'interprétation des résidus d'un modèle poissonnien. Issu de Cameron et Trivedi (1998; Regression analysis of count data. Econometric society monographs), page 141:
"For count data there is no one residual that has zero mean, constant variance, and symmetric distribution. This leads to several different residuals according to which of hese properties is felt to be the most desirable".
Et en l'occurrence, pour l'examen de l'hétéroscédasticité, on utilise les résidus de Pearson (obs - th)/sqrt(th)
Ce résidu aura une moyenne nulle et sera homoscédastique, mais la distribution sera asymétrique.
Les résidus de déviance sont calculés par
d = signe(obs-th) sqrt(2*(obs*log(obs/th) - (obs-th)))
La somme de ces résidus donne la déviance. Donc on peut identifier les résidus qui contribuent le plus au mauvais ajustement.
Les résidus d'Anscombe est défini comme la transfo de y qui est la plus proche de la normalité:
a = 1.5*(obs^(2/3) - th^(2/3))/(th^(1/6))
"For count data there is no one residual that has zero mean, constant variance, and symmetric distribution. This leads to several different residuals according to which of hese properties is felt to be the most desirable".
Et en l'occurrence, pour l'examen de l'hétéroscédasticité, on utilise les résidus de Pearson (obs - th)/sqrt(th)
Ce résidu aura une moyenne nulle et sera homoscédastique, mais la distribution sera asymétrique.
Les résidus de déviance sont calculés par
d = signe(obs-th) sqrt(2*(obs*log(obs/th) - (obs-th)))
La somme de ces résidus donne la déviance. Donc on peut identifier les résidus qui contribuent le plus au mauvais ajustement.
Les résidus d'Anscombe est défini comme la transfo de y qui est la plus proche de la normalité:
a = 1.5*(obs^(2/3) - th^(2/3))/(th^(1/6))
Suite
Eh ben dis donc, la pile d'article à lire commence à être un peu haute. Ils produisent plus que je n'ai le temps de lire.
Ça bouge du côté de l'ABC... plus ça va plus je trouve cette approche intéressante. À lire
Une discussion intéressante autour des critiques de l'ABC. À suivre
Une conversation intéressante entre quelques pointures de la statistique
Des zoulis graphes en python. Je me garde l'idée de ce type de représentation graphique sous le coude
Je stocke ça ici, parce que ça fait plusieurs fois que je recherche la référence, et que j'essaie de reproduire le raisonnement. Dans cet article de son blog, Gelman décrit très précisément en quoi la notion de prédiction diffère de la notion d'estimation sur un plan purement statistique: "you estimate parameters and you predict observables". C'est important, et p. 248 dans le "Bayesian Data Analysis" (Gelman, A.; Carlin, J.; Stern, H. & Rubin, D. Bayesian data analysis Chapman & Hall/CRC, 2004), Gelman et al. donnent un bon exemple de la distinction entre ces deux approches, que je reproduit ici pour ne pas avoir à me recogner le truc la prochaine fois que je me poserai la question.
Considérons le problème consistant à *estimer* theta, la taille de la mère, sachant y, la taille de sa fille adulte. Notons que nous ne parlons pas ici de prédiction mais bien d'estimation, et pour être tout-à-fait clair, je vais formuler le problème en fréquentiste. Nous supposons ici que la distribution jointe de la taille de la mère et de la fille est une loi normale bivariée de moyenne c(160,160), de variances sigma^2 égales, et de corrélation r=0.5.
Dans un problème d'estimation classique, nous avons un paramètre theta qui caractérise un processus qui "génère" une "population" de valeurs. Ici, le paramètre theta caractérise la taille de la mère qui va générer une population de filles de taille différentes. Nous effectuons alors un échantillonnage d'une fille dans cette population, et nous mesurons sa taille y. La question est alors comment estimer ce paramètre theta qui caractérise la taille de la mère à partir de la donnée y. Nous avons besoin d'un estimateur. L'estimateur sera non-biaisé si, après avoir répété cette opération d'échantillonnage un grand nombre de fois, l'espérance des estimées theta.hat est égale à la vraie valeur theta.
Pour une valeur de theta donnée, nous effectuons donc un échantillonnage et nous mesurons la valeur d'une fille y. Ce que nous avons dit précédemment de la distribution jointe supposée connue de la taille de la mère et de la fille suggère alors l'utilisation d'un estimateur. En effet, la solution la plus logique consisterait à nous servir comme estimateur de E(theta|y), c'est à dire l'espérance de la taille de la mère sachant la taille de la fille. La théorie statistique nous permet de calculer cette valeur (cf. http://en.wikipedia.org/wiki/Multivariate_normal_distribution#Bivariate_case):
E(theta|y) = 160 + 0.5(y-160) (équation 8.1 de Gelman et al.)
Mais cette espérance à postériori n'est pas un *estimateur non biaisé* de theta. En effet, pour que ce soit un estimateur non-biaisé de theta, il faudrait que lorsque l'on répète l'échantillonnage de y sachant la valeur fixée de theta, et que l'on réapplique l'estimateur, en moyenne, on obtienne theta. Pourtant, si l'on répète l'échantillonnage de y pour une valeur de theta fixée, en moyenne, la valeur de y que l'on échantillonnera sera E(y|theta) = 160 + 0.5(theta-160).
Et si l'on applique de façon répétée l'estimateur 8.1 sur les répétitions d'échantillonnage de valeurs y pour une vraie valeur de theta fixée, on obtiendra en moyenne:
160 + 0.5(E(y|theta) -160) = 160 + 0.5([160+0.5(theta-160)] - 160) = 160 + 0.25(theta-160)
Autrement dit, l'application de l'estimateur 8.1 sur des tirages répétés de y sachant une valeur fixée de theta ne donne pas theta en moyenne. Cet estimateur est biaisé.
Maintenant, imaginons que l'on ait utilisé cet estimateur sorti du chapeau:
theta.hat = 160 + 2(y-160) (appelons le par exemple estimateur B)
Alors, après échantillonnage répété, l'espérance de cet estimateur serait:
160 + 2(E(y|theta) -160) = 160 + 2([160+0.5(theta-160)] - 160) = theta
Et cet estimateur B serait non biaisé. Mais l'estimateur B n'a aucun sens: par exemple, si une fille mesure 10 cm de plus que la moyenne il estime que sa mère mesure 20 cm de plus que la moyenne.
L'argument de Gelman et al. est alors que n'importe qui de sensé rejetterait l'estimateur non-biaisé. En fait, dans un problème tel que celui-là, ça n'a aucun sens de chercher à *estimer* theta. /Instead, this problem would be classified as 'prediction' rather than 'estimation', and procedures would not be evaluated conditional on the random variable theta/.
Dans l'article de blog pointé ici, Gelman formalise également les choses, de façon concise et très pédagogique:
In frequentist statistics, theta.hat is an unbiased estimate if E(theta.hat|theta) = theta, for any theta [c'est ce qui est illustré dans l'exemple ci-dessus]. But y.hat is an unbiased prediction if E(y.hat|theta) = E(y|theta) for any theta [ainsi, dans l'exemple ci-dessus, le prédicteur 8.1 est non biaisé]. Note the difference: the frequentist averages over y, but not over theta.
On voit alors que la définition de ``non-biaisé'' dépend de l'objectif en fréquentiste. Et il conclue:
Another way of putting this is: everybody, frequentists and Bayesians alike, agree that it’s appropriate to be Bayesian for predictions. (This is particularly clear in time series analysis, for example.) The debate arises over what to do with estimation: whether or not to average over a distribution for those unknown thetas.
Remarque: Le principe illustré par cet exemple, et parfaitement pris en compte par l'estimation bayésienne (et la prédiction fréquentiste par régression linéaire), est le principe de la régression vers la moyenne. Certes, la prédiction est une estimation biaisée. Mais c'est pas plus mal. Comme le disent Gelman et al. "In many ways, Bayesian analysis can be seen as a logical extension of the principle of regression to the mean, ensuring that proper weighting is made of information from different sources".
J'aime beaucoup les qualités pédagogiques de ce gars-là...
Considérons le problème consistant à *estimer* theta, la taille de la mère, sachant y, la taille de sa fille adulte. Notons que nous ne parlons pas ici de prédiction mais bien d'estimation, et pour être tout-à-fait clair, je vais formuler le problème en fréquentiste. Nous supposons ici que la distribution jointe de la taille de la mère et de la fille est une loi normale bivariée de moyenne c(160,160), de variances sigma^2 égales, et de corrélation r=0.5.
Dans un problème d'estimation classique, nous avons un paramètre theta qui caractérise un processus qui "génère" une "population" de valeurs. Ici, le paramètre theta caractérise la taille de la mère qui va générer une population de filles de taille différentes. Nous effectuons alors un échantillonnage d'une fille dans cette population, et nous mesurons sa taille y. La question est alors comment estimer ce paramètre theta qui caractérise la taille de la mère à partir de la donnée y. Nous avons besoin d'un estimateur. L'estimateur sera non-biaisé si, après avoir répété cette opération d'échantillonnage un grand nombre de fois, l'espérance des estimées theta.hat est égale à la vraie valeur theta.
Pour une valeur de theta donnée, nous effectuons donc un échantillonnage et nous mesurons la valeur d'une fille y. Ce que nous avons dit précédemment de la distribution jointe supposée connue de la taille de la mère et de la fille suggère alors l'utilisation d'un estimateur. En effet, la solution la plus logique consisterait à nous servir comme estimateur de E(theta|y), c'est à dire l'espérance de la taille de la mère sachant la taille de la fille. La théorie statistique nous permet de calculer cette valeur (cf. http://en.wikipedia.org/wiki/Multivariate_normal_distribution#Bivariate_case):
E(theta|y) = 160 + 0.5(y-160) (équation 8.1 de Gelman et al.)
Mais cette espérance à postériori n'est pas un *estimateur non biaisé* de theta. En effet, pour que ce soit un estimateur non-biaisé de theta, il faudrait que lorsque l'on répète l'échantillonnage de y sachant la valeur fixée de theta, et que l'on réapplique l'estimateur, en moyenne, on obtienne theta. Pourtant, si l'on répète l'échantillonnage de y pour une valeur de theta fixée, en moyenne, la valeur de y que l'on échantillonnera sera E(y|theta) = 160 + 0.5(theta-160).
Et si l'on applique de façon répétée l'estimateur 8.1 sur les répétitions d'échantillonnage de valeurs y pour une vraie valeur de theta fixée, on obtiendra en moyenne:
160 + 0.5(E(y|theta) -160) = 160 + 0.5([160+0.5(theta-160)] - 160) = 160 + 0.25(theta-160)
Autrement dit, l'application de l'estimateur 8.1 sur des tirages répétés de y sachant une valeur fixée de theta ne donne pas theta en moyenne. Cet estimateur est biaisé.
Maintenant, imaginons que l'on ait utilisé cet estimateur sorti du chapeau:
theta.hat = 160 + 2(y-160) (appelons le par exemple estimateur B)
Alors, après échantillonnage répété, l'espérance de cet estimateur serait:
160 + 2(E(y|theta) -160) = 160 + 2([160+0.5(theta-160)] - 160) = theta
Et cet estimateur B serait non biaisé. Mais l'estimateur B n'a aucun sens: par exemple, si une fille mesure 10 cm de plus que la moyenne il estime que sa mère mesure 20 cm de plus que la moyenne.
L'argument de Gelman et al. est alors que n'importe qui de sensé rejetterait l'estimateur non-biaisé. En fait, dans un problème tel que celui-là, ça n'a aucun sens de chercher à *estimer* theta. /Instead, this problem would be classified as 'prediction' rather than 'estimation', and procedures would not be evaluated conditional on the random variable theta/.
Dans l'article de blog pointé ici, Gelman formalise également les choses, de façon concise et très pédagogique:
In frequentist statistics, theta.hat is an unbiased estimate if E(theta.hat|theta) = theta, for any theta [c'est ce qui est illustré dans l'exemple ci-dessus]. But y.hat is an unbiased prediction if E(y.hat|theta) = E(y|theta) for any theta [ainsi, dans l'exemple ci-dessus, le prédicteur 8.1 est non biaisé]. Note the difference: the frequentist averages over y, but not over theta.
On voit alors que la définition de ``non-biaisé'' dépend de l'objectif en fréquentiste. Et il conclue:
Another way of putting this is: everybody, frequentists and Bayesians alike, agree that it’s appropriate to be Bayesian for predictions. (This is particularly clear in time series analysis, for example.) The debate arises over what to do with estimation: whether or not to average over a distribution for those unknown thetas.
Remarque: Le principe illustré par cet exemple, et parfaitement pris en compte par l'estimation bayésienne (et la prédiction fréquentiste par régression linéaire), est le principe de la régression vers la moyenne. Certes, la prédiction est une estimation biaisée. Mais c'est pas plus mal. Comme le disent Gelman et al. "In many ways, Bayesian analysis can be seen as a logical extension of the principle of regression to the mean, ensuring that proper weighting is made of information from different sources".
J'aime beaucoup les qualités pédagogiques de ce gars-là...
À lire, ça a l'air une analyse intéressante du problème.
Ah? Bon, faut que je trouve le temps de lire ça, m'a l'air pas mal comme concept.
À voir
À voir
Des zoulies animations de recuit simulé.
Tiens, faudra que j'écoute ça. Avec Christian Robert parmi les invités.