2390 shaares
449 results
tagged
stats
Encore un post super intéressant de Gelman. Je me rends compte que j'avais mal compris ce concept de data science. Jusque là, je pensais qu'il s'agissait en quelque sorte du métier de biométricien (surtout à cause de post comme celui-ci: http://learnitdaily.com/what-is-a-data-scientist/), et je me rends compte que c'est très très loin d'être la vision dominante.
En fait ce concept de data science est à rapprocher du débat autour des big data. Comme l'indique Gelman:
It’s been said that the most important thing in statistics is not what you do with the data, but, rather, what data you use.
Le concept de data science se rapproche plutôt du premier point. Donc, si je comprends bien, le concept de data science part de la donnée et non du problème. On a un jeu de données, que peut-on en faire?
"the point of data science (as I see it) is to be able to grab the damn data."
En un sens, la question est la même que celle posée par le concept de big data: la donnée existe, on ne peut pas l'ignorer. Après, c'est un peu dérangeant ce côté "oublions la statistique, les statisticiens sont des dinosaures dont on ne doit pas se préoccupper", c'est la porte ouverte à toutes les escroqueries (une collecte opportuniste de la donnée introduit des biais dans l'inférence, c'est inévitable). Mais apparemment, c'est surtout le blogger discuté ici qui a ce comportement, et ça ne reflète pas forcément l'ensemble des data scientists.
Au passage, très bonne remarque:
" So I think it’s important to keep these two things separate: (a) reactions (positive or negative) to the hype, and (b) attitudes about the subject of the hype."
Ce n'est pas parce qu'un sujet est à la mode qu'il est bon. Mais ce n'est pas pour autant qu'il est mauvais.
Bon, d'accord, je lance une veille là-dessus.
En fait ce concept de data science est à rapprocher du débat autour des big data. Comme l'indique Gelman:
It’s been said that the most important thing in statistics is not what you do with the data, but, rather, what data you use.
Le concept de data science se rapproche plutôt du premier point. Donc, si je comprends bien, le concept de data science part de la donnée et non du problème. On a un jeu de données, que peut-on en faire?
"the point of data science (as I see it) is to be able to grab the damn data."
En un sens, la question est la même que celle posée par le concept de big data: la donnée existe, on ne peut pas l'ignorer. Après, c'est un peu dérangeant ce côté "oublions la statistique, les statisticiens sont des dinosaures dont on ne doit pas se préoccupper", c'est la porte ouverte à toutes les escroqueries (une collecte opportuniste de la donnée introduit des biais dans l'inférence, c'est inévitable). Mais apparemment, c'est surtout le blogger discuté ici qui a ce comportement, et ça ne reflète pas forcément l'ensemble des data scientists.
Au passage, très bonne remarque:
" So I think it’s important to keep these two things separate: (a) reactions (positive or negative) to the hype, and (b) attitudes about the subject of the hype."
Ce n'est pas parce qu'un sujet est à la mode qu'il est bon. Mais ce n'est pas pour autant qu'il est mauvais.
Bon, d'accord, je lance une veille là-dessus.
Encore un post super intéressant de Gelman. En vrac, dans le texte:
"In general, people are uncomfortable with not knowing and would like to use statistics to create fortresses of certainty in a dangerous, uncertain world. Along with this is an even more extreme attitude, which is not just to deny uncertainty but to deny variation."
"My message there is that sometimes variation itself is the story, but there’s a tendency among researchers to express statements in terms of average"
Dans les commentaires (David Lentini):
"I’ve thought of these conclusions as a sort of “reification of the mean”, in which the investigator creates a mystical uniform population that have the properties of the mean and then examine a representative their mystical population."
"In addition to Tversky and Kahneman, I can recommend Leonard Mlodinow’s book “The Drunkard’s Walk.”"
Va falloir que je me procure ce dernier bouquin, l'a l'air intéressant...
"In general, people are uncomfortable with not knowing and would like to use statistics to create fortresses of certainty in a dangerous, uncertain world. Along with this is an even more extreme attitude, which is not just to deny uncertainty but to deny variation."
"My message there is that sometimes variation itself is the story, but there’s a tendency among researchers to express statements in terms of average"
Dans les commentaires (David Lentini):
"I’ve thought of these conclusions as a sort of “reification of the mean”, in which the investigator creates a mystical uniform population that have the properties of the mean and then examine a representative their mystical population."
"In addition to Tversky and Kahneman, I can recommend Leonard Mlodinow’s book “The Drunkard’s Walk.”"
Va falloir que je me procure ce dernier bouquin, l'a l'air intéressant...
À récupérer et à lire. Les premiers chapitres ont l'air super-intéressant.
Ah tiens? à lire un jour.
Un jour.
Un jour.
Apparemment, ce n'est pas si simple: le big data existe qu'on le veuille ou non. Pour le moment, le truc est mobilisé par les informaticiens, mais les stateux devraient aussi s'intéresser à la chose. Pour le moment, la rupture est claire. Mais à l'avenir? "The goal is to prepare members of our profession to collaborate on Big Data problems". On va y venir, on n'y coupera pas...
Comme l'indique l'auteur: "We know statistical thinking—our understanding of modeling, bias, confounding, false discovery, uncertainty, sampling, and design—brings much to the table. We also must be prepared to understand other ways of thinking that are critical in the Age of Big Data and to integrate these with our own expertise and knowledge."
Ça me fait penser aux données GPS et au SIG en écologie: pendant longtemps, ça a été très à la mode, la révolution, on pouvait plus rien faire sans utiliser ça. Ensuite, retour de balancier, comme on savait pas quoi en faire on a commencé à se dire que c'était pas la solution. Et maintenant, des solutions apparaissent, et on se rend compte que ça permet de répondre à certaine question et pas à d'autres... et on devient plus raisonnable
Là, c'est un peut pareil: on a des bouquin du genre: "Big Data: A Revolution That Will Transform How We Live, Work, and Think", tout le monde qui le vend à toutes les sauces, et quand on aura compris qu'on peut faire de la belle merde avec ça, on reviendra à des questions plus raisonnables... mais tout aussi pertinentes.
Bon ben d'accord, je vais lancer une veille là-dessus... à rapprocher de la veille sur les sciences participatives, ce sont les mêmes questions qui se posent!
Comme l'indique l'auteur: "We know statistical thinking—our understanding of modeling, bias, confounding, false discovery, uncertainty, sampling, and design—brings much to the table. We also must be prepared to understand other ways of thinking that are critical in the Age of Big Data and to integrate these with our own expertise and knowledge."
Ça me fait penser aux données GPS et au SIG en écologie: pendant longtemps, ça a été très à la mode, la révolution, on pouvait plus rien faire sans utiliser ça. Ensuite, retour de balancier, comme on savait pas quoi en faire on a commencé à se dire que c'était pas la solution. Et maintenant, des solutions apparaissent, et on se rend compte que ça permet de répondre à certaine question et pas à d'autres... et on devient plus raisonnable
Là, c'est un peut pareil: on a des bouquin du genre: "Big Data: A Revolution That Will Transform How We Live, Work, and Think", tout le monde qui le vend à toutes les sauces, et quand on aura compris qu'on peut faire de la belle merde avec ça, on reviendra à des questions plus raisonnables... mais tout aussi pertinentes.
Bon ben d'accord, je vais lancer une veille là-dessus... à rapprocher de la veille sur les sciences participatives, ce sont les mêmes questions qui se posent!
Faire une ACC sur les gros jeux de données.
Une question TRÈS intéressante sur reddit. Je connais beaucoup de ces livres, et effectivement, ce sont des must read. Donc je vais me procurer les autres
Je stocke ça ici. Si on considère une variable N correspondant à la somme de P lois de Poisson iid de paramètre lambda, avec P lui-même tiré d'une loi de Poisson de paramètre mu. Alors N suit une distribution de Neyman type A (Johnson et al. 2005, univariate discrete distribution). L'espérance de N est mu*lambda, et la variance de N est donnée par McElduff (2012, Models for discrete epidemiological and clinical data. Doctoral thesis, University College London) comme mu×lambda×(lambda+1). Et la pdf ne peut pas être obtenue en closed form (voir la thèse de McElduff 2012).
Concernant l'espérance et la variance, voir aussi Diggle (1983, Statistical analysis of spatial points pattern -- à noter Diggle ne parle pas de distribution de Neyman type A, mais ça revient au même dans le cas du cluster poisson process),
Concernant l'espérance et la variance, voir aussi Diggle (1983, Statistical analysis of spatial points pattern -- à noter Diggle ne parle pas de distribution de Neyman type A, mais ça revient au même dans le cas du cluster poisson process),
Un outil pour corriger la présence de frontière dans l'estimation d'une densité par la méthode du noyau.
À garder sous le coude.
À garder sous le coude.
Je stocke ça ici parce que je me prends la tête à chaque fois pour l'interprétation des résidus d'un modèle poissonnien. Issu de Cameron et Trivedi (1998; Regression analysis of count data. Econometric society monographs), page 141:
"For count data there is no one residual that has zero mean, constant variance, and symmetric distribution. This leads to several different residuals according to which of hese properties is felt to be the most desirable".
Et en l'occurrence, pour l'examen de l'hétéroscédasticité, on utilise les résidus de Pearson (obs - th)/sqrt(th)
Ce résidu aura une moyenne nulle et sera homoscédastique, mais la distribution sera asymétrique.
Les résidus de déviance sont calculés par
d = signe(obs-th) sqrt(2*(obs*log(obs/th) - (obs-th)))
La somme de ces résidus donne la déviance. Donc on peut identifier les résidus qui contribuent le plus au mauvais ajustement.
Les résidus d'Anscombe est défini comme la transfo de y qui est la plus proche de la normalité:
a = 1.5*(obs^(2/3) - th^(2/3))/(th^(1/6))
"For count data there is no one residual that has zero mean, constant variance, and symmetric distribution. This leads to several different residuals according to which of hese properties is felt to be the most desirable".
Et en l'occurrence, pour l'examen de l'hétéroscédasticité, on utilise les résidus de Pearson (obs - th)/sqrt(th)
Ce résidu aura une moyenne nulle et sera homoscédastique, mais la distribution sera asymétrique.
Les résidus de déviance sont calculés par
d = signe(obs-th) sqrt(2*(obs*log(obs/th) - (obs-th)))
La somme de ces résidus donne la déviance. Donc on peut identifier les résidus qui contribuent le plus au mauvais ajustement.
Les résidus d'Anscombe est défini comme la transfo de y qui est la plus proche de la normalité:
a = 1.5*(obs^(2/3) - th^(2/3))/(th^(1/6))
Suite
Eh ben dis donc, la pile d'article à lire commence à être un peu haute. Ils produisent plus que je n'ai le temps de lire.
Ça bouge du côté de l'ABC... plus ça va plus je trouve cette approche intéressante. À lire
Une discussion intéressante autour des critiques de l'ABC. À suivre
Une conversation intéressante entre quelques pointures de la statistique
Des zoulis graphes en python. Je me garde l'idée de ce type de représentation graphique sous le coude
Je stocke ça ici, parce que ça fait plusieurs fois que je recherche la référence, et que j'essaie de reproduire le raisonnement. Dans cet article de son blog, Gelman décrit très précisément en quoi la notion de prédiction diffère de la notion d'estimation sur un plan purement statistique: "you estimate parameters and you predict observables". C'est important, et p. 248 dans le "Bayesian Data Analysis" (Gelman, A.; Carlin, J.; Stern, H. & Rubin, D. Bayesian data analysis Chapman & Hall/CRC, 2004), Gelman et al. donnent un bon exemple de la distinction entre ces deux approches, que je reproduit ici pour ne pas avoir à me recogner le truc la prochaine fois que je me poserai la question.
Considérons le problème consistant à *estimer* theta, la taille de la mère, sachant y, la taille de sa fille adulte. Notons que nous ne parlons pas ici de prédiction mais bien d'estimation, et pour être tout-à-fait clair, je vais formuler le problème en fréquentiste. Nous supposons ici que la distribution jointe de la taille de la mère et de la fille est une loi normale bivariée de moyenne c(160,160), de variances sigma^2 égales, et de corrélation r=0.5.
Dans un problème d'estimation classique, nous avons un paramètre theta qui caractérise un processus qui "génère" une "population" de valeurs. Ici, le paramètre theta caractérise la taille de la mère qui va générer une population de filles de taille différentes. Nous effectuons alors un échantillonnage d'une fille dans cette population, et nous mesurons sa taille y. La question est alors comment estimer ce paramètre theta qui caractérise la taille de la mère à partir de la donnée y. Nous avons besoin d'un estimateur. L'estimateur sera non-biaisé si, après avoir répété cette opération d'échantillonnage un grand nombre de fois, l'espérance des estimées theta.hat est égale à la vraie valeur theta.
Pour une valeur de theta donnée, nous effectuons donc un échantillonnage et nous mesurons la valeur d'une fille y. Ce que nous avons dit précédemment de la distribution jointe supposée connue de la taille de la mère et de la fille suggère alors l'utilisation d'un estimateur. En effet, la solution la plus logique consisterait à nous servir comme estimateur de E(theta|y), c'est à dire l'espérance de la taille de la mère sachant la taille de la fille. La théorie statistique nous permet de calculer cette valeur (cf. http://en.wikipedia.org/wiki/Multivariate_normal_distribution#Bivariate_case):
E(theta|y) = 160 + 0.5(y-160) (équation 8.1 de Gelman et al.)
Mais cette espérance à postériori n'est pas un *estimateur non biaisé* de theta. En effet, pour que ce soit un estimateur non-biaisé de theta, il faudrait que lorsque l'on répète l'échantillonnage de y sachant la valeur fixée de theta, et que l'on réapplique l'estimateur, en moyenne, on obtienne theta. Pourtant, si l'on répète l'échantillonnage de y pour une valeur de theta fixée, en moyenne, la valeur de y que l'on échantillonnera sera E(y|theta) = 160 + 0.5(theta-160).
Et si l'on applique de façon répétée l'estimateur 8.1 sur les répétitions d'échantillonnage de valeurs y pour une vraie valeur de theta fixée, on obtiendra en moyenne:
160 + 0.5(E(y|theta) -160) = 160 + 0.5([160+0.5(theta-160)] - 160) = 160 + 0.25(theta-160)
Autrement dit, l'application de l'estimateur 8.1 sur des tirages répétés de y sachant une valeur fixée de theta ne donne pas theta en moyenne. Cet estimateur est biaisé.
Maintenant, imaginons que l'on ait utilisé cet estimateur sorti du chapeau:
theta.hat = 160 + 2(y-160) (appelons le par exemple estimateur B)
Alors, après échantillonnage répété, l'espérance de cet estimateur serait:
160 + 2(E(y|theta) -160) = 160 + 2([160+0.5(theta-160)] - 160) = theta
Et cet estimateur B serait non biaisé. Mais l'estimateur B n'a aucun sens: par exemple, si une fille mesure 10 cm de plus que la moyenne il estime que sa mère mesure 20 cm de plus que la moyenne.
L'argument de Gelman et al. est alors que n'importe qui de sensé rejetterait l'estimateur non-biaisé. En fait, dans un problème tel que celui-là, ça n'a aucun sens de chercher à *estimer* theta. /Instead, this problem would be classified as 'prediction' rather than 'estimation', and procedures would not be evaluated conditional on the random variable theta/.
Dans l'article de blog pointé ici, Gelman formalise également les choses, de façon concise et très pédagogique:
In frequentist statistics, theta.hat is an unbiased estimate if E(theta.hat|theta) = theta, for any theta [c'est ce qui est illustré dans l'exemple ci-dessus]. But y.hat is an unbiased prediction if E(y.hat|theta) = E(y|theta) for any theta [ainsi, dans l'exemple ci-dessus, le prédicteur 8.1 est non biaisé]. Note the difference: the frequentist averages over y, but not over theta.
On voit alors que la définition de ``non-biaisé'' dépend de l'objectif en fréquentiste. Et il conclue:
Another way of putting this is: everybody, frequentists and Bayesians alike, agree that it’s appropriate to be Bayesian for predictions. (This is particularly clear in time series analysis, for example.) The debate arises over what to do with estimation: whether or not to average over a distribution for those unknown thetas.
Remarque: Le principe illustré par cet exemple, et parfaitement pris en compte par l'estimation bayésienne (et la prédiction fréquentiste par régression linéaire), est le principe de la régression vers la moyenne. Certes, la prédiction est une estimation biaisée. Mais c'est pas plus mal. Comme le disent Gelman et al. "In many ways, Bayesian analysis can be seen as a logical extension of the principle of regression to the mean, ensuring that proper weighting is made of information from different sources".
J'aime beaucoup les qualités pédagogiques de ce gars-là...
Considérons le problème consistant à *estimer* theta, la taille de la mère, sachant y, la taille de sa fille adulte. Notons que nous ne parlons pas ici de prédiction mais bien d'estimation, et pour être tout-à-fait clair, je vais formuler le problème en fréquentiste. Nous supposons ici que la distribution jointe de la taille de la mère et de la fille est une loi normale bivariée de moyenne c(160,160), de variances sigma^2 égales, et de corrélation r=0.5.
Dans un problème d'estimation classique, nous avons un paramètre theta qui caractérise un processus qui "génère" une "population" de valeurs. Ici, le paramètre theta caractérise la taille de la mère qui va générer une population de filles de taille différentes. Nous effectuons alors un échantillonnage d'une fille dans cette population, et nous mesurons sa taille y. La question est alors comment estimer ce paramètre theta qui caractérise la taille de la mère à partir de la donnée y. Nous avons besoin d'un estimateur. L'estimateur sera non-biaisé si, après avoir répété cette opération d'échantillonnage un grand nombre de fois, l'espérance des estimées theta.hat est égale à la vraie valeur theta.
Pour une valeur de theta donnée, nous effectuons donc un échantillonnage et nous mesurons la valeur d'une fille y. Ce que nous avons dit précédemment de la distribution jointe supposée connue de la taille de la mère et de la fille suggère alors l'utilisation d'un estimateur. En effet, la solution la plus logique consisterait à nous servir comme estimateur de E(theta|y), c'est à dire l'espérance de la taille de la mère sachant la taille de la fille. La théorie statistique nous permet de calculer cette valeur (cf. http://en.wikipedia.org/wiki/Multivariate_normal_distribution#Bivariate_case):
E(theta|y) = 160 + 0.5(y-160) (équation 8.1 de Gelman et al.)
Mais cette espérance à postériori n'est pas un *estimateur non biaisé* de theta. En effet, pour que ce soit un estimateur non-biaisé de theta, il faudrait que lorsque l'on répète l'échantillonnage de y sachant la valeur fixée de theta, et que l'on réapplique l'estimateur, en moyenne, on obtienne theta. Pourtant, si l'on répète l'échantillonnage de y pour une valeur de theta fixée, en moyenne, la valeur de y que l'on échantillonnera sera E(y|theta) = 160 + 0.5(theta-160).
Et si l'on applique de façon répétée l'estimateur 8.1 sur les répétitions d'échantillonnage de valeurs y pour une vraie valeur de theta fixée, on obtiendra en moyenne:
160 + 0.5(E(y|theta) -160) = 160 + 0.5([160+0.5(theta-160)] - 160) = 160 + 0.25(theta-160)
Autrement dit, l'application de l'estimateur 8.1 sur des tirages répétés de y sachant une valeur fixée de theta ne donne pas theta en moyenne. Cet estimateur est biaisé.
Maintenant, imaginons que l'on ait utilisé cet estimateur sorti du chapeau:
theta.hat = 160 + 2(y-160) (appelons le par exemple estimateur B)
Alors, après échantillonnage répété, l'espérance de cet estimateur serait:
160 + 2(E(y|theta) -160) = 160 + 2([160+0.5(theta-160)] - 160) = theta
Et cet estimateur B serait non biaisé. Mais l'estimateur B n'a aucun sens: par exemple, si une fille mesure 10 cm de plus que la moyenne il estime que sa mère mesure 20 cm de plus que la moyenne.
L'argument de Gelman et al. est alors que n'importe qui de sensé rejetterait l'estimateur non-biaisé. En fait, dans un problème tel que celui-là, ça n'a aucun sens de chercher à *estimer* theta. /Instead, this problem would be classified as 'prediction' rather than 'estimation', and procedures would not be evaluated conditional on the random variable theta/.
Dans l'article de blog pointé ici, Gelman formalise également les choses, de façon concise et très pédagogique:
In frequentist statistics, theta.hat is an unbiased estimate if E(theta.hat|theta) = theta, for any theta [c'est ce qui est illustré dans l'exemple ci-dessus]. But y.hat is an unbiased prediction if E(y.hat|theta) = E(y|theta) for any theta [ainsi, dans l'exemple ci-dessus, le prédicteur 8.1 est non biaisé]. Note the difference: the frequentist averages over y, but not over theta.
On voit alors que la définition de ``non-biaisé'' dépend de l'objectif en fréquentiste. Et il conclue:
Another way of putting this is: everybody, frequentists and Bayesians alike, agree that it’s appropriate to be Bayesian for predictions. (This is particularly clear in time series analysis, for example.) The debate arises over what to do with estimation: whether or not to average over a distribution for those unknown thetas.
Remarque: Le principe illustré par cet exemple, et parfaitement pris en compte par l'estimation bayésienne (et la prédiction fréquentiste par régression linéaire), est le principe de la régression vers la moyenne. Certes, la prédiction est une estimation biaisée. Mais c'est pas plus mal. Comme le disent Gelman et al. "In many ways, Bayesian analysis can be seen as a logical extension of the principle of regression to the mean, ensuring that proper weighting is made of information from different sources".
J'aime beaucoup les qualités pédagogiques de ce gars-là...
À lire, ça a l'air une analyse intéressante du problème.
Ah? Bon, faut que je trouve le temps de lire ça, m'a l'air pas mal comme concept.
À voir
À voir