2352 shaares
3 results
tagged
prédictif
Je stocke ça ici, parce que ça fait plusieurs fois que je recherche la référence, et que j'essaie de reproduire le raisonnement. Dans cet article de son blog, Gelman décrit très précisément en quoi la notion de prédiction diffère de la notion d'estimation sur un plan purement statistique: "you estimate parameters and you predict observables". C'est important, et p. 248 dans le "Bayesian Data Analysis" (Gelman, A.; Carlin, J.; Stern, H. & Rubin, D. Bayesian data analysis Chapman & Hall/CRC, 2004), Gelman et al. donnent un bon exemple de la distinction entre ces deux approches, que je reproduit ici pour ne pas avoir à me recogner le truc la prochaine fois que je me poserai la question.
Considérons le problème consistant à *estimer* theta, la taille de la mère, sachant y, la taille de sa fille adulte. Notons que nous ne parlons pas ici de prédiction mais bien d'estimation, et pour être tout-à-fait clair, je vais formuler le problème en fréquentiste. Nous supposons ici que la distribution jointe de la taille de la mère et de la fille est une loi normale bivariée de moyenne c(160,160), de variances sigma^2 égales, et de corrélation r=0.5.
Dans un problème d'estimation classique, nous avons un paramètre theta qui caractérise un processus qui "génère" une "population" de valeurs. Ici, le paramètre theta caractérise la taille de la mère qui va générer une population de filles de taille différentes. Nous effectuons alors un échantillonnage d'une fille dans cette population, et nous mesurons sa taille y. La question est alors comment estimer ce paramètre theta qui caractérise la taille de la mère à partir de la donnée y. Nous avons besoin d'un estimateur. L'estimateur sera non-biaisé si, après avoir répété cette opération d'échantillonnage un grand nombre de fois, l'espérance des estimées theta.hat est égale à la vraie valeur theta.
Pour une valeur de theta donnée, nous effectuons donc un échantillonnage et nous mesurons la valeur d'une fille y. Ce que nous avons dit précédemment de la distribution jointe supposée connue de la taille de la mère et de la fille suggère alors l'utilisation d'un estimateur. En effet, la solution la plus logique consisterait à nous servir comme estimateur de E(theta|y), c'est à dire l'espérance de la taille de la mère sachant la taille de la fille. La théorie statistique nous permet de calculer cette valeur (cf. http://en.wikipedia.org/wiki/Multivariate_normal_distribution#Bivariate_case):
E(theta|y) = 160 + 0.5(y-160) (équation 8.1 de Gelman et al.)
Mais cette espérance à postériori n'est pas un *estimateur non biaisé* de theta. En effet, pour que ce soit un estimateur non-biaisé de theta, il faudrait que lorsque l'on répète l'échantillonnage de y sachant la valeur fixée de theta, et que l'on réapplique l'estimateur, en moyenne, on obtienne theta. Pourtant, si l'on répète l'échantillonnage de y pour une valeur de theta fixée, en moyenne, la valeur de y que l'on échantillonnera sera E(y|theta) = 160 + 0.5(theta-160).
Et si l'on applique de façon répétée l'estimateur 8.1 sur les répétitions d'échantillonnage de valeurs y pour une vraie valeur de theta fixée, on obtiendra en moyenne:
160 + 0.5(E(y|theta) -160) = 160 + 0.5([160+0.5(theta-160)] - 160) = 160 + 0.25(theta-160)
Autrement dit, l'application de l'estimateur 8.1 sur des tirages répétés de y sachant une valeur fixée de theta ne donne pas theta en moyenne. Cet estimateur est biaisé.
Maintenant, imaginons que l'on ait utilisé cet estimateur sorti du chapeau:
theta.hat = 160 + 2(y-160) (appelons le par exemple estimateur B)
Alors, après échantillonnage répété, l'espérance de cet estimateur serait:
160 + 2(E(y|theta) -160) = 160 + 2([160+0.5(theta-160)] - 160) = theta
Et cet estimateur B serait non biaisé. Mais l'estimateur B n'a aucun sens: par exemple, si une fille mesure 10 cm de plus que la moyenne il estime que sa mère mesure 20 cm de plus que la moyenne.
L'argument de Gelman et al. est alors que n'importe qui de sensé rejetterait l'estimateur non-biaisé. En fait, dans un problème tel que celui-là, ça n'a aucun sens de chercher à *estimer* theta. /Instead, this problem would be classified as 'prediction' rather than 'estimation', and procedures would not be evaluated conditional on the random variable theta/.
Dans l'article de blog pointé ici, Gelman formalise également les choses, de façon concise et très pédagogique:
In frequentist statistics, theta.hat is an unbiased estimate if E(theta.hat|theta) = theta, for any theta [c'est ce qui est illustré dans l'exemple ci-dessus]. But y.hat is an unbiased prediction if E(y.hat|theta) = E(y|theta) for any theta [ainsi, dans l'exemple ci-dessus, le prédicteur 8.1 est non biaisé]. Note the difference: the frequentist averages over y, but not over theta.
On voit alors que la définition de ``non-biaisé'' dépend de l'objectif en fréquentiste. Et il conclue:
Another way of putting this is: everybody, frequentists and Bayesians alike, agree that it’s appropriate to be Bayesian for predictions. (This is particularly clear in time series analysis, for example.) The debate arises over what to do with estimation: whether or not to average over a distribution for those unknown thetas.
Remarque: Le principe illustré par cet exemple, et parfaitement pris en compte par l'estimation bayésienne (et la prédiction fréquentiste par régression linéaire), est le principe de la régression vers la moyenne. Certes, la prédiction est une estimation biaisée. Mais c'est pas plus mal. Comme le disent Gelman et al. "In many ways, Bayesian analysis can be seen as a logical extension of the principle of regression to the mean, ensuring that proper weighting is made of information from different sources".
J'aime beaucoup les qualités pédagogiques de ce gars-là...
Considérons le problème consistant à *estimer* theta, la taille de la mère, sachant y, la taille de sa fille adulte. Notons que nous ne parlons pas ici de prédiction mais bien d'estimation, et pour être tout-à-fait clair, je vais formuler le problème en fréquentiste. Nous supposons ici que la distribution jointe de la taille de la mère et de la fille est une loi normale bivariée de moyenne c(160,160), de variances sigma^2 égales, et de corrélation r=0.5.
Dans un problème d'estimation classique, nous avons un paramètre theta qui caractérise un processus qui "génère" une "population" de valeurs. Ici, le paramètre theta caractérise la taille de la mère qui va générer une population de filles de taille différentes. Nous effectuons alors un échantillonnage d'une fille dans cette population, et nous mesurons sa taille y. La question est alors comment estimer ce paramètre theta qui caractérise la taille de la mère à partir de la donnée y. Nous avons besoin d'un estimateur. L'estimateur sera non-biaisé si, après avoir répété cette opération d'échantillonnage un grand nombre de fois, l'espérance des estimées theta.hat est égale à la vraie valeur theta.
Pour une valeur de theta donnée, nous effectuons donc un échantillonnage et nous mesurons la valeur d'une fille y. Ce que nous avons dit précédemment de la distribution jointe supposée connue de la taille de la mère et de la fille suggère alors l'utilisation d'un estimateur. En effet, la solution la plus logique consisterait à nous servir comme estimateur de E(theta|y), c'est à dire l'espérance de la taille de la mère sachant la taille de la fille. La théorie statistique nous permet de calculer cette valeur (cf. http://en.wikipedia.org/wiki/Multivariate_normal_distribution#Bivariate_case):
E(theta|y) = 160 + 0.5(y-160) (équation 8.1 de Gelman et al.)
Mais cette espérance à postériori n'est pas un *estimateur non biaisé* de theta. En effet, pour que ce soit un estimateur non-biaisé de theta, il faudrait que lorsque l'on répète l'échantillonnage de y sachant la valeur fixée de theta, et que l'on réapplique l'estimateur, en moyenne, on obtienne theta. Pourtant, si l'on répète l'échantillonnage de y pour une valeur de theta fixée, en moyenne, la valeur de y que l'on échantillonnera sera E(y|theta) = 160 + 0.5(theta-160).
Et si l'on applique de façon répétée l'estimateur 8.1 sur les répétitions d'échantillonnage de valeurs y pour une vraie valeur de theta fixée, on obtiendra en moyenne:
160 + 0.5(E(y|theta) -160) = 160 + 0.5([160+0.5(theta-160)] - 160) = 160 + 0.25(theta-160)
Autrement dit, l'application de l'estimateur 8.1 sur des tirages répétés de y sachant une valeur fixée de theta ne donne pas theta en moyenne. Cet estimateur est biaisé.
Maintenant, imaginons que l'on ait utilisé cet estimateur sorti du chapeau:
theta.hat = 160 + 2(y-160) (appelons le par exemple estimateur B)
Alors, après échantillonnage répété, l'espérance de cet estimateur serait:
160 + 2(E(y|theta) -160) = 160 + 2([160+0.5(theta-160)] - 160) = theta
Et cet estimateur B serait non biaisé. Mais l'estimateur B n'a aucun sens: par exemple, si une fille mesure 10 cm de plus que la moyenne il estime que sa mère mesure 20 cm de plus que la moyenne.
L'argument de Gelman et al. est alors que n'importe qui de sensé rejetterait l'estimateur non-biaisé. En fait, dans un problème tel que celui-là, ça n'a aucun sens de chercher à *estimer* theta. /Instead, this problem would be classified as 'prediction' rather than 'estimation', and procedures would not be evaluated conditional on the random variable theta/.
Dans l'article de blog pointé ici, Gelman formalise également les choses, de façon concise et très pédagogique:
In frequentist statistics, theta.hat is an unbiased estimate if E(theta.hat|theta) = theta, for any theta [c'est ce qui est illustré dans l'exemple ci-dessus]. But y.hat is an unbiased prediction if E(y.hat|theta) = E(y|theta) for any theta [ainsi, dans l'exemple ci-dessus, le prédicteur 8.1 est non biaisé]. Note the difference: the frequentist averages over y, but not over theta.
On voit alors que la définition de ``non-biaisé'' dépend de l'objectif en fréquentiste. Et il conclue:
Another way of putting this is: everybody, frequentists and Bayesians alike, agree that it’s appropriate to be Bayesian for predictions. (This is particularly clear in time series analysis, for example.) The debate arises over what to do with estimation: whether or not to average over a distribution for those unknown thetas.
Remarque: Le principe illustré par cet exemple, et parfaitement pris en compte par l'estimation bayésienne (et la prédiction fréquentiste par régression linéaire), est le principe de la régression vers la moyenne. Certes, la prédiction est une estimation biaisée. Mais c'est pas plus mal. Comme le disent Gelman et al. "In many ways, Bayesian analysis can be seen as a logical extension of the principle of regression to the mean, ensuring that proper weighting is made of information from different sources".
J'aime beaucoup les qualités pédagogiques de ce gars-là...
Tiens? des random forests pour très gros jeux de données: parallélisation au max, ou comment ramener un temps de calcul de 3 heures à 5 minutes.
À garder sous le coude
À garder sous le coude
Expliquer n'est pas prédire. Ce gars est spécialiste de ça, et présente un paquet de ressources sur la question. À creuser en détail quand j'aurai le temps (à noter, il y a des liens vers des discussions sur stackoverflow)