2338 shaares
Doing Bayesian Data Analysis: Why to use highest density intervals instead of equal tailed intervals
Tiens je n'y avais jamais pensé, mais il existe plusieurs façons de définir des intervalles crédibles en bayésien. L'approche la plus courante consiste à définir l'intervalle comme défini par les quantiles (alpha/2, et 1-alpha/2) de la posterior. Mais elle a des inconvénients, comme illustré ici.
Une meilleure approche consiste à rechercher la valeur k telle que l'intégrale de P(x|theta) sur les valeurs de x telles que P(x|theta)>k = 1-alpha. Alors, l'intervalle crédible "highest posterior density intervals" consiste à l'ensemble des x tels que P(x|theta)>k. L'avantage de cette approche est qu'elle renvoie les intervalles les plus petits. En outre, elle contient le mode de la distribution, ce qui n'est pas forcément le cas de la méthode par les quantiles (qui elle incluera nécessairement la médiane). Voir p. 38 du Gelman et al.
Edit: pas si évident que ce soit la meilleure approche. Dans certains cas, en gestion de la faune par exemple, le fait de disposer d'IC basés sur des quantiles pourrait être jugé comme plus juste par les différentes parties. Comme les distributions à postériori sur les effectifs dans des sites sont souvent asymétriques, utiliser des HPD consisterait à systématiquement inclure 0 dans l'estimation, et du coup à diminuer la borne supérieure de l'intervalle. Autrement dit, on concevrait certes l'intervalle le plus court possible tel que la probabilité de trouver la vraie valeur soit de 95%, mais on aurait 0% de chances d'avoir une vraie valeur inférieure à la borne inférieure de l'IC, et tout le risque serait situé du côté des fortes valeurs. Quand on a deux parties qui se tapent dessus concernant les effectifs, une telle décision peut être vue comme un parti pris en faveur de ceux qui pensent qu'il n'y en a pas assez. À garder en tête quand même dans ce choix.
Une meilleure approche consiste à rechercher la valeur k telle que l'intégrale de P(x|theta) sur les valeurs de x telles que P(x|theta)>k = 1-alpha. Alors, l'intervalle crédible "highest posterior density intervals" consiste à l'ensemble des x tels que P(x|theta)>k. L'avantage de cette approche est qu'elle renvoie les intervalles les plus petits. En outre, elle contient le mode de la distribution, ce qui n'est pas forcément le cas de la méthode par les quantiles (qui elle incluera nécessairement la médiane). Voir p. 38 du Gelman et al.
Edit: pas si évident que ce soit la meilleure approche. Dans certains cas, en gestion de la faune par exemple, le fait de disposer d'IC basés sur des quantiles pourrait être jugé comme plus juste par les différentes parties. Comme les distributions à postériori sur les effectifs dans des sites sont souvent asymétriques, utiliser des HPD consisterait à systématiquement inclure 0 dans l'estimation, et du coup à diminuer la borne supérieure de l'intervalle. Autrement dit, on concevrait certes l'intervalle le plus court possible tel que la probabilité de trouver la vraie valeur soit de 95%, mais on aurait 0% de chances d'avoir une vraie valeur inférieure à la borne inférieure de l'IC, et tout le risque serait situé du côté des fortes valeurs. Quand on a deux parties qui se tapent dessus concernant les effectifs, une telle décision peut être vue comme un parti pris en faveur de ceux qui pensent qu'il n'y en a pas assez. À garder en tête quand même dans ce choix.