2385 shaares
448 results
tagged
stats
Une appli shiny pour voir l'évolution des téléchargements de packages grâce aux cranlogs de Rstudio
Via Mathieu. Et ya pire: j'ai déjà eu l'occasion d'ajuster une régression linéaire qui donnait d'aussi bons résultats qu'une régression logistique (tant que les valeurs prédites restent entre 0.2 et 0.8, ce qui était le cas dans mon étude). La première étant plus intéressante pour un usage sur le terrain (allez expliquer au technicien qu'il faut qu'il calcule l'inverse logit d'une combinaison linéaire).
Après, à relativiser aussi: en termes prédictifs, on n'a pas tant de différences que ça. En termes explicatifs, le choix est important: les coefficients ne s'interprètent pas de la même façon dans les deux cas (et ça m'étonnerait que les tests que l'on peut faire derrière donnent les mêmes résultats, ceux-ci ne s'appuyant pas sur les mêmes hypothèses).
Après, à relativiser aussi: en termes prédictifs, on n'a pas tant de différences que ça. En termes explicatifs, le choix est important: les coefficients ne s'interprètent pas de la même façon dans les deux cas (et ça m'étonnerait que les tests que l'on peut faire derrière donnent les mêmes résultats, ceux-ci ne s'appuyant pas sur les mêmes hypothèses).
J'aime bien: "My best analogy is that they are trying to use a bathroom scale to weigh a feather—and the feather is resting loosely in the pouch of a kangaroo that is vigorously jumping up and down."
Je me la garde sous le coude.
Je me la garde sous le coude.
Ça c'est un titre d'article. Bon, faut que je lise le papier.
Ah? à trouver et à lire. L'idée d'interfacer SIG et R pour ce type de calcul me paraît effectivement une idée à suivre.
À voir...
À voir...
Sur les highest posterior density intervals. À récupérer et à lire.
Doing Bayesian Data Analysis: Why to use highest density intervals instead of equal tailed intervals
Tiens je n'y avais jamais pensé, mais il existe plusieurs façons de définir des intervalles crédibles en bayésien. L'approche la plus courante consiste à définir l'intervalle comme défini par les quantiles (alpha/2, et 1-alpha/2) de la posterior. Mais elle a des inconvénients, comme illustré ici.
Une meilleure approche consiste à rechercher la valeur k telle que l'intégrale de P(x|theta) sur les valeurs de x telles que P(x|theta)>k = 1-alpha. Alors, l'intervalle crédible "highest posterior density intervals" consiste à l'ensemble des x tels que P(x|theta)>k. L'avantage de cette approche est qu'elle renvoie les intervalles les plus petits. En outre, elle contient le mode de la distribution, ce qui n'est pas forcément le cas de la méthode par les quantiles (qui elle incluera nécessairement la médiane). Voir p. 38 du Gelman et al.
Edit: pas si évident que ce soit la meilleure approche. Dans certains cas, en gestion de la faune par exemple, le fait de disposer d'IC basés sur des quantiles pourrait être jugé comme plus juste par les différentes parties. Comme les distributions à postériori sur les effectifs dans des sites sont souvent asymétriques, utiliser des HPD consisterait à systématiquement inclure 0 dans l'estimation, et du coup à diminuer la borne supérieure de l'intervalle. Autrement dit, on concevrait certes l'intervalle le plus court possible tel que la probabilité de trouver la vraie valeur soit de 95%, mais on aurait 0% de chances d'avoir une vraie valeur inférieure à la borne inférieure de l'IC, et tout le risque serait situé du côté des fortes valeurs. Quand on a deux parties qui se tapent dessus concernant les effectifs, une telle décision peut être vue comme un parti pris en faveur de ceux qui pensent qu'il n'y en a pas assez. À garder en tête quand même dans ce choix.
Une meilleure approche consiste à rechercher la valeur k telle que l'intégrale de P(x|theta) sur les valeurs de x telles que P(x|theta)>k = 1-alpha. Alors, l'intervalle crédible "highest posterior density intervals" consiste à l'ensemble des x tels que P(x|theta)>k. L'avantage de cette approche est qu'elle renvoie les intervalles les plus petits. En outre, elle contient le mode de la distribution, ce qui n'est pas forcément le cas de la méthode par les quantiles (qui elle incluera nécessairement la médiane). Voir p. 38 du Gelman et al.
Edit: pas si évident que ce soit la meilleure approche. Dans certains cas, en gestion de la faune par exemple, le fait de disposer d'IC basés sur des quantiles pourrait être jugé comme plus juste par les différentes parties. Comme les distributions à postériori sur les effectifs dans des sites sont souvent asymétriques, utiliser des HPD consisterait à systématiquement inclure 0 dans l'estimation, et du coup à diminuer la borne supérieure de l'intervalle. Autrement dit, on concevrait certes l'intervalle le plus court possible tel que la probabilité de trouver la vraie valeur soit de 95%, mais on aurait 0% de chances d'avoir une vraie valeur inférieure à la borne inférieure de l'IC, et tout le risque serait situé du côté des fortes valeurs. Quand on a deux parties qui se tapent dessus concernant les effectifs, une telle décision peut être vue comme un parti pris en faveur de ceux qui pensent qu'il n'y en a pas assez. À garder en tête quand même dans ce choix.
Marrant
Doit pas être inintéressant non plus.
Cleveland avait soulevé le problème dans son bouquin de 1993: il illustrait le cas d'une étude où les auteurs étaient passés à côté des structures importantes dans leurs données, et montrait qu'avec des graphes simples à comprendre, on identifiait facilement ces structures. J'avais stocké le passage:
Sometimes, when vizualisation thoroughly reveals the structure of a set of data, there is a tendency to underrate the power of the method for the application. Little effort is expended in seeing the structure once the right visualization method is used, so we are mislead into thinking nothing exciting has occurred. (...)
The rubber data might be such a case. The intensive visualization showed a linearity in hardness, a nonlinearity in tensile strenght, an interaction between hardness and tensile strength, and three aberrant observations in a corner of the factor measurement region. It might be thought that anyone analyzing these data would uncover these properties. This is not the case. In the original treatment, the analysts got it wrong. They operated within a paradigm of numerical methods and probabilistic inference for data analysis, and not intensive visualization. They missed the nonlinearity. They missed the interaction. They missed the outliers. In other words, they missed most of the structure of the data.
Sometimes, when vizualisation thoroughly reveals the structure of a set of data, there is a tendency to underrate the power of the method for the application. Little effort is expended in seeing the structure once the right visualization method is used, so we are mislead into thinking nothing exciting has occurred. (...)
The rubber data might be such a case. The intensive visualization showed a linearity in hardness, a nonlinearity in tensile strenght, an interaction between hardness and tensile strength, and three aberrant observations in a corner of the factor measurement region. It might be thought that anyone analyzing these data would uncover these properties. This is not the case. In the original treatment, the analysts got it wrong. They operated within a paradigm of numerical methods and probabilistic inference for data analysis, and not intensive visualization. They missed the nonlinearity. They missed the interaction. They missed the outliers. In other words, they missed most of the structure of the data.
TRÈS intéressant.
...Et la critique du bouquin, plutôt positive.
Un livre intéressant
Elle a raison... rien de nouveau sous le soleil.
À récupérer et à lire
TRÈS intéressant! Plein de stratégies, le plus souvent très simples, pour accélérer du code R
Très intéressant!
À suivre de près.
À suivre de près.
Intéressant. En résumé: "my point is that standard errors, statistical significance, confidence intervals, and hypotheses tests are far from useless. In many settings they can give us a clue that our measurements are too noisy to learn much from. That’s a good thing to know. A key part of science is to learn what we don’t know.
Hey, kids: Embrace variation and accept uncertainty."
Hey, kids: Embrace variation and accept uncertainty."
Ben décidément, il y a bcp de choses qui sortent aujourd'hui!
à lire
à lire
Suite à une révision d'article dans laquelle les référés nous avaient demandé de discuter de cette question, j'ai un peu creusé la littérature. Bon au final, on va citer deux papiers, mais comme je voudrais pas perdre le travail fait, je stocke un résumé de tout ça -- genre mini-revue de la littérature -- ici.
De nombreux auteurs ont montré l'importance que pouvait avoir la présence de faux positifs dans les études d'occupancy (erreurs d'identification). Royle et Link (2006), Fitzpatrick et al. (2009), McClintock et al. (2010 JWM), Miller et al. (2012) montrent tous l'importance de ce type d'erreur dans des études expérimentales. Ces différents auteurs montrent que même une petite quantité d'erreur d'identification peut conduire à des biais considérables dans les estimations d'occupancy. Et si Fitzpatrick et al. (2009) recommandent de mettre l'accent sur la formation des observateurs pour réduire ce nombre d'erreurs, McClintock et al. (2010 JWM) sont plus pessimistes. En effet, ils montrent que même des observateurs super-entraînés sont sujets aux erreurs d'identification, et de façon non négligeable. Mettre l'accent sur la formation des observateurs ne suffit pas, il faut intégrer cette erreur dans le modèle d'estimation.
Royle et Link (2006) ont proposé une approche d'estimation de la probabilité de présence intégrant à la fois probabilité de détection et probabilité d'erreur d'identification. Cette approche, bien que correcte en théorie, a été fortement critiquée par McClintock et al. (2010, Ecology), qui indiquent que il existe des symétries dans la vraisemblance de Royle et Link qui peuvent difficilement être résolues (confusion entre les différentes probabilités), et les hypothèses posées (i.e. supposer que la probabilité de faux positif est inférieure à la probabilité de vrai positif) seront parfois erronées (dans le cas d'une espèce absente d'une zone, mais considérée comme présente). En outre, ces auters indiquent que l'approche de Royle et Link ne permet pas de distinguer l'hétérogénéité de la détectabilité, de la présence de misclassification. Autrement dit, si le modèle décrit parfaitement la situation, pas de soucis, mais la robustesse du bouzin laisse à désirer, et dès que la réalité s'écarte un tant soit peu du modèle, les estimations deviennent délirantes. Or, on n'aura jamais le modèle parfait...
La conclusion de McClintock et al. (2010, Ecology) est "to our knowledge, an occupancy modeling framework incorporating both fals positive errors and heterogeneity has yet to be formally developed". Une solution arrive en 2011, avec l'article de Miller et al. L'approche propose de combiner des données collectées avec différentes approches, ou des données de différents statuts. Par exemple, on a des observations visuelles de piafs sans risque (supposé) d'erreur d'identification, et des observations auditives avec un risque d'erreur plus grand. Ou alors, on a des observations de type "une grenouille isolée qui chante", et "un concert de grenouille de la même espèce qui chante". Le risque d'erreur d'identification est alors supposé plus faible dans le cas du "concert". Combiner ces différentes approches de collectes des données dans une approche de modélisation permet une estimation plus précise des probabilités de faux positifs. Miller et al. illustrent leur approche avec un mélange de deux types de données, dont un supposé "parfait" (sans erreur d'identification), mais indiquent -- sans l'illustrer malheureusement -- qu'il n'est pas forcément nécessaire de disposer d'une approche "parfaite" parmi les approches considérées.
L'approche de Miller et al. (2011) est donc extrêmement récente, et n'a pour le moment été appliquée que sur les grenouilles et dans étude sur le loup (voir revue de Bailey et al. 2014). Elle repose sur des hypothèses qu'il faudra quand même tester. Ainsi, l'idée que l'erreur d'identification est plus faible quand un observateur écoute un concert de grenouille que quand il n'en écoute qu'une seule est fausse, ce qui est démontré par Miller et al. (2012). Bref, la seule solution disponible aujourd'hui a été assez peu testée pour le moment. Cela dit, j'en aime bien le principe.
* Fitzpatrick, M. C.; Preisser, E. L.; Ellison, A. M. & Elkinton, J. S. 2009. Observer bias and the detection of low-density populations Ecological Applications, 19, 1673-1679.
* McClintock, B. T.; Bailey, L. L.; Pollock, K. H. & Simons, T. R. 2010. Unmodeled observation error induces bias when inferring patterns and dynamics of species occurrence via aural detections Ecology, 91, 2446-2454.
* McClintock, B. T.; Bailey, L. L.; Pollock, K. H. & Simons, T. R. 2010. Experimental investigation of observation error in anuran call surveys The Journal of Wildlife Management, 74, 1882-1893.
* Miller, D. A.; Nichols, J. D.; McClintock, B. T.; Grant, E. H. C.; Bailey, L. L. & Weir, L. A. 2011. Improving occupancy estimation when two types of observational error occur: non-detection and species misidentification Ecology, 92, 1422-1428.
* Miller, D. A.; Weir, L. A.; McClintock, B. T.; Grant, E. H. C.; Bailey, L. L. & Simons, T. R. 2012. Experimental investigation of false positive errors in auditory species occurrence surveys Ecological Applications, 22, 1665-1674.
* Royle, J. A. & Link, W. A. 2006. Generalized site occupancy models allowing for false positive and false negative errors. Ecology, 87, 835-841.
De nombreux auteurs ont montré l'importance que pouvait avoir la présence de faux positifs dans les études d'occupancy (erreurs d'identification). Royle et Link (2006), Fitzpatrick et al. (2009), McClintock et al. (2010 JWM), Miller et al. (2012) montrent tous l'importance de ce type d'erreur dans des études expérimentales. Ces différents auteurs montrent que même une petite quantité d'erreur d'identification peut conduire à des biais considérables dans les estimations d'occupancy. Et si Fitzpatrick et al. (2009) recommandent de mettre l'accent sur la formation des observateurs pour réduire ce nombre d'erreurs, McClintock et al. (2010 JWM) sont plus pessimistes. En effet, ils montrent que même des observateurs super-entraînés sont sujets aux erreurs d'identification, et de façon non négligeable. Mettre l'accent sur la formation des observateurs ne suffit pas, il faut intégrer cette erreur dans le modèle d'estimation.
Royle et Link (2006) ont proposé une approche d'estimation de la probabilité de présence intégrant à la fois probabilité de détection et probabilité d'erreur d'identification. Cette approche, bien que correcte en théorie, a été fortement critiquée par McClintock et al. (2010, Ecology), qui indiquent que il existe des symétries dans la vraisemblance de Royle et Link qui peuvent difficilement être résolues (confusion entre les différentes probabilités), et les hypothèses posées (i.e. supposer que la probabilité de faux positif est inférieure à la probabilité de vrai positif) seront parfois erronées (dans le cas d'une espèce absente d'une zone, mais considérée comme présente). En outre, ces auters indiquent que l'approche de Royle et Link ne permet pas de distinguer l'hétérogénéité de la détectabilité, de la présence de misclassification. Autrement dit, si le modèle décrit parfaitement la situation, pas de soucis, mais la robustesse du bouzin laisse à désirer, et dès que la réalité s'écarte un tant soit peu du modèle, les estimations deviennent délirantes. Or, on n'aura jamais le modèle parfait...
La conclusion de McClintock et al. (2010, Ecology) est "to our knowledge, an occupancy modeling framework incorporating both fals positive errors and heterogeneity has yet to be formally developed". Une solution arrive en 2011, avec l'article de Miller et al. L'approche propose de combiner des données collectées avec différentes approches, ou des données de différents statuts. Par exemple, on a des observations visuelles de piafs sans risque (supposé) d'erreur d'identification, et des observations auditives avec un risque d'erreur plus grand. Ou alors, on a des observations de type "une grenouille isolée qui chante", et "un concert de grenouille de la même espèce qui chante". Le risque d'erreur d'identification est alors supposé plus faible dans le cas du "concert". Combiner ces différentes approches de collectes des données dans une approche de modélisation permet une estimation plus précise des probabilités de faux positifs. Miller et al. illustrent leur approche avec un mélange de deux types de données, dont un supposé "parfait" (sans erreur d'identification), mais indiquent -- sans l'illustrer malheureusement -- qu'il n'est pas forcément nécessaire de disposer d'une approche "parfaite" parmi les approches considérées.
L'approche de Miller et al. (2011) est donc extrêmement récente, et n'a pour le moment été appliquée que sur les grenouilles et dans étude sur le loup (voir revue de Bailey et al. 2014). Elle repose sur des hypothèses qu'il faudra quand même tester. Ainsi, l'idée que l'erreur d'identification est plus faible quand un observateur écoute un concert de grenouille que quand il n'en écoute qu'une seule est fausse, ce qui est démontré par Miller et al. (2012). Bref, la seule solution disponible aujourd'hui a été assez peu testée pour le moment. Cela dit, j'en aime bien le principe.
* Fitzpatrick, M. C.; Preisser, E. L.; Ellison, A. M. & Elkinton, J. S. 2009. Observer bias and the detection of low-density populations Ecological Applications, 19, 1673-1679.
* McClintock, B. T.; Bailey, L. L.; Pollock, K. H. & Simons, T. R. 2010. Unmodeled observation error induces bias when inferring patterns and dynamics of species occurrence via aural detections Ecology, 91, 2446-2454.
* McClintock, B. T.; Bailey, L. L.; Pollock, K. H. & Simons, T. R. 2010. Experimental investigation of observation error in anuran call surveys The Journal of Wildlife Management, 74, 1882-1893.
* Miller, D. A.; Nichols, J. D.; McClintock, B. T.; Grant, E. H. C.; Bailey, L. L. & Weir, L. A. 2011. Improving occupancy estimation when two types of observational error occur: non-detection and species misidentification Ecology, 92, 1422-1428.
* Miller, D. A.; Weir, L. A.; McClintock, B. T.; Grant, E. H. C.; Bailey, L. L. & Simons, T. R. 2012. Experimental investigation of false positive errors in auditory species occurrence surveys Ecological Applications, 22, 1665-1674.
* Royle, J. A. & Link, W. A. 2006. Generalized site occupancy models allowing for false positive and false negative errors. Ecology, 87, 835-841.