2353 shaares
Intéressant. En résumé: "my point is that standard errors, statistical significance, confidence intervals, and hypotheses tests are far from useless. In many settings they can give us a clue that our measurements are too noisy to learn much from. That’s a good thing to know. A key part of science is to learn what we don’t know.
Hey, kids: Embrace variation and accept uncertainty."
Hey, kids: Embrace variation and accept uncertainty."
À lire
passque c'est zouli
Marrant. Un site qui permet d'améliorer sa vitesse de frappe via une course avec d'autres.
Ah ben ya même un xkcd sur la question...
Je suis un peu perplexe. Je la vois blanc et or, et ya rien à faire, j'arrive pas à la voir autrement.
Et surtout, je ne comprends PAS qu'on puisse la voir bleue et noir.
Et surtout, je ne comprends PAS qu'on puisse la voir bleue et noir.
Ben décidément, il y a bcp de choses qui sortent aujourd'hui!
à lire
à lire
À lire
A lire
Via sebsauvage: le fonctionnement de la compression gzip illustrée par un programme en Julia. Rigolo.
Un article intéressant
Pratique.
Suite à une révision d'article dans laquelle les référés nous avaient demandé de discuter de cette question, j'ai un peu creusé la littérature. Bon au final, on va citer deux papiers, mais comme je voudrais pas perdre le travail fait, je stocke un résumé de tout ça -- genre mini-revue de la littérature -- ici.
De nombreux auteurs ont montré l'importance que pouvait avoir la présence de faux positifs dans les études d'occupancy (erreurs d'identification). Royle et Link (2006), Fitzpatrick et al. (2009), McClintock et al. (2010 JWM), Miller et al. (2012) montrent tous l'importance de ce type d'erreur dans des études expérimentales. Ces différents auteurs montrent que même une petite quantité d'erreur d'identification peut conduire à des biais considérables dans les estimations d'occupancy. Et si Fitzpatrick et al. (2009) recommandent de mettre l'accent sur la formation des observateurs pour réduire ce nombre d'erreurs, McClintock et al. (2010 JWM) sont plus pessimistes. En effet, ils montrent que même des observateurs super-entraînés sont sujets aux erreurs d'identification, et de façon non négligeable. Mettre l'accent sur la formation des observateurs ne suffit pas, il faut intégrer cette erreur dans le modèle d'estimation.
Royle et Link (2006) ont proposé une approche d'estimation de la probabilité de présence intégrant à la fois probabilité de détection et probabilité d'erreur d'identification. Cette approche, bien que correcte en théorie, a été fortement critiquée par McClintock et al. (2010, Ecology), qui indiquent que il existe des symétries dans la vraisemblance de Royle et Link qui peuvent difficilement être résolues (confusion entre les différentes probabilités), et les hypothèses posées (i.e. supposer que la probabilité de faux positif est inférieure à la probabilité de vrai positif) seront parfois erronées (dans le cas d'une espèce absente d'une zone, mais considérée comme présente). En outre, ces auters indiquent que l'approche de Royle et Link ne permet pas de distinguer l'hétérogénéité de la détectabilité, de la présence de misclassification. Autrement dit, si le modèle décrit parfaitement la situation, pas de soucis, mais la robustesse du bouzin laisse à désirer, et dès que la réalité s'écarte un tant soit peu du modèle, les estimations deviennent délirantes. Or, on n'aura jamais le modèle parfait...
La conclusion de McClintock et al. (2010, Ecology) est "to our knowledge, an occupancy modeling framework incorporating both fals positive errors and heterogeneity has yet to be formally developed". Une solution arrive en 2011, avec l'article de Miller et al. L'approche propose de combiner des données collectées avec différentes approches, ou des données de différents statuts. Par exemple, on a des observations visuelles de piafs sans risque (supposé) d'erreur d'identification, et des observations auditives avec un risque d'erreur plus grand. Ou alors, on a des observations de type "une grenouille isolée qui chante", et "un concert de grenouille de la même espèce qui chante". Le risque d'erreur d'identification est alors supposé plus faible dans le cas du "concert". Combiner ces différentes approches de collectes des données dans une approche de modélisation permet une estimation plus précise des probabilités de faux positifs. Miller et al. illustrent leur approche avec un mélange de deux types de données, dont un supposé "parfait" (sans erreur d'identification), mais indiquent -- sans l'illustrer malheureusement -- qu'il n'est pas forcément nécessaire de disposer d'une approche "parfaite" parmi les approches considérées.
L'approche de Miller et al. (2011) est donc extrêmement récente, et n'a pour le moment été appliquée que sur les grenouilles et dans étude sur le loup (voir revue de Bailey et al. 2014). Elle repose sur des hypothèses qu'il faudra quand même tester. Ainsi, l'idée que l'erreur d'identification est plus faible quand un observateur écoute un concert de grenouille que quand il n'en écoute qu'une seule est fausse, ce qui est démontré par Miller et al. (2012). Bref, la seule solution disponible aujourd'hui a été assez peu testée pour le moment. Cela dit, j'en aime bien le principe.
* Fitzpatrick, M. C.; Preisser, E. L.; Ellison, A. M. & Elkinton, J. S. 2009. Observer bias and the detection of low-density populations Ecological Applications, 19, 1673-1679.
* McClintock, B. T.; Bailey, L. L.; Pollock, K. H. & Simons, T. R. 2010. Unmodeled observation error induces bias when inferring patterns and dynamics of species occurrence via aural detections Ecology, 91, 2446-2454.
* McClintock, B. T.; Bailey, L. L.; Pollock, K. H. & Simons, T. R. 2010. Experimental investigation of observation error in anuran call surveys The Journal of Wildlife Management, 74, 1882-1893.
* Miller, D. A.; Nichols, J. D.; McClintock, B. T.; Grant, E. H. C.; Bailey, L. L. & Weir, L. A. 2011. Improving occupancy estimation when two types of observational error occur: non-detection and species misidentification Ecology, 92, 1422-1428.
* Miller, D. A.; Weir, L. A.; McClintock, B. T.; Grant, E. H. C.; Bailey, L. L. & Simons, T. R. 2012. Experimental investigation of false positive errors in auditory species occurrence surveys Ecological Applications, 22, 1665-1674.
* Royle, J. A. & Link, W. A. 2006. Generalized site occupancy models allowing for false positive and false negative errors. Ecology, 87, 835-841.
De nombreux auteurs ont montré l'importance que pouvait avoir la présence de faux positifs dans les études d'occupancy (erreurs d'identification). Royle et Link (2006), Fitzpatrick et al. (2009), McClintock et al. (2010 JWM), Miller et al. (2012) montrent tous l'importance de ce type d'erreur dans des études expérimentales. Ces différents auteurs montrent que même une petite quantité d'erreur d'identification peut conduire à des biais considérables dans les estimations d'occupancy. Et si Fitzpatrick et al. (2009) recommandent de mettre l'accent sur la formation des observateurs pour réduire ce nombre d'erreurs, McClintock et al. (2010 JWM) sont plus pessimistes. En effet, ils montrent que même des observateurs super-entraînés sont sujets aux erreurs d'identification, et de façon non négligeable. Mettre l'accent sur la formation des observateurs ne suffit pas, il faut intégrer cette erreur dans le modèle d'estimation.
Royle et Link (2006) ont proposé une approche d'estimation de la probabilité de présence intégrant à la fois probabilité de détection et probabilité d'erreur d'identification. Cette approche, bien que correcte en théorie, a été fortement critiquée par McClintock et al. (2010, Ecology), qui indiquent que il existe des symétries dans la vraisemblance de Royle et Link qui peuvent difficilement être résolues (confusion entre les différentes probabilités), et les hypothèses posées (i.e. supposer que la probabilité de faux positif est inférieure à la probabilité de vrai positif) seront parfois erronées (dans le cas d'une espèce absente d'une zone, mais considérée comme présente). En outre, ces auters indiquent que l'approche de Royle et Link ne permet pas de distinguer l'hétérogénéité de la détectabilité, de la présence de misclassification. Autrement dit, si le modèle décrit parfaitement la situation, pas de soucis, mais la robustesse du bouzin laisse à désirer, et dès que la réalité s'écarte un tant soit peu du modèle, les estimations deviennent délirantes. Or, on n'aura jamais le modèle parfait...
La conclusion de McClintock et al. (2010, Ecology) est "to our knowledge, an occupancy modeling framework incorporating both fals positive errors and heterogeneity has yet to be formally developed". Une solution arrive en 2011, avec l'article de Miller et al. L'approche propose de combiner des données collectées avec différentes approches, ou des données de différents statuts. Par exemple, on a des observations visuelles de piafs sans risque (supposé) d'erreur d'identification, et des observations auditives avec un risque d'erreur plus grand. Ou alors, on a des observations de type "une grenouille isolée qui chante", et "un concert de grenouille de la même espèce qui chante". Le risque d'erreur d'identification est alors supposé plus faible dans le cas du "concert". Combiner ces différentes approches de collectes des données dans une approche de modélisation permet une estimation plus précise des probabilités de faux positifs. Miller et al. illustrent leur approche avec un mélange de deux types de données, dont un supposé "parfait" (sans erreur d'identification), mais indiquent -- sans l'illustrer malheureusement -- qu'il n'est pas forcément nécessaire de disposer d'une approche "parfaite" parmi les approches considérées.
L'approche de Miller et al. (2011) est donc extrêmement récente, et n'a pour le moment été appliquée que sur les grenouilles et dans étude sur le loup (voir revue de Bailey et al. 2014). Elle repose sur des hypothèses qu'il faudra quand même tester. Ainsi, l'idée que l'erreur d'identification est plus faible quand un observateur écoute un concert de grenouille que quand il n'en écoute qu'une seule est fausse, ce qui est démontré par Miller et al. (2012). Bref, la seule solution disponible aujourd'hui a été assez peu testée pour le moment. Cela dit, j'en aime bien le principe.
* Fitzpatrick, M. C.; Preisser, E. L.; Ellison, A. M. & Elkinton, J. S. 2009. Observer bias and the detection of low-density populations Ecological Applications, 19, 1673-1679.
* McClintock, B. T.; Bailey, L. L.; Pollock, K. H. & Simons, T. R. 2010. Unmodeled observation error induces bias when inferring patterns and dynamics of species occurrence via aural detections Ecology, 91, 2446-2454.
* McClintock, B. T.; Bailey, L. L.; Pollock, K. H. & Simons, T. R. 2010. Experimental investigation of observation error in anuran call surveys The Journal of Wildlife Management, 74, 1882-1893.
* Miller, D. A.; Nichols, J. D.; McClintock, B. T.; Grant, E. H. C.; Bailey, L. L. & Weir, L. A. 2011. Improving occupancy estimation when two types of observational error occur: non-detection and species misidentification Ecology, 92, 1422-1428.
* Miller, D. A.; Weir, L. A.; McClintock, B. T.; Grant, E. H. C.; Bailey, L. L. & Simons, T. R. 2012. Experimental investigation of false positive errors in auditory species occurrence surveys Ecological Applications, 22, 1665-1674.
* Royle, J. A. & Link, W. A. 2006. Generalized site occupancy models allowing for false positive and false negative errors. Ecology, 87, 835-841.
Dans la veine des articles sur le sujet en ce moment, celui-ci m'a l'air incontournable! Ya la crème des auteurs incontournables sur le sujet. À récupérer et à lire absolument.
Intéressant...
Petite mise au point par Christian Robert:
(1) Lele et al. ne sont pas les inventeurs du data cloning. L'approche date du début des années 90 et des versions plus efficaces basées sur le recuit simulé ont été développées;
(2) Il y a de fortes chances que le data cloning termine sa course sur le mauvais mode de la vraisemblance en cas de vraisemblance multimodale
(3) lorsque la vraisemblance est multimodale, le choix d'un mode plutôt qu'un autre pour faire l'inférence n'est pas évident, et comme l'indique Christian Robert: In which sense is the MLE more objective than a Bayes estimate, then?
(4) et concernant la critique principale, à savoir l'influence de la prior sur les résultats: "the impact of a prior on some aspects of the posterior distribution can be tested by re-running a Bayesian analysis with different priors, including empirical Bayes versions or, why not?!, data cloning, in order to understand where and why huge discrepancies occur. This is part of model building, in the end."
Le point 4 me paraît au final frappé au coin du bon sens. Je sais que le bayésien pose des problèmes philosophiques à certaines personnes, mais il ne faut pas jeter le bébé avec l'eau du bain. Certes, on peut faire du modèle hiérarchique sans faire de bayésien. Mais ce n'est pas moins subjectif.
(1) Lele et al. ne sont pas les inventeurs du data cloning. L'approche date du début des années 90 et des versions plus efficaces basées sur le recuit simulé ont été développées;
(2) Il y a de fortes chances que le data cloning termine sa course sur le mauvais mode de la vraisemblance en cas de vraisemblance multimodale
(3) lorsque la vraisemblance est multimodale, le choix d'un mode plutôt qu'un autre pour faire l'inférence n'est pas évident, et comme l'indique Christian Robert: In which sense is the MLE more objective than a Bayes estimate, then?
(4) et concernant la critique principale, à savoir l'influence de la prior sur les résultats: "the impact of a prior on some aspects of the posterior distribution can be tested by re-running a Bayesian analysis with different priors, including empirical Bayes versions or, why not?!, data cloning, in order to understand where and why huge discrepancies occur. This is part of model building, in the end."
Le point 4 me paraît au final frappé au coin du bon sens. Je sais que le bayésien pose des problèmes philosophiques à certaines personnes, mais il ne faut pas jeter le bébé avec l'eau du bain. Certes, on peut faire du modèle hiérarchique sans faire de bayésien. Mais ce n'est pas moins subjectif.
Stupéfiant : une splendide idée pour des études (controlé depuis internet!!!)
À lire.
Tiens? une réponse de Christian Robert à l'article de Subhash Lele critiquant l'utilisation des priors non-informatif. Bon. Faudra vraiment que je lise l'article et la réponse, le débat a l'air intéressant! La conclusion de Christian Robert:
I find it rather surprising that a paper can be dedicated to the comparison of two arbitrary prior distributions on two fairly simplistic models towards the global conclusion that “non-informative priors neither ‘let the data speak’ nor do they correspond (even roughly) to likelihood analysis.”
I find it rather surprising that a paper can be dedicated to the comparison of two arbitrary prior distributions on two fairly simplistic models towards the global conclusion that “non-informative priors neither ‘let the data speak’ nor do they correspond (even roughly) to likelihood analysis.”