2369 shaares
78 results
tagged
Ecologie
Des explications.
Intéressant: à garder sous le coude
À lire absolument, j'ai pas suivi le débat et je commence à prendre du retard sur ces questions.
À lire absolument
Une carte de la localisation des 3000 milliards d'arbres sur la planète (Via Mathieu).
Une présentation intéressante d'Olivier Gimenez sur l'analyse des données de sciences participatives.
Un article sur les comptages tétras dans la dépèche
À lire (ya une vidéo). L'analyse de décision revient en force...
Ver Hoef et Boveng, 2007. Très intéressant. Résumé:
Les auteurs comparent l'approche quasi-poisson et binomiale négative pour prendre en compte la surdispersion. Sur un plan théorique et sur un plan pratique. Les deux principales différences entre ces approches sont:
* Dans la relation entre moyenne et variance: pour la quasi-Poisson, on a (Var = theta*mu) et pour la binomiale négative, on a (Var = mu + kappa*mu). Pour savoir lequel des deux est meilleur, il est recommandé d'ajuster les deux modèles, puis de représenter les carrés des résidus (y-mu)^2, qui représentent la variance, en fonction de mu. Comme ces graphes sont en général assez bordéliques, les auteurs recommandent de découper en catégories de mu et de calculer la moyenne des carrés des résidus (donc la variance) dans chaque catégorie. La relation entre les deux est-elle linéaire ou quadratique?
* Dans les poids pris par les observations lors de l'ajustement. En général, on utilise l'IRLS pour ajuster ces modèles. C'est un moindre carré dans lequel on utilise une matrice de poids particulière pour les observations. La seule différence entre quasi-poisson et binomiale négative tient dans ces poids (le reste est identique entre les deux approche). On voit alors que
- Pour la quasi-Poisson, le poids de l'observation i est mu_i/theta (avec theta le coef de surdispersion)
- Pour la binomiale négative, le poids est (mu_i / (1+kappa*mu_i))
Donc, quand mu_i devient grand, le poids de l'observation i devient grand en quasi-poisson, alors qu'il tends vers 1/kappa avec la BN. Il faut alors se poser la question du comportement le plus désirable en fonction de l'objectif. Dans celui présenté par les auteurs, i.e. estimer l'effectif de phoques, le comportement de la BN est problématique: "Our goal is to estimate overall abundance, which is dominated by the larger sites, and we prefer to have adjustments dominated by the effects at those larger sites". En plus, le graphe suggéré au premier point ci-dessus tend à favoriser la quasi-poisson.
J'aime bien la conclusion: "an important way to choose an appropriate model is based on sound scientific reasoning rather than a data-driven method". Toujours bon à rappeler. J'aime bien ces auteurs.
Les auteurs comparent l'approche quasi-poisson et binomiale négative pour prendre en compte la surdispersion. Sur un plan théorique et sur un plan pratique. Les deux principales différences entre ces approches sont:
* Dans la relation entre moyenne et variance: pour la quasi-Poisson, on a (Var = theta*mu) et pour la binomiale négative, on a (Var = mu + kappa*mu). Pour savoir lequel des deux est meilleur, il est recommandé d'ajuster les deux modèles, puis de représenter les carrés des résidus (y-mu)^2, qui représentent la variance, en fonction de mu. Comme ces graphes sont en général assez bordéliques, les auteurs recommandent de découper en catégories de mu et de calculer la moyenne des carrés des résidus (donc la variance) dans chaque catégorie. La relation entre les deux est-elle linéaire ou quadratique?
* Dans les poids pris par les observations lors de l'ajustement. En général, on utilise l'IRLS pour ajuster ces modèles. C'est un moindre carré dans lequel on utilise une matrice de poids particulière pour les observations. La seule différence entre quasi-poisson et binomiale négative tient dans ces poids (le reste est identique entre les deux approche). On voit alors que
- Pour la quasi-Poisson, le poids de l'observation i est mu_i/theta (avec theta le coef de surdispersion)
- Pour la binomiale négative, le poids est (mu_i / (1+kappa*mu_i))
Donc, quand mu_i devient grand, le poids de l'observation i devient grand en quasi-poisson, alors qu'il tends vers 1/kappa avec la BN. Il faut alors se poser la question du comportement le plus désirable en fonction de l'objectif. Dans celui présenté par les auteurs, i.e. estimer l'effectif de phoques, le comportement de la BN est problématique: "Our goal is to estimate overall abundance, which is dominated by the larger sites, and we prefer to have adjustments dominated by the effects at those larger sites". En plus, le graphe suggéré au premier point ci-dessus tend à favoriser la quasi-poisson.
J'aime bien la conclusion: "an important way to choose an appropriate model is based on sound scientific reasoning rather than a data-driven method". Toujours bon à rappeler. J'aime bien ces auteurs.
À lire.
TRÈS intéressant. Pour en finir avec le culte de l'AIC: non l'AIC n'est pas une méthode miracle qui résoud tous les problèmes, dans toutes les situations, quel que soit l'objectif. Le BIC est parfois plus intéressant, les tests d'hypothèses aussi. Notes prises ci-dessous:
=========================================
There is a use of AIC. But we should not always use AIC for model selection. There is a context. AIC is not universally better. Not one criterion better in all situations.
Mark Brewer se pose la question des contextes dans lesquels l'AIC (estimation de la distance de Kullback-Leibler entre le modèle et la réalité), le BIC (estimation de la proba -- sensu bayésien -- que le modèle soit le vrai modèle), et le test du rapport de vraisemblance devraient être utilisés. Which to use depends on the purpose. La théorie suggère que l'AIC devrait être utilisé pour la prédiction, le BIC pour l'explication, et le test du rapport de vraisemblance pour tester si un effet ou un groupe d'effet est "important". Et en pratique, quid?
Brewer va attaquer les arguments avancés par Burnham et Anderson pour vendre l'AIC dans les contextes inadéquats. Il commence par montrer l'incohérence entre l'affirmation selon laquelle l'AIC est libre des dépendances trop fortes aux seuils du type alpha=0.05 (comme dans le test d'hypothèse), et les affirmations du type "lorsque la différence d'AIC est inférieure à 2, deux modèles ne sont pas vraiment différents". Il montre ensuite que les seuils définis par ces auteurs sont variables d'un article à l'autre sans réelles explications sur le pourquoi des différences.
Il cite un article de Murtaugh qui défend l'utilisation des P-values: celles-ci ne sont pas mauvaises en tant que telles, c'est surtout leur mauvaise utilisation qui est sujette à caution. En outre, il existe des liens mathématiques entre AIC et test du rapport de vraisemblance pour une taille d'échantillon donnée. Si l'on compare deux modèles de régression avec une différence d'un seul paramètre, le Delta AIC sera égal à 0 lorsque la p-value correspondante sera égale à 0.15 (donc tendance de l'AIC à sélectionner le modèle le plus gros). À noter: un Delta AIC égal à 2 correspondra à une P-value de 0.05. C'est selon Mark Brewer une des raisons pour lesquelles ce seuil de 2 est souvent utilisé. Indiquant que l'AIC, tel qu'il est ordinairement utilisé, est en fait une P-value déguisée.
Il illustre encore mieux par la suite la confusion causée par la façon dont l'AIC est vendu en écologie. Il montre une simulation dans laquelle il sélectionne le meilleur modèle AIC de régression (une réponse Y sur 5 explicatives X). Il constate alors que les trois modèles suivants ne diffèrent du meilleur modèle que par un seul paramètre, et sont tous caractérisés par un delta-AIC inférieur à 2 (ce qui est quasiment obligé d'arriver, puisqu'en ajoutant un paramètre, la vraisemblance ne peut qu'augmenter, donc -2×log(L) va diminuer; alors qu'on ne rajoutera qu'un paramètre, donc l'AIC ne peut pas augmenter de plus de 2). C'est un autre point que Brewer souligne comme problématique dans ce raisonnement de B&A qui encourage les utilisateurs à utiliser de tels seuils. En effet, B&A indiquent que les modèles dont le Delta-Aic inférieur à 2 doivent être considérés, car le modèle le plus important n'est pas vraiment supporté par les données, car l'ajustement n'est pas amélioré. Le raisonnement pose un problème car déterminer si l'ajout d'un paramètre permet d'améliorer l'ajustement est exactement l'objectif d'un test du rapport de vraisemblance. Il vaut alors mieux utiliser un test du rapport de vraisemblance dans ce cas, et non l'AIC.
L'AIC et le test du rapport de vraisemblance répondent à deux questions différentes:
* AIC utilisé pour comparer deux modèles: Cela vaut-il la peine de rajouter tous les paramètres du modèle le plus grand?
* Test du rapport de vraisemblance: cela vaut-il la peine de rajouter certains des paramètres du modèle?
=================
Deuxième partie: comparaison AIC/BIC
Shibata 1981 démontre que l'AIC est optimal en termes de prédiction si les observations futures appartiennent à la même population que l'échantillon original.
Mark Brewer effectue des simulations pour vérifier l'affirmation de B&A selon laquelle l'AIC est préférable lorsque l'on a un gradient d'effets jouant sur la variable réponse (qui va d'un effet important à un effet faible voire nul), alors que le BIC sera plus efficace si on a quelques effets tres fort et pas d'autres effets, voire pas d'effet du tout.
Mark Brewer examine les variables correctement identifiées, et la qualité de prédiction mesurée par la RMSE pour les deux modèles suivants:
Modele 1: une variable réponse est liée à 10 variables X dans le generating model avec des effets forts (generating model du type régression linéaire simple). On fournit 5 variables X importantes et 5 variables Z bruit pour la modélisation. Dans ce cas, le BIC va manquer plus de variables que l'AIC, mais par contre inclura moins de variables pas dans le generating model lorsque n augmente. Quand l'effectif augmente, les défauts de l'AIC ne se corrigent pas (les défauts du BIC se corrigent avec la taille d'échantillon croissante).
Modele 2: une variable réponse est liée à 21 variables X dans le generating model avec un gradient d'effets (des effets très forts, des moyens, des faibles, des nuls). Idem, 5 variables X fournies + 5 variables Z bruit pour la modélisation. Le BIC a le même comportement que pour le modèle 1. Par contre, l'AIC n'est pas top dans ce cas là car certains effets sont tellement faibles qu'ils n'apparaissent pas.
Dans les deux cas, la qualité de prédiction est meilleure pour l'AIC, ce qui semble aller dans le sens des affirmations de B&A.
Mais comme indiqué ci-dessus par Shibata, on suppose que les prédictions futures sont issues de la même population que que les données présentes. Il va alors simuler des variables explicatives tirées d'une distribution légèrement différente (mais on ne touche pas au generating model en tant que tel: seules les variables explicatives ont une distribution différentes). Dans ce cas, pour le modèle 1, AIC et BIC sont équivalents. Pour le modèle 2, le BIC est bien meilleur.
Simplement resampler les X, sans toucher au generating model suffit à faire sauter l'optimalité de la qualité de prédiction de l'AIC, pour les effets en gradient (il est alors préférable de définir les petits effets à zéro dans ce cas de figure, et le BIC est alors un meilleur choix).
Et il va plus loin dans ses simulations: il simule une corrélation de 0.1 entre les X et les Z (i.e. X et Z sont tirés d'une loi multinormale). Et dans ce cas, AIC et BIC sont équivalents. Il va encore plus loin, en faisant varier la corrélation entre l'échantillon utilisé pour la modélisation et celui utilisé pour l'évaluation de la qualité de prédiction. Plus la corrélation est variable entre les échantillons et plus le BIC marche bien.
Il indique que plus la situation est instable, plus on a besoin d'être conservatif dans la prédiction. Et donc plus le BIC sera pertinent.
==========================
La conclusion de Brewer est que l'AIC et le BIC devrait être comparés sur la base des différentes pénalités qu'ils imposent sur la complexité du modèle. Une pénalité faible va conduire à un modèle avec beaucoup de variance. Une pénalité forte va conduire à un modèle avec beaucoup de biais. La question est donc "dans quel scénario est il préférable de se retrouver dans l'une ou l'autre situation".
En définitive, pour faire son choix, il faut se demander:
* quel est l'objectif de la comparaison de modèles?
* l'objectif est-il exploratoire ou confirmatoire?
* l'objectif est-il de développer un modèle prédictif?
* Cherche-t-on à estimer des effets spécifiques ou tester des hypothèses?
* La reproductibilité est-elle centrale?
Edit: en y réfléchissant après coup, le résultat selon lequel dans les situations instables le BIC peut être un meilleur critère pour construire un modèle prédictif est assez intuitif. En effet, l'AIC permet d'identifier le modèle le plus proche de la réalité qui a généré les données (ce qui inclut la réalité "d'intérêt", le processus de collecte des données, etc.). Lorsque l'on cherche à prédire, on ne cherche pas forcément à prédire les données que l'on collecterait si l'on reproduisait tout le processus... En général, on cherche à prédire la réalité d'intérêt, le processus d'état. Alors, le meilleur modèle explicatif peut se révéler meilleur prédicteur de ce processus d'état que le meilleur modèle prédictif des données collectées, surtout lorsque l'ensemble du système est instable (i.e. que de nouvelles données collectées peuvent se traduire par des propriétés, distributions, etc. différentes des données originales).
=========================================
There is a use of AIC. But we should not always use AIC for model selection. There is a context. AIC is not universally better. Not one criterion better in all situations.
Mark Brewer se pose la question des contextes dans lesquels l'AIC (estimation de la distance de Kullback-Leibler entre le modèle et la réalité), le BIC (estimation de la proba -- sensu bayésien -- que le modèle soit le vrai modèle), et le test du rapport de vraisemblance devraient être utilisés. Which to use depends on the purpose. La théorie suggère que l'AIC devrait être utilisé pour la prédiction, le BIC pour l'explication, et le test du rapport de vraisemblance pour tester si un effet ou un groupe d'effet est "important". Et en pratique, quid?
Brewer va attaquer les arguments avancés par Burnham et Anderson pour vendre l'AIC dans les contextes inadéquats. Il commence par montrer l'incohérence entre l'affirmation selon laquelle l'AIC est libre des dépendances trop fortes aux seuils du type alpha=0.05 (comme dans le test d'hypothèse), et les affirmations du type "lorsque la différence d'AIC est inférieure à 2, deux modèles ne sont pas vraiment différents". Il montre ensuite que les seuils définis par ces auteurs sont variables d'un article à l'autre sans réelles explications sur le pourquoi des différences.
Il cite un article de Murtaugh qui défend l'utilisation des P-values: celles-ci ne sont pas mauvaises en tant que telles, c'est surtout leur mauvaise utilisation qui est sujette à caution. En outre, il existe des liens mathématiques entre AIC et test du rapport de vraisemblance pour une taille d'échantillon donnée. Si l'on compare deux modèles de régression avec une différence d'un seul paramètre, le Delta AIC sera égal à 0 lorsque la p-value correspondante sera égale à 0.15 (donc tendance de l'AIC à sélectionner le modèle le plus gros). À noter: un Delta AIC égal à 2 correspondra à une P-value de 0.05. C'est selon Mark Brewer une des raisons pour lesquelles ce seuil de 2 est souvent utilisé. Indiquant que l'AIC, tel qu'il est ordinairement utilisé, est en fait une P-value déguisée.
Il illustre encore mieux par la suite la confusion causée par la façon dont l'AIC est vendu en écologie. Il montre une simulation dans laquelle il sélectionne le meilleur modèle AIC de régression (une réponse Y sur 5 explicatives X). Il constate alors que les trois modèles suivants ne diffèrent du meilleur modèle que par un seul paramètre, et sont tous caractérisés par un delta-AIC inférieur à 2 (ce qui est quasiment obligé d'arriver, puisqu'en ajoutant un paramètre, la vraisemblance ne peut qu'augmenter, donc -2×log(L) va diminuer; alors qu'on ne rajoutera qu'un paramètre, donc l'AIC ne peut pas augmenter de plus de 2). C'est un autre point que Brewer souligne comme problématique dans ce raisonnement de B&A qui encourage les utilisateurs à utiliser de tels seuils. En effet, B&A indiquent que les modèles dont le Delta-Aic inférieur à 2 doivent être considérés, car le modèle le plus important n'est pas vraiment supporté par les données, car l'ajustement n'est pas amélioré. Le raisonnement pose un problème car déterminer si l'ajout d'un paramètre permet d'améliorer l'ajustement est exactement l'objectif d'un test du rapport de vraisemblance. Il vaut alors mieux utiliser un test du rapport de vraisemblance dans ce cas, et non l'AIC.
L'AIC et le test du rapport de vraisemblance répondent à deux questions différentes:
* AIC utilisé pour comparer deux modèles: Cela vaut-il la peine de rajouter tous les paramètres du modèle le plus grand?
* Test du rapport de vraisemblance: cela vaut-il la peine de rajouter certains des paramètres du modèle?
=================
Deuxième partie: comparaison AIC/BIC
Shibata 1981 démontre que l'AIC est optimal en termes de prédiction si les observations futures appartiennent à la même population que l'échantillon original.
Mark Brewer effectue des simulations pour vérifier l'affirmation de B&A selon laquelle l'AIC est préférable lorsque l'on a un gradient d'effets jouant sur la variable réponse (qui va d'un effet important à un effet faible voire nul), alors que le BIC sera plus efficace si on a quelques effets tres fort et pas d'autres effets, voire pas d'effet du tout.
Mark Brewer examine les variables correctement identifiées, et la qualité de prédiction mesurée par la RMSE pour les deux modèles suivants:
Modele 1: une variable réponse est liée à 10 variables X dans le generating model avec des effets forts (generating model du type régression linéaire simple). On fournit 5 variables X importantes et 5 variables Z bruit pour la modélisation. Dans ce cas, le BIC va manquer plus de variables que l'AIC, mais par contre inclura moins de variables pas dans le generating model lorsque n augmente. Quand l'effectif augmente, les défauts de l'AIC ne se corrigent pas (les défauts du BIC se corrigent avec la taille d'échantillon croissante).
Modele 2: une variable réponse est liée à 21 variables X dans le generating model avec un gradient d'effets (des effets très forts, des moyens, des faibles, des nuls). Idem, 5 variables X fournies + 5 variables Z bruit pour la modélisation. Le BIC a le même comportement que pour le modèle 1. Par contre, l'AIC n'est pas top dans ce cas là car certains effets sont tellement faibles qu'ils n'apparaissent pas.
Dans les deux cas, la qualité de prédiction est meilleure pour l'AIC, ce qui semble aller dans le sens des affirmations de B&A.
Mais comme indiqué ci-dessus par Shibata, on suppose que les prédictions futures sont issues de la même population que que les données présentes. Il va alors simuler des variables explicatives tirées d'une distribution légèrement différente (mais on ne touche pas au generating model en tant que tel: seules les variables explicatives ont une distribution différentes). Dans ce cas, pour le modèle 1, AIC et BIC sont équivalents. Pour le modèle 2, le BIC est bien meilleur.
Simplement resampler les X, sans toucher au generating model suffit à faire sauter l'optimalité de la qualité de prédiction de l'AIC, pour les effets en gradient (il est alors préférable de définir les petits effets à zéro dans ce cas de figure, et le BIC est alors un meilleur choix).
Et il va plus loin dans ses simulations: il simule une corrélation de 0.1 entre les X et les Z (i.e. X et Z sont tirés d'une loi multinormale). Et dans ce cas, AIC et BIC sont équivalents. Il va encore plus loin, en faisant varier la corrélation entre l'échantillon utilisé pour la modélisation et celui utilisé pour l'évaluation de la qualité de prédiction. Plus la corrélation est variable entre les échantillons et plus le BIC marche bien.
Il indique que plus la situation est instable, plus on a besoin d'être conservatif dans la prédiction. Et donc plus le BIC sera pertinent.
==========================
La conclusion de Brewer est que l'AIC et le BIC devrait être comparés sur la base des différentes pénalités qu'ils imposent sur la complexité du modèle. Une pénalité faible va conduire à un modèle avec beaucoup de variance. Une pénalité forte va conduire à un modèle avec beaucoup de biais. La question est donc "dans quel scénario est il préférable de se retrouver dans l'une ou l'autre situation".
En définitive, pour faire son choix, il faut se demander:
* quel est l'objectif de la comparaison de modèles?
* l'objectif est-il exploratoire ou confirmatoire?
* l'objectif est-il de développer un modèle prédictif?
* Cherche-t-on à estimer des effets spécifiques ou tester des hypothèses?
* La reproductibilité est-elle centrale?
Edit: en y réfléchissant après coup, le résultat selon lequel dans les situations instables le BIC peut être un meilleur critère pour construire un modèle prédictif est assez intuitif. En effet, l'AIC permet d'identifier le modèle le plus proche de la réalité qui a généré les données (ce qui inclut la réalité "d'intérêt", le processus de collecte des données, etc.). Lorsque l'on cherche à prédire, on ne cherche pas forcément à prédire les données que l'on collecterait si l'on reproduisait tout le processus... En général, on cherche à prédire la réalité d'intérêt, le processus d'état. Alors, le meilleur modèle explicatif peut se révéler meilleur prédicteur de ce processus d'état que le meilleur modèle prédictif des données collectées, surtout lorsque l'ensemble du système est instable (i.e. que de nouvelles données collectées peuvent se traduire par des propriétés, distributions, etc. différentes des données originales).
Predictive Ecology In A Changing World - Mouquet - Journal of Applied Ecology - Wiley Online Library
A lire.
Une chaine youtube intéressante. Ya des vidéos vraiment très intéressantes...
Intéressant. Je résume. Un écologue reviewant un papier devra:
1. Be Honest about What You Know and What You Don’t
2. Old Doesn’t Mean Bad (putain celui là on l'aura entendu! "cette méthode n'est plus utilisée, aujourd'hui ya mieux!")
3. New Doesn’t Mean Good (Daniel Chessel avait souligné dans son HDR les points 2 et 3 comme réaction fréquente de la part des biologistes face aux nouvelles méthodes).
4. Understand Assumptions (Suggesting unnecessarily complicated methodology makes things harder for the authors, the editors, for you as the reviewer (...), and finally, (...) the readers.)
5. Match the Method to the Assumptions
6. There is Rarely a Single Correct Method
7. p-values are not the Work of the Devil
8. Beware of Uninformed Pronunciamentos* (le comportement qui consiste à dire qu'une méthode ou une pratique -- e.g. calculer des P-values, s'intéresser à l'autocorrélation spatiale, etc. -- est toujours mauvaise, quel que soit le contexte).
9. Recommend a Statistician Look at the Paper (i.e. indiquer son incompétence en stats, et demander un autre reviewer sur ce thème, à relier au point 1).
10. Read up on the Statistical Methods
1. Be Honest about What You Know and What You Don’t
2. Old Doesn’t Mean Bad (putain celui là on l'aura entendu! "cette méthode n'est plus utilisée, aujourd'hui ya mieux!")
3. New Doesn’t Mean Good (Daniel Chessel avait souligné dans son HDR les points 2 et 3 comme réaction fréquente de la part des biologistes face aux nouvelles méthodes).
4. Understand Assumptions (Suggesting unnecessarily complicated methodology makes things harder for the authors, the editors, for you as the reviewer (...), and finally, (...) the readers.)
5. Match the Method to the Assumptions
6. There is Rarely a Single Correct Method
7. p-values are not the Work of the Devil
8. Beware of Uninformed Pronunciamentos* (le comportement qui consiste à dire qu'une méthode ou une pratique -- e.g. calculer des P-values, s'intéresser à l'autocorrélation spatiale, etc. -- est toujours mauvaise, quel que soit le contexte).
9. Recommend a Statistician Look at the Paper (i.e. indiquer son incompétence en stats, et demander un autre reviewer sur ce thème, à relier au point 1).
10. Read up on the Statistical Methods
Ça se frite dans TREE sur la vision de la recherche en écologie.
Frank Courchamp, Jennifer Dunne, Yvon Le Maho, Robert May, Christophe Thébaud, Michael Hochberg
Versus
Sébastien Barot, Luc Abbadie, Denis Couvet, Richard Hobbs, Sandra Lavorel, Georgina Mace, Xavier Le Roux
Les articles:
Courchamp et al:
http://www.cell.com/trends/ecology-evolution/abstract/S0169-5347(14)00244-4
Barot et al, la réponse au précédent:
http://www.sciencedirect.com/science/article/pii/S0169534715001275
Courchamp et al: la réponse à la réponse:
http://www.cell.com/trends/ecology-evolution/abstract/S0169-5347(15)00125-1?rss=yes
À récupérer et à lire
Frank Courchamp, Jennifer Dunne, Yvon Le Maho, Robert May, Christophe Thébaud, Michael Hochberg
Versus
Sébastien Barot, Luc Abbadie, Denis Couvet, Richard Hobbs, Sandra Lavorel, Georgina Mace, Xavier Le Roux
Les articles:
Courchamp et al:
http://www.cell.com/trends/ecology-evolution/abstract/S0169-5347(14)00244-4
Barot et al, la réponse au précédent:
http://www.sciencedirect.com/science/article/pii/S0169534715001275
Courchamp et al: la réponse à la réponse:
http://www.cell.com/trends/ecology-evolution/abstract/S0169-5347(15)00125-1?rss=yes
À récupérer et à lire
Une biche qui défend son petit contre un loup (via Nirmala)
Ah ben tiens, voila un sujet intéressant!
Le CRW composite a été suggéré comme alternative aux marches de Lévy sur les trajets d'animaux présentant des "patches". Cet article semble fournir des outils permettant de distinguer les deux. J'ai pas encore lu, mais j'ai un peu de mal à voir le sens biologique que l'on peut donner à une marche fractale...
Bref, à lire donc.
Le CRW composite a été suggéré comme alternative aux marches de Lévy sur les trajets d'animaux présentant des "patches". Cet article semble fournir des outils permettant de distinguer les deux. J'ai pas encore lu, mais j'ai un peu de mal à voir le sens biologique que l'on peut donner à une marche fractale...
Bref, à lire donc.
Ça m'intéresse beaucoup!
"There are costs for multimodel inferences, including the coding, computing, and summarization time on each model. When cost is included, a reasonable strategy may often be iterating on a single model."
A lire...
Edit: Ok, le take-home message est compris dans le titre. Globalement, les auteurs font un tour des différentes utilisations possibles des modèles, pour indiquer que l'inférence multimodèle n'est pas toujours le meilleur choix. Ils attaquent sans citer explicitement la vision de Burnham et Anderson (2002) qui attaquent eux-même la vision qu'il existe des modèles vrais. Pas explicitement, et comme disait je sais plus qui, le silence est ici assourdissant. Par exemple, ils vont attaquer l'idée que l'itération sur un modèle est du data dredging sans citer B&A alors que ce sont eux qui ont introduit cette vision en écologie. L'attaque se fait sur plusieurs fronts:
===
Les "vrais" modèles:
Ver Hoef et Boveng soulignent qu'il y a des situations dans lesquelles les vrais modèles existent: (i) le design based [les pontes de la théorie de l'échantillonnage désapprouveraient: ce n'est pas un modèle], (ii) la distribution binomiale déduite de l'approche de de Finetti (la loi binomiale est déduite de l'échangeabilité des évènements, mais du coup, certains désapprouveraient l'idée que du coup, la loi binomiale est ici un modèle, précisément parce que sa description de la situation est exacte), (iii) les approches expérimentales (version expérimentation de (i), même remarque), (iv) l'aggrégation de processus naturels étudiés à une échelle plus large (i.e. lorsque l'on travaille sur un taux de survie, on travaille sur une quantité objectivement mesurable sur une population -- que cette quantité ait un sens à l'échelle individuelle est une autre question). Citation intéressante: "For example, carried out to the limit, the only true model is one where the position uand velocity of every particle in the universe is known, and all of the rules that govern particle interactions are known. Only then could we truly predict everything that will happen. Operationally, at least, nature is not studied in that way. (...) Going back to the population model, details in nature are gained by making survival a function of predator abundance, climate variables, competition, disease, etc., but each of those variables is an average of other processes. As we disaggregate and allow details of nature to emerge, the certainty on the correct model decreases. Here, models are used to capture average characteristics, generally in the expectation or mean structure of the model, and the remaining details are absorbed in random error".
===
Les fonctions de perte:
On construit un modèle pour atteindre un objectif. Un modèle sera plus ou moins bon en fonction de l'objectif. Ils donnent un exemple et notent "Leaving model selection to a data-driven method that is attempting to get close to some unspecified true model, or using model-averaging, would have been a poor choice in their study; the best model was chosen based on the objective." Le choix du "meilleur modèle", donc la définition de "meilleur" peut se faire par la définition d'une fonction de perte. Le *risque d'estimation* [en fréquentiste] est alors défini comme l'intégrale sur tous les jeux de données possibles de cette fonction de perte multipliée par la vraisemblance de ces données (donc, espérance de la perte). L'AIC est une estimation du risque d'estimation en s'appuyant sur la perte log(f(y)/g(y|theta)), avec f(y) la réalité, et g(y|theta) le modèle.
Quand la fonction de perte change, l'estimateur optimal aussi. AIC, TIC, BIC, etc. sont tous de mesures correspondant à différentes fonctions de pertes; dans ce contexte d'une modélisation basée sur les objectifs: "some loss functions may meet objectives better than others". À noter aussi: les matheux parlent souvent du risque d'estimation dans ce contexte, je comprends mieux pourquoi maintenant.
===
Le cœur de l'article:
Les auteurs commencent par souligner l'importance des "model diagnostics" (examen des résidus, etc.). Que l'on fasse du single model ou du multimodel, on doit passer par là. C'est cet examen qui permet de valider ou invalider un modèle. Les auteurs soulignent que l'inférence multimodèle ne peut pas permettre de faire du diagnostic pour tous les modèles, on le fera uniquement pour le modèle sélectionné... Et si l'on se rend compte qu'il y a des soucis, il faudra de toutes façons le modifier. Dans la discussion "The analyst should consider the importance of model diagnostics for discovering new features in the data in comparison to maintaining global inference probabilities".
Il y a des coûts à l'inférence multimodèle: on doit restreindre le nombre de modèles. On est limité par le temps d'ajustement des modèles qui peut être long (en particulier lorsque le modèle est ajusté par MCMC). "We maintain that iterating on a single model is a viable alternative to multimodel inference."
Pb: souvent taxé de "data dredging". Mais les auteurs soulignent: "At some level, all inference is conditional". On se place dans le cas de figure: une fois qu'on arrive au modèle final, une fois qu'on a fini de le construire, on le définit comme la réalité, et c'est conditionnellement qu'on va faire nos inférences. La dernière phrase avant la discussion:
"The whole issue of conditional knowledge underlies much confusion about statistical inference. The key to getting beyond confirmatory modeling is to condition on the chosen model. After exploring the data and developing a model, all of the inference is conditional on that model".
Question centrale posée en discussion: "Is the investigor willing to live with probabilities that are conditional on a single model?".
La conclusion: "We argue that iterative improvements of a single model form a viable and straightforward alternative to multimodel inference. (...) The ultimate goal is to prvide better insight and predictions, and to broaden the scope of inference. Using model-checking and iterating on a single model takes less time to find flaws in the current model, to discover the reasons for lack of fit, and then to modify the model or adopt a new one. Multimodel inference takes longer to fit all models, may impede model evaluation, and makes discovery of new patterns more difficult."
Bon papier.
"There are costs for multimodel inferences, including the coding, computing, and summarization time on each model. When cost is included, a reasonable strategy may often be iterating on a single model."
A lire...
Edit: Ok, le take-home message est compris dans le titre. Globalement, les auteurs font un tour des différentes utilisations possibles des modèles, pour indiquer que l'inférence multimodèle n'est pas toujours le meilleur choix. Ils attaquent sans citer explicitement la vision de Burnham et Anderson (2002) qui attaquent eux-même la vision qu'il existe des modèles vrais. Pas explicitement, et comme disait je sais plus qui, le silence est ici assourdissant. Par exemple, ils vont attaquer l'idée que l'itération sur un modèle est du data dredging sans citer B&A alors que ce sont eux qui ont introduit cette vision en écologie. L'attaque se fait sur plusieurs fronts:
===
Les "vrais" modèles:
Ver Hoef et Boveng soulignent qu'il y a des situations dans lesquelles les vrais modèles existent: (i) le design based [les pontes de la théorie de l'échantillonnage désapprouveraient: ce n'est pas un modèle], (ii) la distribution binomiale déduite de l'approche de de Finetti (la loi binomiale est déduite de l'échangeabilité des évènements, mais du coup, certains désapprouveraient l'idée que du coup, la loi binomiale est ici un modèle, précisément parce que sa description de la situation est exacte), (iii) les approches expérimentales (version expérimentation de (i), même remarque), (iv) l'aggrégation de processus naturels étudiés à une échelle plus large (i.e. lorsque l'on travaille sur un taux de survie, on travaille sur une quantité objectivement mesurable sur une population -- que cette quantité ait un sens à l'échelle individuelle est une autre question). Citation intéressante: "For example, carried out to the limit, the only true model is one where the position uand velocity of every particle in the universe is known, and all of the rules that govern particle interactions are known. Only then could we truly predict everything that will happen. Operationally, at least, nature is not studied in that way. (...) Going back to the population model, details in nature are gained by making survival a function of predator abundance, climate variables, competition, disease, etc., but each of those variables is an average of other processes. As we disaggregate and allow details of nature to emerge, the certainty on the correct model decreases. Here, models are used to capture average characteristics, generally in the expectation or mean structure of the model, and the remaining details are absorbed in random error".
===
Les fonctions de perte:
On construit un modèle pour atteindre un objectif. Un modèle sera plus ou moins bon en fonction de l'objectif. Ils donnent un exemple et notent "Leaving model selection to a data-driven method that is attempting to get close to some unspecified true model, or using model-averaging, would have been a poor choice in their study; the best model was chosen based on the objective." Le choix du "meilleur modèle", donc la définition de "meilleur" peut se faire par la définition d'une fonction de perte. Le *risque d'estimation* [en fréquentiste] est alors défini comme l'intégrale sur tous les jeux de données possibles de cette fonction de perte multipliée par la vraisemblance de ces données (donc, espérance de la perte). L'AIC est une estimation du risque d'estimation en s'appuyant sur la perte log(f(y)/g(y|theta)), avec f(y) la réalité, et g(y|theta) le modèle.
Quand la fonction de perte change, l'estimateur optimal aussi. AIC, TIC, BIC, etc. sont tous de mesures correspondant à différentes fonctions de pertes; dans ce contexte d'une modélisation basée sur les objectifs: "some loss functions may meet objectives better than others". À noter aussi: les matheux parlent souvent du risque d'estimation dans ce contexte, je comprends mieux pourquoi maintenant.
===
Le cœur de l'article:
Les auteurs commencent par souligner l'importance des "model diagnostics" (examen des résidus, etc.). Que l'on fasse du single model ou du multimodel, on doit passer par là. C'est cet examen qui permet de valider ou invalider un modèle. Les auteurs soulignent que l'inférence multimodèle ne peut pas permettre de faire du diagnostic pour tous les modèles, on le fera uniquement pour le modèle sélectionné... Et si l'on se rend compte qu'il y a des soucis, il faudra de toutes façons le modifier. Dans la discussion "The analyst should consider the importance of model diagnostics for discovering new features in the data in comparison to maintaining global inference probabilities".
Il y a des coûts à l'inférence multimodèle: on doit restreindre le nombre de modèles. On est limité par le temps d'ajustement des modèles qui peut être long (en particulier lorsque le modèle est ajusté par MCMC). "We maintain that iterating on a single model is a viable alternative to multimodel inference."
Pb: souvent taxé de "data dredging". Mais les auteurs soulignent: "At some level, all inference is conditional". On se place dans le cas de figure: une fois qu'on arrive au modèle final, une fois qu'on a fini de le construire, on le définit comme la réalité, et c'est conditionnellement qu'on va faire nos inférences. La dernière phrase avant la discussion:
"The whole issue of conditional knowledge underlies much confusion about statistical inference. The key to getting beyond confirmatory modeling is to condition on the chosen model. After exploring the data and developing a model, all of the inference is conditional on that model".
Question centrale posée en discussion: "Is the investigor willing to live with probabilities that are conditional on a single model?".
La conclusion: "We argue that iterative improvements of a single model form a viable and straightforward alternative to multimodel inference. (...) The ultimate goal is to prvide better insight and predictions, and to broaden the scope of inference. Using model-checking and iterating on a single model takes less time to find flaws in the current model, to discover the reasons for lack of fit, and then to modify the model or adopt a new one. Multimodel inference takes longer to fit all models, may impede model evaluation, and makes discovery of new patterns more difficult."
Bon papier.
Exploration de séquence sous R. M'a l'air pas mal...