2353 shaares
J'attends les photos haute résolution avec impatience...
À lire.
TRÈS intéressant. Pour en finir avec le culte de l'AIC: non l'AIC n'est pas une méthode miracle qui résoud tous les problèmes, dans toutes les situations, quel que soit l'objectif. Le BIC est parfois plus intéressant, les tests d'hypothèses aussi. Notes prises ci-dessous:
=========================================
There is a use of AIC. But we should not always use AIC for model selection. There is a context. AIC is not universally better. Not one criterion better in all situations.
Mark Brewer se pose la question des contextes dans lesquels l'AIC (estimation de la distance de Kullback-Leibler entre le modèle et la réalité), le BIC (estimation de la proba -- sensu bayésien -- que le modèle soit le vrai modèle), et le test du rapport de vraisemblance devraient être utilisés. Which to use depends on the purpose. La théorie suggère que l'AIC devrait être utilisé pour la prédiction, le BIC pour l'explication, et le test du rapport de vraisemblance pour tester si un effet ou un groupe d'effet est "important". Et en pratique, quid?
Brewer va attaquer les arguments avancés par Burnham et Anderson pour vendre l'AIC dans les contextes inadéquats. Il commence par montrer l'incohérence entre l'affirmation selon laquelle l'AIC est libre des dépendances trop fortes aux seuils du type alpha=0.05 (comme dans le test d'hypothèse), et les affirmations du type "lorsque la différence d'AIC est inférieure à 2, deux modèles ne sont pas vraiment différents". Il montre ensuite que les seuils définis par ces auteurs sont variables d'un article à l'autre sans réelles explications sur le pourquoi des différences.
Il cite un article de Murtaugh qui défend l'utilisation des P-values: celles-ci ne sont pas mauvaises en tant que telles, c'est surtout leur mauvaise utilisation qui est sujette à caution. En outre, il existe des liens mathématiques entre AIC et test du rapport de vraisemblance pour une taille d'échantillon donnée. Si l'on compare deux modèles de régression avec une différence d'un seul paramètre, le Delta AIC sera égal à 0 lorsque la p-value correspondante sera égale à 0.15 (donc tendance de l'AIC à sélectionner le modèle le plus gros). À noter: un Delta AIC égal à 2 correspondra à une P-value de 0.05. C'est selon Mark Brewer une des raisons pour lesquelles ce seuil de 2 est souvent utilisé. Indiquant que l'AIC, tel qu'il est ordinairement utilisé, est en fait une P-value déguisée.
Il illustre encore mieux par la suite la confusion causée par la façon dont l'AIC est vendu en écologie. Il montre une simulation dans laquelle il sélectionne le meilleur modèle AIC de régression (une réponse Y sur 5 explicatives X). Il constate alors que les trois modèles suivants ne diffèrent du meilleur modèle que par un seul paramètre, et sont tous caractérisés par un delta-AIC inférieur à 2 (ce qui est quasiment obligé d'arriver, puisqu'en ajoutant un paramètre, la vraisemblance ne peut qu'augmenter, donc -2×log(L) va diminuer; alors qu'on ne rajoutera qu'un paramètre, donc l'AIC ne peut pas augmenter de plus de 2). C'est un autre point que Brewer souligne comme problématique dans ce raisonnement de B&A qui encourage les utilisateurs à utiliser de tels seuils. En effet, B&A indiquent que les modèles dont le Delta-Aic inférieur à 2 doivent être considérés, car le modèle le plus important n'est pas vraiment supporté par les données, car l'ajustement n'est pas amélioré. Le raisonnement pose un problème car déterminer si l'ajout d'un paramètre permet d'améliorer l'ajustement est exactement l'objectif d'un test du rapport de vraisemblance. Il vaut alors mieux utiliser un test du rapport de vraisemblance dans ce cas, et non l'AIC.
L'AIC et le test du rapport de vraisemblance répondent à deux questions différentes:
* AIC utilisé pour comparer deux modèles: Cela vaut-il la peine de rajouter tous les paramètres du modèle le plus grand?
* Test du rapport de vraisemblance: cela vaut-il la peine de rajouter certains des paramètres du modèle?
=================
Deuxième partie: comparaison AIC/BIC
Shibata 1981 démontre que l'AIC est optimal en termes de prédiction si les observations futures appartiennent à la même population que l'échantillon original.
Mark Brewer effectue des simulations pour vérifier l'affirmation de B&A selon laquelle l'AIC est préférable lorsque l'on a un gradient d'effets jouant sur la variable réponse (qui va d'un effet important à un effet faible voire nul), alors que le BIC sera plus efficace si on a quelques effets tres fort et pas d'autres effets, voire pas d'effet du tout.
Mark Brewer examine les variables correctement identifiées, et la qualité de prédiction mesurée par la RMSE pour les deux modèles suivants:
Modele 1: une variable réponse est liée à 10 variables X dans le generating model avec des effets forts (generating model du type régression linéaire simple). On fournit 5 variables X importantes et 5 variables Z bruit pour la modélisation. Dans ce cas, le BIC va manquer plus de variables que l'AIC, mais par contre inclura moins de variables pas dans le generating model lorsque n augmente. Quand l'effectif augmente, les défauts de l'AIC ne se corrigent pas (les défauts du BIC se corrigent avec la taille d'échantillon croissante).
Modele 2: une variable réponse est liée à 21 variables X dans le generating model avec un gradient d'effets (des effets très forts, des moyens, des faibles, des nuls). Idem, 5 variables X fournies + 5 variables Z bruit pour la modélisation. Le BIC a le même comportement que pour le modèle 1. Par contre, l'AIC n'est pas top dans ce cas là car certains effets sont tellement faibles qu'ils n'apparaissent pas.
Dans les deux cas, la qualité de prédiction est meilleure pour l'AIC, ce qui semble aller dans le sens des affirmations de B&A.
Mais comme indiqué ci-dessus par Shibata, on suppose que les prédictions futures sont issues de la même population que que les données présentes. Il va alors simuler des variables explicatives tirées d'une distribution légèrement différente (mais on ne touche pas au generating model en tant que tel: seules les variables explicatives ont une distribution différentes). Dans ce cas, pour le modèle 1, AIC et BIC sont équivalents. Pour le modèle 2, le BIC est bien meilleur.
Simplement resampler les X, sans toucher au generating model suffit à faire sauter l'optimalité de la qualité de prédiction de l'AIC, pour les effets en gradient (il est alors préférable de définir les petits effets à zéro dans ce cas de figure, et le BIC est alors un meilleur choix).
Et il va plus loin dans ses simulations: il simule une corrélation de 0.1 entre les X et les Z (i.e. X et Z sont tirés d'une loi multinormale). Et dans ce cas, AIC et BIC sont équivalents. Il va encore plus loin, en faisant varier la corrélation entre l'échantillon utilisé pour la modélisation et celui utilisé pour l'évaluation de la qualité de prédiction. Plus la corrélation est variable entre les échantillons et plus le BIC marche bien.
Il indique que plus la situation est instable, plus on a besoin d'être conservatif dans la prédiction. Et donc plus le BIC sera pertinent.
==========================
La conclusion de Brewer est que l'AIC et le BIC devrait être comparés sur la base des différentes pénalités qu'ils imposent sur la complexité du modèle. Une pénalité faible va conduire à un modèle avec beaucoup de variance. Une pénalité forte va conduire à un modèle avec beaucoup de biais. La question est donc "dans quel scénario est il préférable de se retrouver dans l'une ou l'autre situation".
En définitive, pour faire son choix, il faut se demander:
* quel est l'objectif de la comparaison de modèles?
* l'objectif est-il exploratoire ou confirmatoire?
* l'objectif est-il de développer un modèle prédictif?
* Cherche-t-on à estimer des effets spécifiques ou tester des hypothèses?
* La reproductibilité est-elle centrale?
Edit: en y réfléchissant après coup, le résultat selon lequel dans les situations instables le BIC peut être un meilleur critère pour construire un modèle prédictif est assez intuitif. En effet, l'AIC permet d'identifier le modèle le plus proche de la réalité qui a généré les données (ce qui inclut la réalité "d'intérêt", le processus de collecte des données, etc.). Lorsque l'on cherche à prédire, on ne cherche pas forcément à prédire les données que l'on collecterait si l'on reproduisait tout le processus... En général, on cherche à prédire la réalité d'intérêt, le processus d'état. Alors, le meilleur modèle explicatif peut se révéler meilleur prédicteur de ce processus d'état que le meilleur modèle prédictif des données collectées, surtout lorsque l'ensemble du système est instable (i.e. que de nouvelles données collectées peuvent se traduire par des propriétés, distributions, etc. différentes des données originales).
=========================================
There is a use of AIC. But we should not always use AIC for model selection. There is a context. AIC is not universally better. Not one criterion better in all situations.
Mark Brewer se pose la question des contextes dans lesquels l'AIC (estimation de la distance de Kullback-Leibler entre le modèle et la réalité), le BIC (estimation de la proba -- sensu bayésien -- que le modèle soit le vrai modèle), et le test du rapport de vraisemblance devraient être utilisés. Which to use depends on the purpose. La théorie suggère que l'AIC devrait être utilisé pour la prédiction, le BIC pour l'explication, et le test du rapport de vraisemblance pour tester si un effet ou un groupe d'effet est "important". Et en pratique, quid?
Brewer va attaquer les arguments avancés par Burnham et Anderson pour vendre l'AIC dans les contextes inadéquats. Il commence par montrer l'incohérence entre l'affirmation selon laquelle l'AIC est libre des dépendances trop fortes aux seuils du type alpha=0.05 (comme dans le test d'hypothèse), et les affirmations du type "lorsque la différence d'AIC est inférieure à 2, deux modèles ne sont pas vraiment différents". Il montre ensuite que les seuils définis par ces auteurs sont variables d'un article à l'autre sans réelles explications sur le pourquoi des différences.
Il cite un article de Murtaugh qui défend l'utilisation des P-values: celles-ci ne sont pas mauvaises en tant que telles, c'est surtout leur mauvaise utilisation qui est sujette à caution. En outre, il existe des liens mathématiques entre AIC et test du rapport de vraisemblance pour une taille d'échantillon donnée. Si l'on compare deux modèles de régression avec une différence d'un seul paramètre, le Delta AIC sera égal à 0 lorsque la p-value correspondante sera égale à 0.15 (donc tendance de l'AIC à sélectionner le modèle le plus gros). À noter: un Delta AIC égal à 2 correspondra à une P-value de 0.05. C'est selon Mark Brewer une des raisons pour lesquelles ce seuil de 2 est souvent utilisé. Indiquant que l'AIC, tel qu'il est ordinairement utilisé, est en fait une P-value déguisée.
Il illustre encore mieux par la suite la confusion causée par la façon dont l'AIC est vendu en écologie. Il montre une simulation dans laquelle il sélectionne le meilleur modèle AIC de régression (une réponse Y sur 5 explicatives X). Il constate alors que les trois modèles suivants ne diffèrent du meilleur modèle que par un seul paramètre, et sont tous caractérisés par un delta-AIC inférieur à 2 (ce qui est quasiment obligé d'arriver, puisqu'en ajoutant un paramètre, la vraisemblance ne peut qu'augmenter, donc -2×log(L) va diminuer; alors qu'on ne rajoutera qu'un paramètre, donc l'AIC ne peut pas augmenter de plus de 2). C'est un autre point que Brewer souligne comme problématique dans ce raisonnement de B&A qui encourage les utilisateurs à utiliser de tels seuils. En effet, B&A indiquent que les modèles dont le Delta-Aic inférieur à 2 doivent être considérés, car le modèle le plus important n'est pas vraiment supporté par les données, car l'ajustement n'est pas amélioré. Le raisonnement pose un problème car déterminer si l'ajout d'un paramètre permet d'améliorer l'ajustement est exactement l'objectif d'un test du rapport de vraisemblance. Il vaut alors mieux utiliser un test du rapport de vraisemblance dans ce cas, et non l'AIC.
L'AIC et le test du rapport de vraisemblance répondent à deux questions différentes:
* AIC utilisé pour comparer deux modèles: Cela vaut-il la peine de rajouter tous les paramètres du modèle le plus grand?
* Test du rapport de vraisemblance: cela vaut-il la peine de rajouter certains des paramètres du modèle?
=================
Deuxième partie: comparaison AIC/BIC
Shibata 1981 démontre que l'AIC est optimal en termes de prédiction si les observations futures appartiennent à la même population que l'échantillon original.
Mark Brewer effectue des simulations pour vérifier l'affirmation de B&A selon laquelle l'AIC est préférable lorsque l'on a un gradient d'effets jouant sur la variable réponse (qui va d'un effet important à un effet faible voire nul), alors que le BIC sera plus efficace si on a quelques effets tres fort et pas d'autres effets, voire pas d'effet du tout.
Mark Brewer examine les variables correctement identifiées, et la qualité de prédiction mesurée par la RMSE pour les deux modèles suivants:
Modele 1: une variable réponse est liée à 10 variables X dans le generating model avec des effets forts (generating model du type régression linéaire simple). On fournit 5 variables X importantes et 5 variables Z bruit pour la modélisation. Dans ce cas, le BIC va manquer plus de variables que l'AIC, mais par contre inclura moins de variables pas dans le generating model lorsque n augmente. Quand l'effectif augmente, les défauts de l'AIC ne se corrigent pas (les défauts du BIC se corrigent avec la taille d'échantillon croissante).
Modele 2: une variable réponse est liée à 21 variables X dans le generating model avec un gradient d'effets (des effets très forts, des moyens, des faibles, des nuls). Idem, 5 variables X fournies + 5 variables Z bruit pour la modélisation. Le BIC a le même comportement que pour le modèle 1. Par contre, l'AIC n'est pas top dans ce cas là car certains effets sont tellement faibles qu'ils n'apparaissent pas.
Dans les deux cas, la qualité de prédiction est meilleure pour l'AIC, ce qui semble aller dans le sens des affirmations de B&A.
Mais comme indiqué ci-dessus par Shibata, on suppose que les prédictions futures sont issues de la même population que que les données présentes. Il va alors simuler des variables explicatives tirées d'une distribution légèrement différente (mais on ne touche pas au generating model en tant que tel: seules les variables explicatives ont une distribution différentes). Dans ce cas, pour le modèle 1, AIC et BIC sont équivalents. Pour le modèle 2, le BIC est bien meilleur.
Simplement resampler les X, sans toucher au generating model suffit à faire sauter l'optimalité de la qualité de prédiction de l'AIC, pour les effets en gradient (il est alors préférable de définir les petits effets à zéro dans ce cas de figure, et le BIC est alors un meilleur choix).
Et il va plus loin dans ses simulations: il simule une corrélation de 0.1 entre les X et les Z (i.e. X et Z sont tirés d'une loi multinormale). Et dans ce cas, AIC et BIC sont équivalents. Il va encore plus loin, en faisant varier la corrélation entre l'échantillon utilisé pour la modélisation et celui utilisé pour l'évaluation de la qualité de prédiction. Plus la corrélation est variable entre les échantillons et plus le BIC marche bien.
Il indique que plus la situation est instable, plus on a besoin d'être conservatif dans la prédiction. Et donc plus le BIC sera pertinent.
==========================
La conclusion de Brewer est que l'AIC et le BIC devrait être comparés sur la base des différentes pénalités qu'ils imposent sur la complexité du modèle. Une pénalité faible va conduire à un modèle avec beaucoup de variance. Une pénalité forte va conduire à un modèle avec beaucoup de biais. La question est donc "dans quel scénario est il préférable de se retrouver dans l'une ou l'autre situation".
En définitive, pour faire son choix, il faut se demander:
* quel est l'objectif de la comparaison de modèles?
* l'objectif est-il exploratoire ou confirmatoire?
* l'objectif est-il de développer un modèle prédictif?
* Cherche-t-on à estimer des effets spécifiques ou tester des hypothèses?
* La reproductibilité est-elle centrale?
Edit: en y réfléchissant après coup, le résultat selon lequel dans les situations instables le BIC peut être un meilleur critère pour construire un modèle prédictif est assez intuitif. En effet, l'AIC permet d'identifier le modèle le plus proche de la réalité qui a généré les données (ce qui inclut la réalité "d'intérêt", le processus de collecte des données, etc.). Lorsque l'on cherche à prédire, on ne cherche pas forcément à prédire les données que l'on collecterait si l'on reproduisait tout le processus... En général, on cherche à prédire la réalité d'intérêt, le processus d'état. Alors, le meilleur modèle explicatif peut se révéler meilleur prédicteur de ce processus d'état que le meilleur modèle prédictif des données collectées, surtout lorsque l'ensemble du système est instable (i.e. que de nouvelles données collectées peuvent se traduire par des propriétés, distributions, etc. différentes des données originales).
Un package pour R qui permet de récupérer facilement les données de GBIF. C'est fou, ya un package pour tout dans R...
Impressionnant: les 315 ans de trafic d'esclaves de l'Afrique vers l'Amérique animé en deux minutes
Un article de significance sur dotcity, qui précise le rôle de R dans le logiciel
à lire
Des jeux de données rigolos, de la course de pigeons à l'impact du LSD sur les capacités en maths, en passant par l'habileté à manger avec des baguettes en fonction de leur longueur.
Rigolo
Rigolo
Ça a l'air intéressant ça... À lire...
Bon à savoir.
Iron Law of Nitpicking: If you write anything criticizing editing or proofreading, there will be a fault of some kind in what you have written.
Rho putain, s'arrêtent jamais. Maintenant, faut déclarer dans le namespace toutes les fonctions appartenant aux packages par défaut non-base...
Ça va être un gros changement ça, je vais encore y passer des plombes...
Font chier.
Ça va être un gros changement ça, je vais encore y passer des plombes...
Font chier.
Marrant: le gars va se faire un sim-city futuriste, et réaliste sur un plan démographique (allongement de la période de vie, augmentation de la taille de la population, développement technologique), avec une économie. Et apparemment, il sera partiellement codé en R!
Ça a l'air intéressant, si j'arrivais à trouver du temps pour lire ce genre de choses...
Une liste de livres intéressants...
Maths are everywhere. Encore un SMBC de génie. Me le garde sous le coude celui-là.
Predictive Ecology In A Changing World - Mouquet - Journal of Applied Ecology - Wiley Online Library
A lire.
Intéressant. Je suis d'accord avec toutes les propositions de la royal statistical society, mais surtout les deux suivantes:
* Champion basic training in data handling and statistics for politicians, policymakers and other professionals working in public services
* Prepare for the data economy by skilling up the nation.
Le rapport m'a l'air intéressant. À lire.
* Champion basic training in data handling and statistics for politicians, policymakers and other professionals working in public services
* Prepare for the data economy by skilling up the nation.
Le rapport m'a l'air intéressant. À lire.
Framasoft se lance dans la publication de livres électroniques... à suivre.
À garder sous le coude. Je m'étais fait la remarque lors de l'utilisation des randomForests qu'il serait intéressant de disposer de ce genre d'améliorations. Au prochain modèle prédictif que j'ajuste, je creuse ce type d'outil.