2352 shaares
1 result
tagged
binomiale
Ver Hoef et Boveng, 2007. Très intéressant. Résumé:
Les auteurs comparent l'approche quasi-poisson et binomiale négative pour prendre en compte la surdispersion. Sur un plan théorique et sur un plan pratique. Les deux principales différences entre ces approches sont:
* Dans la relation entre moyenne et variance: pour la quasi-Poisson, on a (Var = theta*mu) et pour la binomiale négative, on a (Var = mu + kappa*mu). Pour savoir lequel des deux est meilleur, il est recommandé d'ajuster les deux modèles, puis de représenter les carrés des résidus (y-mu)^2, qui représentent la variance, en fonction de mu. Comme ces graphes sont en général assez bordéliques, les auteurs recommandent de découper en catégories de mu et de calculer la moyenne des carrés des résidus (donc la variance) dans chaque catégorie. La relation entre les deux est-elle linéaire ou quadratique?
* Dans les poids pris par les observations lors de l'ajustement. En général, on utilise l'IRLS pour ajuster ces modèles. C'est un moindre carré dans lequel on utilise une matrice de poids particulière pour les observations. La seule différence entre quasi-poisson et binomiale négative tient dans ces poids (le reste est identique entre les deux approche). On voit alors que
- Pour la quasi-Poisson, le poids de l'observation i est mu_i/theta (avec theta le coef de surdispersion)
- Pour la binomiale négative, le poids est (mu_i / (1+kappa*mu_i))
Donc, quand mu_i devient grand, le poids de l'observation i devient grand en quasi-poisson, alors qu'il tends vers 1/kappa avec la BN. Il faut alors se poser la question du comportement le plus désirable en fonction de l'objectif. Dans celui présenté par les auteurs, i.e. estimer l'effectif de phoques, le comportement de la BN est problématique: "Our goal is to estimate overall abundance, which is dominated by the larger sites, and we prefer to have adjustments dominated by the effects at those larger sites". En plus, le graphe suggéré au premier point ci-dessus tend à favoriser la quasi-poisson.
J'aime bien la conclusion: "an important way to choose an appropriate model is based on sound scientific reasoning rather than a data-driven method". Toujours bon à rappeler. J'aime bien ces auteurs.
Les auteurs comparent l'approche quasi-poisson et binomiale négative pour prendre en compte la surdispersion. Sur un plan théorique et sur un plan pratique. Les deux principales différences entre ces approches sont:
* Dans la relation entre moyenne et variance: pour la quasi-Poisson, on a (Var = theta*mu) et pour la binomiale négative, on a (Var = mu + kappa*mu). Pour savoir lequel des deux est meilleur, il est recommandé d'ajuster les deux modèles, puis de représenter les carrés des résidus (y-mu)^2, qui représentent la variance, en fonction de mu. Comme ces graphes sont en général assez bordéliques, les auteurs recommandent de découper en catégories de mu et de calculer la moyenne des carrés des résidus (donc la variance) dans chaque catégorie. La relation entre les deux est-elle linéaire ou quadratique?
* Dans les poids pris par les observations lors de l'ajustement. En général, on utilise l'IRLS pour ajuster ces modèles. C'est un moindre carré dans lequel on utilise une matrice de poids particulière pour les observations. La seule différence entre quasi-poisson et binomiale négative tient dans ces poids (le reste est identique entre les deux approche). On voit alors que
- Pour la quasi-Poisson, le poids de l'observation i est mu_i/theta (avec theta le coef de surdispersion)
- Pour la binomiale négative, le poids est (mu_i / (1+kappa*mu_i))
Donc, quand mu_i devient grand, le poids de l'observation i devient grand en quasi-poisson, alors qu'il tends vers 1/kappa avec la BN. Il faut alors se poser la question du comportement le plus désirable en fonction de l'objectif. Dans celui présenté par les auteurs, i.e. estimer l'effectif de phoques, le comportement de la BN est problématique: "Our goal is to estimate overall abundance, which is dominated by the larger sites, and we prefer to have adjustments dominated by the effects at those larger sites". En plus, le graphe suggéré au premier point ci-dessus tend à favoriser la quasi-poisson.
J'aime bien la conclusion: "an important way to choose an appropriate model is based on sound scientific reasoning rather than a data-driven method". Toujours bon à rappeler. J'aime bien ces auteurs.