2369 shaares
447 results
tagged
stats
Intéressant scepticisme de Douglas Bates concernant la généralisation du R2 au cas des modèles mixtes.
Un petit "truc" rigolo tiré de Gelman et Hill : dans une régression logistique, la pente de la courbe est maximisée pour a + bX = 0.
Alors la dérivée de exp(a+bX)/(1+exp(a+bX)) à cet endroit de pente maximale vaut b*exp(a+bX)/((1+exp(a+bX))^2.
Alors, lorsque la pente de cette courbe maximale est b*exp(0)/(1+exp(0))^2 = b/4.
Autrement dit, si on a une régression logistique avec une pente de b, alors on divise b par 4, et on a une approximation de la différence max de la proba que y=1 pour chaque augmentation de une unité de X.
Par exemple, si le coefficient de régression vaut 0.8, alors une augmentation de une unité de x vaut une augmentation de 0.8/4=0.2 de la proba de y=1.
Bien sûr, l'approximation marche mieux quand la proba prédite est proche de 0.5, et soit quand beta est proche de 0, soit quand x varie peu (voir le commentaire de Ben Bolker).
Peut toujours servir.
Alors la dérivée de exp(a+bX)/(1+exp(a+bX)) à cet endroit de pente maximale vaut b*exp(a+bX)/((1+exp(a+bX))^2.
Alors, lorsque la pente de cette courbe maximale est b*exp(0)/(1+exp(0))^2 = b/4.
Autrement dit, si on a une régression logistique avec une pente de b, alors on divise b par 4, et on a une approximation de la différence max de la proba que y=1 pour chaque augmentation de une unité de X.
Par exemple, si le coefficient de régression vaut 0.8, alors une augmentation de une unité de x vaut une augmentation de 0.8/4=0.2 de la proba de y=1.
Bien sûr, l'approximation marche mieux quand la proba prédite est proche de 0.5, et soit quand beta est proche de 0, soit quand x varie peu (voir le commentaire de Ben Bolker).
Peut toujours servir.
"In many classical models this only captures the location of the distribution but over the last decade there has been increasing interest in distributional regression approaches modeling all parameters including location, scale, and shape."
Il existe des méthodes de modélisations distributionelles, mais elles supposent que l'on connaît déjà les prédicteurs pertinents. Il y a des méthodes de sélection des prédicteurs, mais qui ne permettent pas la modélisation distributionnelle. D'où des arbres et forêts distributionnels. M'a l'air rigolo cette histoire.
Il existe des méthodes de modélisations distributionelles, mais elles supposent que l'on connaît déjà les prédicteurs pertinents. Il y a des méthodes de sélection des prédicteurs, mais qui ne permettent pas la modélisation distributionnelle. D'où des arbres et forêts distributionnels. M'a l'air rigolo cette histoire.
Graphe important. Quand l'effet est faible et que le bruit est important (donc quand la puissance est faible, ici de 0.06), se focaliser sur les effets significatifs conduit à des effets dont la magnitude est 9 fois plus importante que l'effet réel et qui ont une chance sur quatre d'avoir le mauvais signe.
En lien avec l'article précédent dans mon shaarli : plus une étude est caractérisée par du bruit, moins on peut avoir confiance dans les effets significatifs.
En lien avec l'article précédent dans mon shaarli : plus une étude est caractérisée par du bruit, moins on peut avoir confiance dans les effets significatifs.
"So, we’ve seen from statistical analysis that the “What does not kill my statistical significance makes it stronger” is a fallacy: Actually, the noisier the study, the less we learn from statistical significance."
Le truc, c'est que quand il y a beaucoup de bruit dans une étude, un résultat significatif tendra à indiquer un effet dont la magnitude tendra à être plus importante que l'effet réel, et dont le signe peut même aller dans le mauvais sens.
Le truc, c'est que quand il y a beaucoup de bruit dans une étude, un résultat significatif tendra à indiquer un effet dont la magnitude tendra à être plus importante que l'effet réel, et dont le signe peut même aller dans le mauvais sens.
Des histoires intéressantes à lire...
A lire: fourcade et al. cité dans le blog. M'a l'air pas mal.
Semble intéressant... A lire
À étudier sérieusement.
Apparemment, il existe des méthodes stats permettant de modéliser des trajets sur une sphère (par exemple des migrations d'animaux, des trajets d'ouragans, etc.). Je ne connaissais pas.
Bon, pas besoin pour le moment, mais c'est bon de savoir que ça existe.
Bon, pas besoin pour le moment, mais c'est bon de savoir que ça existe.
Numéro spécial de MEE sur l'élicitation d'avis d'expert. A récupérer et lire.
Super explication du pourquoi ne pas utiliser l'AIC de façon automatique. Très bel exemple.
Excellent!
"Participants reported being hungrier when they walked into the café (mean = 7.38, SD = 2.20) than when they walked out [mean = 1.53, SD = 2.70, F(1, 75) = 107.68, P < 0.001]."
"Participants reported being hungrier when they walked into the café (mean = 7.38, SD = 2.20) than when they walked out [mean = 1.53, SD = 2.70, F(1, 75) = 107.68, P < 0.001]."
Apparemment, ce serait une lecture intéressante. Bon, le blog est à l'ancienne, sans flux RSS, mais il semblerait qu'il y ait des infos assez intéressantes...
À lire un jour...
À lire un jour...
Les forêts aléatoires avec random effect, ça existe!
En python, mais ça existe...
En python, mais ça existe...
intéressant, basé sur des travaux de psycho.
À lire. J'avais entendu parler de la méthode, et j'étais pas fan (la méthode du noyau est de moins en moins efficace quand la dimension de l'espace écologique augmente). Visiblement, ya un débat. À lire donc.
À lire
Intéressante application du distance sampling sur données de pièges photos. À lire
Encore une nouvelle approche pour estimer les constantes de normalisation dans les approches bayesiennes