2344 shaares
442 results
tagged
stats
Sur l'usage du bootstrap avec validate et ols pour disposer d'une mesure d'incertitude sur le modèle dans la procédure de model selection (comparaison avec stepAIC).
Intéressant
Bouquin de bayésien
À garder ssous le coude
Autre idée intéressante. Oui au fond, tout dépend de ce pour quoi on estime un rapport, je sais pas pourquoi je me prends la tête comme ça. Du coup, avec le précédent, ça résout mon pb...
RandomFields(utils) n'est plus maintenu, c'est officiel. Le message de l'auteur/mainteneur:
Dear Users of RandomFields(Utils),
it is a de facto decision of CRAN that CRAN does not support any
further updates of the auxiliary package RandomFieldsUtils since April 2022.
So, I do not have any hope that a new version of RandomFields will be accepted by CRAN, eventually.
The future of my R packages is very unclear. The currently most likely scenario is to put the latest versions on github and to move to Julia for future programming.
Many thanks to you, Kurt and Uwe for the great support the past years.
Best,
Martin
Dear Users of RandomFields(Utils),
it is a de facto decision of CRAN that CRAN does not support any
further updates of the auxiliary package RandomFieldsUtils since April 2022.
So, I do not have any hope that a new version of RandomFields will be accepted by CRAN, eventually.
The future of my R packages is very unclear. The currently most likely scenario is to put the latest versions on github and to move to Julia for future programming.
Many thanks to you, Kurt and Uwe for the great support the past years.
Best,
Martin
Intéressant. Si on a une variable X qui est une somme d'autres variables, on peut s'appuyer là dessus pour en faire un IC assez étroit. Meilleur que Vysochanskij-Petunin, à garder sous le coude.
C'est génial
Démonstration limpide de la distribution exponentielle pour les waiting times sur un processus de Poisson
Article intéressant: si j'échantillonne n individus et que je ne trouve aucun positif, quel est le risque maximum d'être positif ? Règle ici: on a 95% de chances que le risque soit inférieur à n/3 -- et en suivant le même raisonnement qu'eux, 86% de chances que le risque soit inférieur à n/2.
Logique : On cherche une confiance à 95% donc un niveau de confiance à 0.05. Du coup, on cherche 0.05^(1/n), ce qui correspond grosso modo à -log(0.05)/n ~= 3/n.
Vérif sous R:
set.seed(777)
n <- 10:100
p <- seq(0,0.5, length=1000)
g <- sapply(n, function(ni) {
m0 <- sapply(p, function(y) {
rb <- rbinom(100, prob=y, size=ni)
})
cs <- colSums(m0==0)
css <- cumsum(cs)/sum(cs)
p[max(c(1:length(css))[css<0.95])]
})
plot(n,g, xlab="Taille d'échantillon",
ylab="Prévalence correspondant à 95% des zéros")
lines(n, 3/n, col="red", lwd=2)
Vérif maths. On considère la série:
$$
\sum_{k=0} (z^k)/(k!) = \exp(z)
$$
On définit $z = \log(0.05)/n$, ce qui nous permet d'étendre $\exp z =
0.05^{1/n}$ de la façon suivante:
$$
0.05^{1/n} = \sum_{k=0} \frac{(log(0.05)^k)}{n^k k!}
$$
Si $n$ suffisamment grand, on arrondit à:
$$
0.05^{1/n} \approx \log(0.05)/n
$$
et $log(0.05) \approx 3$
En suivant le même raisonnement, si l'on fixe un intervalle à 86\%,
alors le seuil est à 2/n.
Logique : On cherche une confiance à 95% donc un niveau de confiance à 0.05. Du coup, on cherche 0.05^(1/n), ce qui correspond grosso modo à -log(0.05)/n ~= 3/n.
Vérif sous R:
set.seed(777)
n <- 10:100
p <- seq(0,0.5, length=1000)
g <- sapply(n, function(ni) {
m0 <- sapply(p, function(y) {
rb <- rbinom(100, prob=y, size=ni)
})
cs <- colSums(m0==0)
css <- cumsum(cs)/sum(cs)
p[max(c(1:length(css))[css<0.95])]
})
plot(n,g, xlab="Taille d'échantillon",
ylab="Prévalence correspondant à 95% des zéros")
lines(n, 3/n, col="red", lwd=2)
Vérif maths. On considère la série:
$$
\sum_{k=0} (z^k)/(k!) = \exp(z)
$$
On définit $z = \log(0.05)/n$, ce qui nous permet d'étendre $\exp z =
0.05^{1/n}$ de la façon suivante:
$$
0.05^{1/n} = \sum_{k=0} \frac{(log(0.05)^k)}{n^k k!}
$$
Si $n$ suffisamment grand, on arrondit à:
$$
0.05^{1/n} \approx \log(0.05)/n
$$
et $log(0.05) \approx 3$
En suivant le même raisonnement, si l'on fixe un intervalle à 86\%,
alors le seuil est à 2/n.
gold.
Intéressant
À garder sous le coude, ya des choses intéressantes dans la réponse.
dérivée automatic (automatic differenciation) sous R
La shifted lognormal pour la distribution des temps de réaction
La somme de log-normale s'approche par une distribution de log-normale. Bidouillage, mais intéressant
À garder sous le coude pour les formations
Comment redémarrer un MCMC. Et définir son propre sampler avec Nimble
Jolie explication du paradoxe de Simpson
Le processus de Poisson est une version continue du processus de Bernoulli.
M'a l'air intéressant pour l'ABC.
Diviser par (n-1) dans le calcul de la variance permet de corriger un biais dans l'estimation de la variance de la population. Mais un biais tellement faible que c'est peanuts, et qu'il n'y a quasi-aucun cas de figure dans lequel la correction de ce biais pourrait se révéler utile. Simpson résume bien :
The n vs (n−1) denominator for a variance estimator is a curiosity. It is the source of thrilling (Not thrilling) exercises or exam questions. But it is not interesting.
It could maybe set up the idea that MLEs are not unbiased. But even then, the useless correction term is not needed. Just let it be slightly biased and move on with your life.
Because if that is the biggest bias in your analysis, you are truly blessed."
Amen.
The n vs (n−1) denominator for a variance estimator is a curiosity. It is the source of thrilling (Not thrilling) exercises or exam questions. But it is not interesting.
It could maybe set up the idea that MLEs are not unbiased. But even then, the useless correction term is not needed. Just let it be slightly biased and move on with your life.
Because if that is the biggest bias in your analysis, you are truly blessed."
Amen.
La distribution de Moschopoulos est une somme de gamma avec des paramètres différents.
Modéliser le log de la moyenne d'une variable log-normale, n'est pas la même chose que de modéliser la moyenne du log d'une variable log-normale. Une bonne explication.
Interpréter les différences de SE quand on utilise elpd. Super réponse de Vehtari.
Une explication du filtre de Kalman
À garder sous le coude.
À lire
Super intéressant
Modèles de survie spatio-temporels
There’s been a movement which has said that most research is wrong. It’s making people feel they’re doing something wrong, but that’s not the problem. The problem is that the publication system pushes you because you can only publish if you get a good, that is, small, p-value [a statistical test that indicates whether results could be due to chance]. Researchers then massage the data until they get the p-value and then it’s not reproducible. But if we were much more transparent and said, “You’re allowed to publish things which are significant or not significant because it’s useful down the road and just publish all your data and the code you used for the analyses” – if you’re transparent about what you’re doing, there’s much less opportunity to shoehorn the data into some wrong conclusion.
I feel that people misuse summaries in statistics. They feel as if statistics is going to summarize everything into one value, as if one p-value is going to summarize five years of work. It’s ridiculous. Everything is multidimensional, it’s complex. But if we could publish more of the negative results and all of the data, we would advance science much faster, because people would get insight from the negative results.
I feel that people misuse summaries in statistics. They feel as if statistics is going to summarize everything into one value, as if one p-value is going to summarize five years of work. It’s ridiculous. Everything is multidimensional, it’s complex. But if we could publish more of the negative results and all of the data, we would advance science much faster, because people would get insight from the negative results.
Intéressant.
Intéressant
Très intéressant !
L'estimation d'erreurs types pour les régressions lasso, c'est visiblement un sacré bordel.
Super explication de pourquoi on se fout de la surdispersion en régression lasso.
La vignette est sympa
Intéressant: il utilise la loi gamma pour simuler une quasi-poisson. Malheureusement, ses liens ne marchent pas. Mais je trouve l'idée intéressante, je me la garde sous le coude.
Oh mais il y a des choses ici !
Spécial stats au tribunal. M'a l'air intéressant...
Un regard intéressant sur la notion d'espérance. Très axé math statistique, mais effectivement, ça donne une intuition de l'espérance comme différence de deux surfaces, que l'on peut calculer de deux façons différentes.
À lire absolument. Aussi.
C'est dingue le nombre de bouquins de qualité, gratuits, qui sortent en ce moment.
C'est dingue le nombre de bouquins de qualité, gratuits, qui sortent en ce moment.
Chaîne intéressante. À suivre.
Encore un nouveau logiciel qui a l'air génial. À lire
J'aime bien Spiegelhalter...
À lire
Super site illustrant le principe de différents algos utilisés pour le MCMC.
Code intéressant: inclusion des inverse distances au carré comme pondération dans un test d'autocorrélation.
C'est mon problème. Moralité : réduire la curvature et standardiser les prédicteurs.
Récupérer les élements d'un objet stanfit. Notamment les éléments "sous le capot", genre la profondeur de l'arbre ou la taille des pas. treedepth et stepsize.
«All that stuff about running a million iterations and thinning by 10k is irrelevant for Stan/HMC, don’t do that.»
Sur la convergence, je suis assez surpris : ils notent "In practice we have found that requiring Rhat < 1.1 is a good default requirement for each parameter." Or, les chaînes n'ont pas vraiment une bonne tête avec Rhat à 1.1... En outre, ils notent " A good check for such issues is the number of effective samples per iteration -- if N_eff / N < 0.001 then you should be suspect of the effective sample size calculation." J'ai 1500 itérations et j'ai des N_eff de 135 pour mon paramètre le plus merdique. J'aime pas la tête des traces MCMC, mais cette recommandation tendrait à indiquer que je suis peut-être trop puriste sur ce coup-là. Je vais essayer de creuser cette question...
À lire
À lire.
Ils auront réagi vite.
Super doc !
Ressource intéressante.
Super bouquin, à lire absolument.
Mais alors vraiment absolument.
Via Mathieu.
Mais alors vraiment absolument.
Via Mathieu.
À voir, ça a l'air vachement bien.
Les exemples de Kéry et Royle traduits en Nimble
Wikipedia pas recommandé pour l'autoapprentissage en stats.
Ça ça m'intéresse... sur le package brms. À lire
Alire
La vache, ça avance à une vitesse ! À lire absolument...
J'arrête pas d'en entendre parler de ça... Faudrait que je me prenne un moment pour creuser...
plein de pistes utiles
Greta pour le MCMC. Ça semble génial...
Réponse intéressante de Ben Bolker, reposant sur le package lmperm, permettant l'ajustement de modèles linéaires avec test par permutation. À creuser, un jour.
Un shaded relief sous R. S'appuie sur le package metR du gars sur github
Liste des livres de stats préférés de Aki Vehtari. Ceux que je connais sont effectivement incontournables. Me reste à lire les autres !
Ah ? Ça m'intéresse
Semble intéressant, à lire donc.
Quand un outbreak se termine-t-il ?
Super illustration de l'approche. L'exemple de ffriend est limpide.
La règle de dérivation en chaîne multivariée, utilisée pour la /reverse mode algorithmic differentiation/, à son tour utilisée dans STAN.
Rapidement, si z = h(x,y), et si (i) x = f(t) et (ii) y = g(t), alors (dz/dt) = (dh/dx)*(dx/dt) + (dh/dy)*(dy/dt)
Bonne explication du pourquoi.
Rapidement, si z = h(x,y), et si (i) x = f(t) et (ii) y = g(t), alors (dz/dt) = (dh/dx)*(dx/dt) + (dh/dy)*(dy/dt)
Bonne explication du pourquoi.
Intéressant scepticisme de Douglas Bates concernant la généralisation du R2 au cas des modèles mixtes.
Un petit "truc" rigolo tiré de Gelman et Hill : dans une régression logistique, la pente de la courbe est maximisée pour a + bX = 0.
Alors la dérivée de exp(a+bX)/(1+exp(a+bX)) à cet endroit de pente maximale vaut b*exp(a+bX)/((1+exp(a+bX))^2.
Alors, lorsque la pente de cette courbe maximale est b*exp(0)/(1+exp(0))^2 = b/4.
Autrement dit, si on a une régression logistique avec une pente de b, alors on divise b par 4, et on a une approximation de la différence max de la proba que y=1 pour chaque augmentation de une unité de X.
Par exemple, si le coefficient de régression vaut 0.8, alors une augmentation de une unité de x vaut une augmentation de 0.8/4=0.2 de la proba de y=1.
Bien sûr, l'approximation marche mieux quand la proba prédite est proche de 0.5, et soit quand beta est proche de 0, soit quand x varie peu (voir le commentaire de Ben Bolker).
Peut toujours servir.
Alors la dérivée de exp(a+bX)/(1+exp(a+bX)) à cet endroit de pente maximale vaut b*exp(a+bX)/((1+exp(a+bX))^2.
Alors, lorsque la pente de cette courbe maximale est b*exp(0)/(1+exp(0))^2 = b/4.
Autrement dit, si on a une régression logistique avec une pente de b, alors on divise b par 4, et on a une approximation de la différence max de la proba que y=1 pour chaque augmentation de une unité de X.
Par exemple, si le coefficient de régression vaut 0.8, alors une augmentation de une unité de x vaut une augmentation de 0.8/4=0.2 de la proba de y=1.
Bien sûr, l'approximation marche mieux quand la proba prédite est proche de 0.5, et soit quand beta est proche de 0, soit quand x varie peu (voir le commentaire de Ben Bolker).
Peut toujours servir.
"In many classical models this only captures the location of the distribution but over the last decade there has been increasing interest in distributional regression approaches modeling all parameters including location, scale, and shape."
Il existe des méthodes de modélisations distributionelles, mais elles supposent que l'on connaît déjà les prédicteurs pertinents. Il y a des méthodes de sélection des prédicteurs, mais qui ne permettent pas la modélisation distributionnelle. D'où des arbres et forêts distributionnels. M'a l'air rigolo cette histoire.
Il existe des méthodes de modélisations distributionelles, mais elles supposent que l'on connaît déjà les prédicteurs pertinents. Il y a des méthodes de sélection des prédicteurs, mais qui ne permettent pas la modélisation distributionnelle. D'où des arbres et forêts distributionnels. M'a l'air rigolo cette histoire.
Graphe important. Quand l'effet est faible et que le bruit est important (donc quand la puissance est faible, ici de 0.06), se focaliser sur les effets significatifs conduit à des effets dont la magnitude est 9 fois plus importante que l'effet réel et qui ont une chance sur quatre d'avoir le mauvais signe.
En lien avec l'article précédent dans mon shaarli : plus une étude est caractérisée par du bruit, moins on peut avoir confiance dans les effets significatifs.
En lien avec l'article précédent dans mon shaarli : plus une étude est caractérisée par du bruit, moins on peut avoir confiance dans les effets significatifs.
"So, we’ve seen from statistical analysis that the “What does not kill my statistical significance makes it stronger” is a fallacy: Actually, the noisier the study, the less we learn from statistical significance."
Le truc, c'est que quand il y a beaucoup de bruit dans une étude, un résultat significatif tendra à indiquer un effet dont la magnitude tendra à être plus importante que l'effet réel, et dont le signe peut même aller dans le mauvais sens.
Le truc, c'est que quand il y a beaucoup de bruit dans une étude, un résultat significatif tendra à indiquer un effet dont la magnitude tendra à être plus importante que l'effet réel, et dont le signe peut même aller dans le mauvais sens.
Des histoires intéressantes à lire...
A lire: fourcade et al. cité dans le blog. M'a l'air pas mal.
Semble intéressant... A lire
À étudier sérieusement.
Apparemment, il existe des méthodes stats permettant de modéliser des trajets sur une sphère (par exemple des migrations d'animaux, des trajets d'ouragans, etc.). Je ne connaissais pas.
Bon, pas besoin pour le moment, mais c'est bon de savoir que ça existe.
Bon, pas besoin pour le moment, mais c'est bon de savoir que ça existe.
Numéro spécial de MEE sur l'élicitation d'avis d'expert. A récupérer et lire.
Super explication du pourquoi ne pas utiliser l'AIC de façon automatique. Très bel exemple.
Excellent!
"Participants reported being hungrier when they walked into the café (mean = 7.38, SD = 2.20) than when they walked out [mean = 1.53, SD = 2.70, F(1, 75) = 107.68, P < 0.001]."
"Participants reported being hungrier when they walked into the café (mean = 7.38, SD = 2.20) than when they walked out [mean = 1.53, SD = 2.70, F(1, 75) = 107.68, P < 0.001]."
Apparemment, ce serait une lecture intéressante. Bon, le blog est à l'ancienne, sans flux RSS, mais il semblerait qu'il y ait des infos assez intéressantes...
À lire un jour...
À lire un jour...
Les forêts aléatoires avec random effect, ça existe!
En python, mais ça existe...
En python, mais ça existe...
intéressant, basé sur des travaux de psycho.
À lire. J'avais entendu parler de la méthode, et j'étais pas fan (la méthode du noyau est de moins en moins efficace quand la dimension de l'espace écologique augmente). Visiblement, ya un débat. À lire donc.
À lire
Intéressante application du distance sampling sur données de pièges photos. À lire
Encore une nouvelle approche pour estimer les constantes de normalisation dans les approches bayesiennes
Article très intéressant, sur le sujet des probas très faibles ou très élevées, qui, pour des raisons de représentations finies, ne peuvent être représentées sur l'ordi.
Quand on veut travailler avec ça, ya plein de petits trucs qui permettent de ne pas avoir de surprise, que l'on souhaite calculer ces probas, les additionner ou calculer 1-p.
Super intéressant
Quand on veut travailler avec ça, ya plein de petits trucs qui permettent de ne pas avoir de surprise, que l'on souhaite calculer ces probas, les additionner ou calculer 1-p.
Super intéressant
Un cours assez intéressant sur la comparaisons de modèles, avec en particulier un passage très intéressant permettant d'acquérir une connaissance plus intuitive de "l'effective number of parameters"
J'ai regardé les premières minutes, ça a l'air génial. Une présentation de la construction de graphes en se basant sur le modèle de Cleveland.
À regarder plus en détail.
À regarder plus en détail.
Ça a l'air super intéressant. A lire.
Article qui semble intéressant. À lire.