2387 shaares
448 results
tagged
stats
Sur les degrés de liberté dans un lmer
Un livre intéressant
Toujours utile à garder sous le coude pour le ressortir au bon moment.
Ressource intéressante.
Sur le calcul des matrices de covariances avec le GLM sous R.
Un post intéressant indiquant que la matrice d'information de Fisher est identique à la covariance de la posterior. Mais qui ne donne aucune référence sur ce point. Autant je comprends pourquoi l'estimation MAP est identique à la MLE quand les priors sont uniformes impropres, autant je ne comprends pas pourquoi la matrice d'information de Fisher devrait être théoriquement égale à la covariance de la posterior. C'est vraiment un point que j'aimerais résoudre, parce que ça m'arrangerait pas mal pour l'étude que je suis en train de faire.
Sur l'usage du bootstrap avec validate et ols pour disposer d'une mesure d'incertitude sur le modèle dans la procédure de model selection (comparaison avec stepAIC).
Intéressant
Bouquin de bayésien
À garder ssous le coude
Autre idée intéressante. Oui au fond, tout dépend de ce pour quoi on estime un rapport, je sais pas pourquoi je me prends la tête comme ça. Du coup, avec le précédent, ça résout mon pb...
RandomFields(utils) n'est plus maintenu, c'est officiel. Le message de l'auteur/mainteneur:
Dear Users of RandomFields(Utils),
it is a de facto decision of CRAN that CRAN does not support any
further updates of the auxiliary package RandomFieldsUtils since April 2022.
So, I do not have any hope that a new version of RandomFields will be accepted by CRAN, eventually.
The future of my R packages is very unclear. The currently most likely scenario is to put the latest versions on github and to move to Julia for future programming.
Many thanks to you, Kurt and Uwe for the great support the past years.
Best,
Martin
Dear Users of RandomFields(Utils),
it is a de facto decision of CRAN that CRAN does not support any
further updates of the auxiliary package RandomFieldsUtils since April 2022.
So, I do not have any hope that a new version of RandomFields will be accepted by CRAN, eventually.
The future of my R packages is very unclear. The currently most likely scenario is to put the latest versions on github and to move to Julia for future programming.
Many thanks to you, Kurt and Uwe for the great support the past years.
Best,
Martin
Intéressant. Si on a une variable X qui est une somme d'autres variables, on peut s'appuyer là dessus pour en faire un IC assez étroit. Meilleur que Vysochanskij-Petunin, à garder sous le coude.
C'est génial
Démonstration limpide de la distribution exponentielle pour les waiting times sur un processus de Poisson
Article intéressant: si j'échantillonne n individus et que je ne trouve aucun positif, quel est le risque maximum d'être positif ? Règle ici: on a 95% de chances que le risque soit inférieur à n/3 -- et en suivant le même raisonnement qu'eux, 86% de chances que le risque soit inférieur à n/2.
Logique : On cherche une confiance à 95% donc un niveau de confiance à 0.05. Du coup, on cherche 0.05^(1/n), ce qui correspond grosso modo à -log(0.05)/n ~= 3/n.
Vérif sous R:
set.seed(777)
n <- 10:100
p <- seq(0,0.5, length=1000)
g <- sapply(n, function(ni) {
m0 <- sapply(p, function(y) {
rb <- rbinom(100, prob=y, size=ni)
})
cs <- colSums(m0==0)
css <- cumsum(cs)/sum(cs)
p[max(c(1:length(css))[css<0.95])]
})
plot(n,g, xlab="Taille d'échantillon",
ylab="Prévalence correspondant à 95% des zéros")
lines(n, 3/n, col="red", lwd=2)
Vérif maths. On considère la série:
$$
\sum_{k=0} (z^k)/(k!) = \exp(z)
$$
On définit $z = \log(0.05)/n$, ce qui nous permet d'étendre $\exp z =
0.05^{1/n}$ de la façon suivante:
$$
0.05^{1/n} = \sum_{k=0} \frac{(log(0.05)^k)}{n^k k!}
$$
Si $n$ suffisamment grand, on arrondit à:
$$
0.05^{1/n} \approx \log(0.05)/n
$$
et $log(0.05) \approx 3$
En suivant le même raisonnement, si l'on fixe un intervalle à 86\%,
alors le seuil est à 2/n.
Logique : On cherche une confiance à 95% donc un niveau de confiance à 0.05. Du coup, on cherche 0.05^(1/n), ce qui correspond grosso modo à -log(0.05)/n ~= 3/n.
Vérif sous R:
set.seed(777)
n <- 10:100
p <- seq(0,0.5, length=1000)
g <- sapply(n, function(ni) {
m0 <- sapply(p, function(y) {
rb <- rbinom(100, prob=y, size=ni)
})
cs <- colSums(m0==0)
css <- cumsum(cs)/sum(cs)
p[max(c(1:length(css))[css<0.95])]
})
plot(n,g, xlab="Taille d'échantillon",
ylab="Prévalence correspondant à 95% des zéros")
lines(n, 3/n, col="red", lwd=2)
Vérif maths. On considère la série:
$$
\sum_{k=0} (z^k)/(k!) = \exp(z)
$$
On définit $z = \log(0.05)/n$, ce qui nous permet d'étendre $\exp z =
0.05^{1/n}$ de la façon suivante:
$$
0.05^{1/n} = \sum_{k=0} \frac{(log(0.05)^k)}{n^k k!}
$$
Si $n$ suffisamment grand, on arrondit à:
$$
0.05^{1/n} \approx \log(0.05)/n
$$
et $log(0.05) \approx 3$
En suivant le même raisonnement, si l'on fixe un intervalle à 86\%,
alors le seuil est à 2/n.
gold.
Intéressant
À garder sous le coude, ya des choses intéressantes dans la réponse.
dérivée automatic (automatic differenciation) sous R
La shifted lognormal pour la distribution des temps de réaction
La somme de log-normale s'approche par une distribution de log-normale. Bidouillage, mais intéressant
À garder sous le coude pour les formations
Comment redémarrer un MCMC. Et définir son propre sampler avec Nimble
Jolie explication du paradoxe de Simpson
Le processus de Poisson est une version continue du processus de Bernoulli.
M'a l'air intéressant pour l'ABC.
Diviser par (n-1) dans le calcul de la variance permet de corriger un biais dans l'estimation de la variance de la population. Mais un biais tellement faible que c'est peanuts, et qu'il n'y a quasi-aucun cas de figure dans lequel la correction de ce biais pourrait se révéler utile. Simpson résume bien :
The n vs (n−1) denominator for a variance estimator is a curiosity. It is the source of thrilling (Not thrilling) exercises or exam questions. But it is not interesting.
It could maybe set up the idea that MLEs are not unbiased. But even then, the useless correction term is not needed. Just let it be slightly biased and move on with your life.
Because if that is the biggest bias in your analysis, you are truly blessed."
Amen.
The n vs (n−1) denominator for a variance estimator is a curiosity. It is the source of thrilling (Not thrilling) exercises or exam questions. But it is not interesting.
It could maybe set up the idea that MLEs are not unbiased. But even then, the useless correction term is not needed. Just let it be slightly biased and move on with your life.
Because if that is the biggest bias in your analysis, you are truly blessed."
Amen.
La distribution de Moschopoulos est une somme de gamma avec des paramètres différents.
Modéliser le log de la moyenne d'une variable log-normale, n'est pas la même chose que de modéliser la moyenne du log d'une variable log-normale. Une bonne explication.
Interpréter les différences de SE quand on utilise elpd. Super réponse de Vehtari.
Une explication du filtre de Kalman
À garder sous le coude.
À lire
Super intéressant
Modèles de survie spatio-temporels
There’s been a movement which has said that most research is wrong. It’s making people feel they’re doing something wrong, but that’s not the problem. The problem is that the publication system pushes you because you can only publish if you get a good, that is, small, p-value [a statistical test that indicates whether results could be due to chance]. Researchers then massage the data until they get the p-value and then it’s not reproducible. But if we were much more transparent and said, “You’re allowed to publish things which are significant or not significant because it’s useful down the road and just publish all your data and the code you used for the analyses” – if you’re transparent about what you’re doing, there’s much less opportunity to shoehorn the data into some wrong conclusion.
I feel that people misuse summaries in statistics. They feel as if statistics is going to summarize everything into one value, as if one p-value is going to summarize five years of work. It’s ridiculous. Everything is multidimensional, it’s complex. But if we could publish more of the negative results and all of the data, we would advance science much faster, because people would get insight from the negative results.
I feel that people misuse summaries in statistics. They feel as if statistics is going to summarize everything into one value, as if one p-value is going to summarize five years of work. It’s ridiculous. Everything is multidimensional, it’s complex. But if we could publish more of the negative results and all of the data, we would advance science much faster, because people would get insight from the negative results.
Intéressant.
Intéressant
Très intéressant !
L'estimation d'erreurs types pour les régressions lasso, c'est visiblement un sacré bordel.
Super explication de pourquoi on se fout de la surdispersion en régression lasso.
La vignette est sympa
Intéressant: il utilise la loi gamma pour simuler une quasi-poisson. Malheureusement, ses liens ne marchent pas. Mais je trouve l'idée intéressante, je me la garde sous le coude.
Oh mais il y a des choses ici !
Spécial stats au tribunal. M'a l'air intéressant...
Un regard intéressant sur la notion d'espérance. Très axé math statistique, mais effectivement, ça donne une intuition de l'espérance comme différence de deux surfaces, que l'on peut calculer de deux façons différentes.
À lire absolument. Aussi.
C'est dingue le nombre de bouquins de qualité, gratuits, qui sortent en ce moment.
C'est dingue le nombre de bouquins de qualité, gratuits, qui sortent en ce moment.
Chaîne intéressante. À suivre.
Encore un nouveau logiciel qui a l'air génial. À lire