Les bookmarks de Clem

» GAM splines now easy in JAGS and OpenBUGS. An example on 2D spatial data

Article de blog intéressant sur l'ajustement de spline 2D avec JAGS. La fonction jagam du package mgcv semble très intéressante. Décortiquer cette fonction, programmée par S.Wood lui-même (!), risque d'apporter pas mal d'infos super intéressantes!

bayésien · mcmc · stats

May 4, 2016 at 21:23:09 GMT+2 · permalink

·

http://www.petrkeil.com/?p=2385

Logarithmic distribution - Wikipedia, the free encyclopedia

Ah ben celle là je la connaissais pas... Et elle m'a l'air super utile: déjà, si j'ai des variables Z_n suivant une distribution logarithmique, et que le nombre N de variables Z_n est tiré d'une loi de Poisson, alors la somme des Z_n sur N est une négative binomiale. Ça, c'est vachement utile: je bosse sur des dénombrements de cerfs sur un circuit. Je connais le nombre total de cerfs sur le circuit, et je pensais modéliser ce nombre par une loi de Poisson. Pb, il y a de la surdispersion par rapport au modèle de Poisson dans le nombre total de cerf. Normal: le cerf vit en groupe, et donc la variabilité du nombre de cerfs sur un circuit traduit non seulement la variabilité du nombre de groupes de cerfs, mais aussi celle du nombre de cerfs par groupe. Si je suppose que le nombre d'individus par groupe suit une distribution logarithmique, et que le nombre de groupes est décrit par une loi de Poisson inhomogène, alors le nombre total de cerfs sur le circuit sera décrit par une loi binomiale négative.
Le modèle est pas mal. En plus, cette distribution est définie pour des valeurs supérieures ou égales à 1, ce qui prend carrément sens pour des tailles de groupes.

Bon après, je voudrais voir deux choses: (i) la surdispersion observée dans mes données est-elle compatible avec celle observée avec la binomiale négative? (ii) les groupes de un individu sont les plus fréquents d'après cette loi (mode = 1), ce qui pourrait bien m'embêter pour le cerf...

stats

April 28, 2016 at 17:11:33 GMT+2 · permalink

·

https://en.wikipedia.org/wiki/Logarithmic_distribution

Somme de lognormales

J'ai passé pas mal de temps à résoudre la question, avant de me rendre compte qu'il y avait une meilleure solution au pb. Cela dit, comme ce n'est pas la première fois que je me pose la question, je stocke la solution ici.

J'ai un modèle de Poisson surdispersé simpliste décrivant la variable X_i, une variable correspondant au nombre d'individus dans une harde de cerfs i:

X_i ~ Poisson(lambda_i)
log(lambda_i) = a_0 + epsilon_i
epsilon_i ~ Normal(0,sigma)

Je parcours un circuit et je compte: (i) le nombre N de hardes sur le circuit, et (ii) le nombre total Z de cerfs sur toutes les hardes du circuit. Quelle est la distribution du nombre total de cerfs?

Mettons que je détecte 5 hardes. En fait j'ai ici 5 variables X_i i.i.d. suivant toutes la distribution de Poisson surdispersée décrite ci-dessus. La somme de N lois de Poisson de paramètre lambda_1, lambda_2,...,lambda_N est une loi de Poisson de paramètre (lambda_1 + lambda_2 + ... + lambda_N). Dans le cas présent, le paramètre lambda de la loi de Poisson sera:

(exp(a_0+epsilon_1)+exp(a_0+epsilon_2)+...+exp(a_0+epsilon_N)) = (exp(a_0)*(exp(epsilon_1)+exp(epsilon_2)+...+exp(epsilon_N))

Nous déplaçons le problème: quelle est la distribution suivie par (exp(epsilon_1)+exp(epsilon_2)+...+exp(epsilon_N))?

En fait, si epsilon_i suit une loi normale, exp(epsilon_i) suit une loi lognormale. Alors la question qui se pose est: quelle est la distribution suivie par une somme de distribution log-normale i.i.d.?

Dans l'article suivant:

@article{Fenton1960,
title={The sum of log-normal probability distributions in scatter transmission systems},
author={Fenton, Lawrence F},
journal={Communications Systems, IRE Transactions on},
volume={8},
pages={57--67},
year={1960}
}

L'auteur démontre que la somme de N lois log-normale peut être approchée, à la louche, par une log-normale, dont les paramètres mtilde et sigtilde (moyenne et écart-type de la log-variable) peuvent être obtenus facilement (en faisant en sorte que la moyenne et la variance de la somme des variables corresponde à la moyenne et la variance de la log-normale approchant cette somme).

J'ai essayé l'approche sous R. Je stocke le code ici (les paramètres de la fonction ont le même nom que dans la description plus haut):

## la fonction ci-dessous permet de calculer les paramètres m et
## sigma de la lognormale de synthèse à partir de l'écart-type
## des résidus de surdispersion epsilon_i
f <- function(N, sigma)
{
sigtilde <- sqrt(log((1/N)*(exp(sigma^2)-1) + 1))
mtilde <- log((N*exp((sigma^2)/2)/(exp((sigtilde^2)/2))))
return(c(mtilde,sigtilde))
}

## Simulation sous R: pour un écart-type des résidus epsilon_i = 0.5
## et pour un groupe de 10 individus, on a une distribution
## quasi-identique

N <- 10
sigma <-0.5
aa <- sapply(1:1000, function(i) sum(exp(rnorm(N, mean=0, sd=sigma))))
bb <- exp(rnorm(1000, mean=f(N,sigma)[1], sd=f(N,sigma)[2]))
qqplot(aa,bb)
abline(0,1)

Ça marche pas mal, à condition de pas avoir un sigma trop grand. On peut essayer de jouer avec ce sigma et ce N pour tester l'approximation.

Remarque: Au final, j'ai préféré utiliser des résidus nu_i de surdispersion suivant une loi gamma, i.e. un modèle de la forme:

X_i ~ Poisson(lambda_i)
lambda_i = mu * nu_i
nu_i ~ Gamma(alpha,alpha)

Dans ce cas de figure, les résidus sont de moyenne égale à 1, et X_i suit une négative binomiale. L'avantage, c'est que la somme de variables suivant chacune une loi binomiale négative suit également une loi binomiale négative, et pour le coup, le résultat n'est pas une approximation. Mais bon, l'approximation de Fenton est quand même intéressante...

stats

April 11, 2016 at 16:00:58 GMT+2 · permalink

·

http://caloine.ouvaton.org/shaarli/?ePe09g

Maximum likelihood estimation for N-mixture models - Haines - 2016 - Biometrics - Wiley Online Library

Estimation d'un N-mixture par maximum de vraisemblance. À lire.

alire · stats · écologie

April 5, 2016 at 09:12:12 GMT+2 · permalink

·

http://onlinelibrary.wiley.com/doi/10.1111/biom.12521/abstract;jsessionid=072A39E28B68191C29E9DB8E15CE33C0.f01t01

JAGS: Just Another Gibbs Sampler / Discussion / Help:DIC and comparison of unnested models

Toujours bon à rappeler: le DIC n'est pas idéal avec les occupancy models, du fait de la structure hiérarchique de tels modèles et du caractère pas clair du niveau "focus" auquel tirer les inférences.

stats

April 5, 2016 at 09:09:59 GMT+2 · permalink

·

https://sourceforge.net/p/mcmc-jags/discussion/610037/thread/d2148fe1/

Being Certain about Uncertainty: Can We Trust Data from Citizen Science Programs? | methods.blog

Semble intéressant... Je me méfie cependant de certaines de ces conclusions, trop générales. À lire en détail et avec un œil critique

stats · écologie

March 18, 2016 at 09:22:19 GMT+1 · permalink

·

https://methodsblog.wordpress.com/2016/03/17/citizen-science/

Bayesian population size estimation using Dirichlet process mixtures - Manrique-Vallier - 2016 - Biometrics - Wiley Online Library

A lire. M'a l'air intéressant

stats · écologie

March 14, 2016 at 13:23:51 GMT+1 · permalink

·

http://onlinelibrary.wiley.com/doi/10.1111/biom.12502/abstract;jsessionid=1CB7E4990B965A7D90DC7A467F41D6B5.f02t03?systemMessage=Wiley Online Library will be unavailable for up to 3 hours on Saturday 19th March 2016 from 11:00-14:00 GMT / 07:00-10:00 EDT / 19:00-22:00 SGT for essential maintenance. Apologies for the inconvenience.

Understanding Bayes: How to become a Bayesian in eight easy steps | The Etz-Files

Un article de blog intéressant: comment transformer un fréquentiste en bayésien en 8 étapes. Quels sont les must-read?

bayesien · stats

March 4, 2016 at 09:42:33 GMT+1 · permalink

·

http://alexanderetz.com/2016/02/07/understanding-bayes-how-to-become-a-bayesian-in-eight-easy-steps/

He wants to teach himself some statistics - Statistical Modeling, Causal Inference, and Social Science

Des conseils pour se former aux statistiques pour ceux qui ne connaissent pas. Ya des refs intéressantes, et les commentaires sont plein de bons conseils.

alire · stats

March 4, 2016 at 09:36:18 GMT+1 · permalink

·

http://andrewgelman.com/2016/02/28/he-wants-to-teach-himself-some-statistics/

Number of R packages submitted to CRAN · GitHub

Un script permettant d'avoir quelques statistiques sur les packages soumis à CRAN. La croissance est exponentielle, et ne semble pas s'arrêter!
adehabitat est le 447ème soumis! Il était donc dans les 500 premiers!

R · stats

March 1, 2016 at 15:33:19 GMT+1 · permalink

·

https://gist.github.com/daroczig/3cf06d6db4be2bbe3368

BIODIVERSITY INFORMATICS TRAINING CURRICULUM

La vache, ya plein d'infos, de webinaires, de formations sur ce site. Dès que j'ai un peu de temps, faut que je creuse ça

alire · stats · écologie

March 1, 2016 at 14:00:56 GMT+1 · permalink

·

http://biodiversity-informatics-training.org/

The NSA’s SKYNET program may be killing thousands of innocent people | Ars Technica UK

Ça fait beaucoup de bruit sur les réseaux sociaux en stats: des random forests sont uttilisées pour identifier des terroristes... et mal utilisées, conduisant à de mauvaises identifications.
A lire...

alire · stats

February 26, 2016 at 21:03:19 GMT+1 · permalink

·

http://arstechnica.co.uk/security/2016/02/the-nsas-skynet-program-may-be-killing-thousands-of-innocent-people/

Statistically speaking... How long can Pope Francis expect to live? | StatsLife

Un joli modèle de Weibull pour prédire l'espérance de vie du pape. Résultat: une chance sur deux de durer au moins 10 ans.
Bon après, le modèle est uniquement basé sur les durées de reignes des précédents papes, et pas du tout sur l'état de santé du bonhomme en particulier (qui n'est pas bon, si j'ai bien compris).
Pas grave, sur un plan statistique, le modèle est un exemple intéressant.

stats

February 18, 2016 at 13:25:43 GMT+1 · permalink

·

https://www.significancemagazine.com/culture/67-statistically-speaking-how-long-can-pope-francis-expect-to-live

Oikos - Virtual Issues - Wiley Online Library

Numéro spécial Oikos/Ecography/Avian Biology sur l'analyse des suivis télémétriques

ecologie · statistique · stats

February 16, 2016 at 17:28:33 GMT+1 · permalink

·

http://onlinelibrary.wiley.com/journal/10.1111/(ISSN)1600-0706/homepage/virtual_issues.htm

Guide de nettoyage de données pourries

checklist et solutions toujours utiles

divers · stats

February 15, 2016 at 17:11:54 GMT+1 · permalink

·

https://github.com/Quartz/bad-data-guide/blob/master/README.md

Approximate $e$ using Monte Carlo Simulation - Cross Validated

Intéressant: comment approcher e avec une simulation de Monte Carlo, cette discussion fait pas mal de bruit sur les réseaux sociaux: e est l'espérance du plus petit nombre n de lois uniformes r_i dont la somme est supérieure à 1. Du coup, ça donne une possibilité théorique de le simuler. Code R par Christian Robert:

n=100000
1/mean(n*diff(sort(runif(n+1))) > 1)

Voir ici pour une explication détaillée de ce code: https://xianblog.wordpress.com/2016/02/12/the-answer-is-e-what-was-the-question/

stats

February 12, 2016 at 13:13:04 GMT+1 · permalink

·

https://stats.stackexchange.com/questions/193990/approximate-e-using-monte-carlo-simulation