2385 shaares
448 results
tagged
stats
À savoir: quand on tire au sort un nombre dans une poisson, si le paramètre est trop grand, R renvoie NA. La solution est alors d'utiliser l'approximation normale.
À suivre: l'application d'une distribution à entropie maximale pour l'estimation d'une probabilité (i.e. sur intervalle restreint)
Contribution de Bob O'Hara sur la mesure de la qualité d'ajustement dans un GLM, sur R-SIG-Ecology. Avec un lien vers un de ses articles.
très intéressant: un post de Roger D. Peng au sujet d'un tweet de Jan de Leeuw: "As long as statistics continues to emphasize assumptions, models, and inference it will remain a minor subfield of data science.", suivi d'un second tweet: "Statistics is the applied science that constructs and studies techniques for data analysis."
Ce que Roger D Peng interprête, à tort à mon avis comme le fait que la statistique n'est qu'un sous-champ mineur de la "data science" (incluant biométrie, psychométrie, etc.). C'est pas normal, ça devrait être le contraire, i.e. la data science devrait être un sous-champs de la statistique "What should be is that statistics should include the field of data science. Honestly, that would be beneficial to the field of statistics and would allow us to provide a home to many people who don't necessarily have one ". Le fait est qu'être à la frontière n'est pas toujours simple, mais d'un autre côté, je ne suis pas d'accord avec le point de vue de Roger D Peng. La statistique est une discipline des mathématiques, il est normal que le statisticien fonctionne en mathématicien. Je ne pense pas que la stat devrait englober la data science. Pour moi, ce serait aller trop loin (en exagérant un peu, ce serait un peu équivalent au physicien convaincu que la science physique devrait englober toutes les autres sciences).
Par contre, je trouve bien que des gens comme Jan de Leeuw souligne que le rôle du stateux n'est pas seulement de développer des techniques pour l'inférence. L'exploratoire fait aussi partie du champs de la statistique.
Ce que Roger D Peng interprête, à tort à mon avis comme le fait que la statistique n'est qu'un sous-champ mineur de la "data science" (incluant biométrie, psychométrie, etc.). C'est pas normal, ça devrait être le contraire, i.e. la data science devrait être un sous-champs de la statistique "What should be is that statistics should include the field of data science. Honestly, that would be beneficial to the field of statistics and would allow us to provide a home to many people who don't necessarily have one ". Le fait est qu'être à la frontière n'est pas toujours simple, mais d'un autre côté, je ne suis pas d'accord avec le point de vue de Roger D Peng. La statistique est une discipline des mathématiques, il est normal que le statisticien fonctionne en mathématicien. Je ne pense pas que la stat devrait englober la data science. Pour moi, ce serait aller trop loin (en exagérant un peu, ce serait un peu équivalent au physicien convaincu que la science physique devrait englober toutes les autres sciences).
Par contre, je trouve bien que des gens comme Jan de Leeuw souligne que le rôle du stateux n'est pas seulement de développer des techniques pour l'inférence. L'exploratoire fait aussi partie du champs de la statistique.
Marre de chercher ça à chaque fois: la loi de student peut être vue comme un mélange de loi normales y_i de moyenne mu et de variance V_i, avec V_i suivant une loi inverse Chi-deux de paramètres nu et sigma^2:
y~N(mu,V_i)
V_i ~ inv-chi2(nu, sigma^2)
À noter, p. 304 du Bayesian Data Analysis, Gelman s'appuie sur ce modèle pour présenter la parameter expansion comme moyen d'améliorer la convergence des paramètres dans le MCMC.
y~N(mu,V_i)
V_i ~ inv-chi2(nu, sigma^2)
À noter, p. 304 du Bayesian Data Analysis, Gelman s'appuie sur ce modèle pour présenter la parameter expansion comme moyen d'améliorer la convergence des paramètres dans le MCMC.
Ouh mais ça m'a l'air TRÈS intéressant! cette approche semble répondre à une interrogation de longue date. Les modèles mixtes, utilisés de façon routinière pour modéliser des tendances d'évolution, ont un problème: ils supposent que tous les individus de la population ont la même tendance +/- un bruit. Ce qui est absurde: dans un cadre écologique par exemple, une espèce peut voir ses effectifs augmenter dans telle unité spatiale, et diminuer dans telle autre. Supposer une homogénéité de comportement des tendances à priori m'a toujours paru un peu violent, mais que faire d'autre. Cette approche semble répondre à cette interrogation. Après, la question est dans quelle mesure la topologie de ces CART pour données longitudinales est-elle stable? parce qu'en général, les CART, hein...
Bref, à lire, et dès que le problème se reposera, à tester (et si j'ai un creux dans le boulot, un ti coup de monte carlo pour voir ce que ça raconte).
Bref, à lire, et dès que le problème se reposera, à tester (et si j'ai un creux dans le boulot, un ti coup de monte carlo pour voir ce que ça raconte).
À parcourir absolument. Le bouquin est disponible gratuitement, apparemment, du coup je vais récupérer ça.
Quand les données couvrent plusieurs ordres de magnitude en positif et en négatif, la transformation log-modulus peut être utile: signe(x)*log(|x|+1)
Ya même une ref sur le sujet: john et draper 1980.
La ref a l'air vachement intéressante. Récupérée.
Edit: bon, c'est un peu plus compliqué, John et Draper proposent un genre de transformation type Box-Cox dont la transfo log-modulus est un cas particulier. Mais bon, à titre exploratoire, quand on a une variable dont la distribution est un peu merdique, ça peut quand même être intéressant. Et si l'utilisation de cette transformation permet de normaliser, même grossièrement, les données, ça peut être intéressant même dans un cadre inférentiel.
Bref. À garder sous le coude.
Ya même une ref sur le sujet: john et draper 1980.
La ref a l'air vachement intéressante. Récupérée.
Edit: bon, c'est un peu plus compliqué, John et Draper proposent un genre de transformation type Box-Cox dont la transfo log-modulus est un cas particulier. Mais bon, à titre exploratoire, quand on a une variable dont la distribution est un peu merdique, ça peut quand même être intéressant. Et si l'utilisation de cette transformation permet de normaliser, même grossièrement, les données, ça peut être intéressant même dans un cadre inférentiel.
Bref. À garder sous le coude.
Yabon.
Ayé, on a un papier sur ArXiv. Maintenant, ya plus ka le publier!
Une belle illustration de la notion de fluctuation d'échantillonnage. Je pense que je vais réutiliser ce genre d'animation pour expliquer ça à des personnes n'ayant pas de background en stats.
Comment se souvenir de la formule de la loi de Poisson. Bon je trouve son histoire plus compliquée que la formule, mais elle est intéressante.
Des infos utiles sur le DIC, et quelques papiers importants
Reçu sur R-SIG-geo: comment installer différents logiciels de géostats sur linux.
Un post de Ben Bolker très intéressant: lorsque l'on développe un logiciel de stats on doit atteindre un compromis entre logiciel super facile à utiliser, user friendly et tout (mais qui du coup, risque implicitement de suggérer à l'utilisateur qu'il n'a pas besoin de comprendre ce qu'il fait) et un logiciel qui va demander à l'utilisateur un investissement plus important pour en comprendre la logique, garantissant de ce fait une compréhension minimale et de fait, un risque d'erreur plus faible. Mais ce faisant, on diminue de la même façon le nombre d'utilisateurs.
Le compromis n'est pas si simple à trancher. En outre, il est souvent difficile de concevoir des garde-fous, comme bolker le décrit bien dans ses exemples. Cela dit, en conclusion, il semble trancher: "There’s nothing like a broad user base for finding new, exciting applications, and having people use your methods to do interesting science may be the best reward."
Le compromis n'est pas si simple à trancher. En outre, il est souvent difficile de concevoir des garde-fous, comme bolker le décrit bien dans ses exemples. Cela dit, en conclusion, il semble trancher: "There’s nothing like a broad user base for finding new, exciting applications, and having people use your methods to do interesting science may be the best reward."
Intéressant. J'aime bien ce blog.
L'idée n'est pas bête, quand on nettoie un jeu de données. J'essaierai, la prochaine fois de voir si ça permet de corriger automatiquement les fautes de frappes
Faudra que je prenne le temps de lire ça un jour...
Un numéro spéial d'Ecology sur les p-value, et le point de vue de Gelman sur la question.
Edit: Ouh putain, j'avais pas vu. Gelman découvre le fonctionnement absurde d'Ecology:
"The journal editors sent me Murtaugh’s paper and invited me to write a short comment, which I did, and it was all set to be published when I found out that there was a $300 publication fee. I couldn’t bring myself to pay money to have the journal publish something that I wrote for them for free! I explained this to the editors who graciously let me withdraw the paper. So instead I’m posting it here, for the marginal cost of approximately $0."
C'est là qu'on voit l'absurdité du système. Ils invitent un scientifique de renom, probablement l'un des plus grands dans le domaine du bayésien, à écrire un *commentaire*! Et une fois le boulot fait, ils lui demandent 300$ pour le publier!!!!!!!!
Comment perdre des citations...
Edit: Ouh putain, j'avais pas vu. Gelman découvre le fonctionnement absurde d'Ecology:
"The journal editors sent me Murtaugh’s paper and invited me to write a short comment, which I did, and it was all set to be published when I found out that there was a $300 publication fee. I couldn’t bring myself to pay money to have the journal publish something that I wrote for them for free! I explained this to the editors who graciously let me withdraw the paper. So instead I’m posting it here, for the marginal cost of approximately $0."
C'est là qu'on voit l'absurdité du système. Ils invitent un scientifique de renom, probablement l'un des plus grands dans le domaine du bayésien, à écrire un *commentaire*! Et une fois le boulot fait, ils lui demandent 300$ pour le publier!!!!!!!!
Comment perdre des citations...
À garder sous le coude: un site qui liste un certain nombre de corrélations entre phénomènes clairement pas liés sur un plan causal.
Marrant
Marrant