2385 shaares
448 results
tagged
stats
Un article de blog très intéressant, qui fait un point sympa sur ces dernières tendances.
Faudrait vraiment que je trouve le temps de lire ça...
Pis pendant que j'y suis, je stocke une autre connerie que j'ai faite: quand on construit une base B-spline (degré 3, donc ordre 4), il ne faut pas oublier de répéter 4 fois les nœuds finaux (si on n'a qu'une seule fois les noeuds finaux, la fonction spline générée sera contrainte à être égale à 0 aux extrémités.
o c'est rigolo.
...et j'ai maintenant une raison de plus de bien aimer Tukey.
Intéressant: à garder sous le coude
À lire absolument, j'ai pas suivi le débat et je commence à prendre du retard sur ces questions.
C'est une question qu'on me pose souvent (comparer la pente d'une même variable d'un modèle à l'autre), et c'est la réponse que je donne souvent (mettez une interaction). Je ne suis pas d'accord avec "you need a p-value", mais je suis d'accord avec la stratégie générale. Je cherche des refs là-dessus...
Perspective intéressante. Se résume en quelques phrases:
* Companies brag about the size of their datasets the way fishermen brag about the size of their fish
* But even big companies only use a tiny fraction of the data they collect.
* Typical deep-learning models only work on massive amounts of labeled data. And labelling a large dataset takes hundreds of thousands of dollars and months of time. (...) Too many smaller companies don’t realize this and acquire massive data stores that they can’t afford to use.
* big data isn’t big, but good data is even smaller
En résumé, il y a effectivement des enjeux sur le big data. Mais principalement dans les entreprises qui investissent énormément dans le big data (google, facebook, etc.). Pour la majorité, on n'en est pas encore là.
* Companies brag about the size of their datasets the way fishermen brag about the size of their fish
* But even big companies only use a tiny fraction of the data they collect.
* Typical deep-learning models only work on massive amounts of labeled data. And labelling a large dataset takes hundreds of thousands of dollars and months of time. (...) Too many smaller companies don’t realize this and acquire massive data stores that they can’t afford to use.
* big data isn’t big, but good data is even smaller
En résumé, il y a effectivement des enjeux sur le big data. Mais principalement dans les entreprises qui investissent énormément dans le big data (google, facebook, etc.). Pour la majorité, on n'en est pas encore là.
Une introduction à la régression ridge, avec application sous R.
À lire absolument
Un post intéressant de Thomas Lumley sur le générateur de nombres pseudo-aléatoires de Wichmann-Hill, mal simplifié pour départager les résultats du référendum sur le nouveau drapeau de la NZ.
Un point intéressant sur l'explication du RNG par défaut sous R: "We’ve changed the generator in R because Wichmann-Hill isn’t up to modern research use. Its period is only 6.95×1012, and you ideally don’t run a PRNG for longer than the square root of its period. For a research statistician, a limit of 2.5 million numbers in a stream isn’t enough"
Un point intéressant sur l'explication du RNG par défaut sous R: "We’ve changed the generator in R because Wichmann-Hill isn’t up to modern research use. Its period is only 6.95×1012, and you ideally don’t run a PRNG for longer than the square root of its period. For a research statistician, a limit of 2.5 million numbers in a stream isn’t enough"
Je me le mets de côté, j'avais déjà vu passer, mais c'est un lien intéressant.
Première tentative d'ajustement de modèle bayésien sous STAN... échec: STAN ne permet pas l'ajustement de modèles avec des variables cachées entières (e.g. un effectif détecté comme réponse, un effectif réel comme paramètre). Ce qui rétrospectivement semble assez logique, quand on connaît le principe du Monte Carlo Hamiltonien. La seule solution est de marginaliser le paramètre entier quand on en a un... Ce qui n'est pas toujours simple à réaliser. Enfin, dans le cas présent, je n'ai pas le choix, mon modèle est caractérisé par un mélange moisi avec un sampler de Gibbs, et je pense que le fait de m'appuyer sur un paramètre latent entier n'y est pas pour rien.
Edit: le manuel de Stan, section 11.3, évoque les modèles de CMR. Il présente deux cas de figure:
* l'estimateur de Lincoln-Petersen de la taille de population N à partir d'animaux marqués à une première occasion de capture, puis recapturés à une deuxième occasion. Dans ce cas, on peut traiter le modèle en prenant N comme paramètre continu.
* le modèle de Cormack-Jolly-Seber, dans lequel on a une variable latente z_i(t) pour chaque animal i qui prend la valeur 1 si l'animal est vivant au temps t et 0 sinon. Pour pouvoir ajuster ce modèle, il faut marginaliser pour se débarrasser du paramètre.
Oui, donc Stan, uniquement quand on a des paramètres continus (éviter les variables latentes discrètes genre effectif réel non observé).
Edit: le manuel de Stan, section 11.3, évoque les modèles de CMR. Il présente deux cas de figure:
* l'estimateur de Lincoln-Petersen de la taille de population N à partir d'animaux marqués à une première occasion de capture, puis recapturés à une deuxième occasion. Dans ce cas, on peut traiter le modèle en prenant N comme paramètre continu.
* le modèle de Cormack-Jolly-Seber, dans lequel on a une variable latente z_i(t) pour chaque animal i qui prend la valeur 1 si l'animal est vivant au temps t et 0 sinon. Pour pouvoir ajuster ce modèle, il faut marginaliser pour se débarrasser du paramètre.
Oui, donc Stan, uniquement quand on a des paramètres continus (éviter les variables latentes discrètes genre effectif réel non observé).
If we have data, let's look at data. If all we have are opinions, let's go with mine.
Une belle citation, reprise comme slogan par l'ASA.
Une belle citation, reprise comme slogan par l'ASA.
Un post marrant sur les raisons qui amènent à une sursimplification de la réalité et aux hypothèses irréalistes dans le développement mathématique.
Ah ben dis, j'avais pas vu passer... XKCD a lancé une étude sur le big data, pour visiblement dénoncer l'approche. À suivre ici pour quand les résultats seront publiés!
Une présentation intéressante d'Olivier Gimenez sur l'analyse des données de sciences participatives.
"Once the current honeymoon period of data science comes to an end - the statistician will again come to the fore. This was due in part to the importance of experiment design and the fact that probability theory is the best way of dealing with uncertainty"
Je stocke ça ici pour l'avenir. Un théorème très rigolo que l'on retrouve à plusieurs endroits dans la littérature: si Y est une variable aléatoire caractérisée par une distribution de probabilité quelconque, et U une variable aléatoire uniforme [0,1], alors X=Y*U suit une distribution unimodale. Toujours.
C'est fou ça. Sous R, démonstration:
y=c(rnorm(50000),rnorm(50000, mean=100)) ## Un truc bien bimodal
u=runif(100000)
hist(y)
hist(y*u)
J'ai pas trouvé l'article de Khintchine démontrant cette propriété d'unimodalité, mais de toutes façons je ne l'aurais pas lu: il est en russe. Je stocke ça ici, j'en aurai sûrement besoin un jour.
Edit: En fait, c'est même pire que ça: toutes les distributions univariées unimodales admettent une représentation sous cette forme (produit Y*U). Voir le théorème 2 dans l'article de Shepp 1962 (http://www-stat.wharton.upenn.edu/~shepp/publications/2.pdf)
Edit 2: voir aussi une description assez intuitive de ce théorème dans :
Jones, M. 2002. On Khintchine's theorem and its place in random variate generation. The American Statistician 56
C'est fou ça. Sous R, démonstration:
y=c(rnorm(50000),rnorm(50000, mean=100)) ## Un truc bien bimodal
u=runif(100000)
hist(y)
hist(y*u)
J'ai pas trouvé l'article de Khintchine démontrant cette propriété d'unimodalité, mais de toutes façons je ne l'aurais pas lu: il est en russe. Je stocke ça ici, j'en aurai sûrement besoin un jour.
Edit: En fait, c'est même pire que ça: toutes les distributions univariées unimodales admettent une représentation sous cette forme (produit Y*U). Voir le théorème 2 dans l'article de Shepp 1962 (http://www-stat.wharton.upenn.edu/~shepp/publications/2.pdf)
Edit 2: voir aussi une description assez intuitive de ce théorème dans :
Jones, M. 2002. On Khintchine's theorem and its place in random variate generation. The American Statistician 56