2381 shaares
Plein de sources pour la mise en œuvre du RJMCMC...
J'ai pas écouté, mais ça m'intéresse... Quand j'aurai un peu de temps.
"C’est très intéressant de faire de l’économie une science. Parce qu’il y a deux choses dont on ne débat pas dans les Parlements : la religion, et la science."
--
Alain Supiot
--
Alain Supiot
Pis pendant que j'y suis, je stocke une autre connerie que j'ai faite: quand on construit une base B-spline (degré 3, donc ordre 4), il ne faut pas oublier de répéter 4 fois les nœuds finaux (si on n'a qu'une seule fois les noeuds finaux, la fonction spline générée sera contrainte à être égale à 0 aux extrémités.
Je stocke l'expérience ici car je viens de perdre une semaine à cause de cette connerie.
Quand on ajuste un modèle par MCMC avec un sampler de Gibbs (JAGS, Winbugs, etc.), toutes les variables pour lesquelles on va générer des valeurs jouent sur le comportement du sampler.
Ça a l'air évident à dire, mais je viens de me faire avoir comme un bleu en oubliant ça.
Je cherchais à ajuster un modèle estimant des limites de populations, avec estimation de probabilités de migration d'une pop à l'autre. Et je m'étais dit, tiens, ben comme j'ai tous les éléments nécessaires, pour chaque individu de mon échantillon, je vais échantillonner une appartenance de l'individu à une population dans la posterior. Pour chaque individu, je considère cette appartenance comme une variable cachée n'ayant aucune influence sur mon estimation. Cette appartenance dépend des paramètres estimés, du coup, à chaque itération, je génère une valeur et comme ça à la fin, j'ai déjà les dépendances dont je peux me servir directement à titre exploratoire.
Et j'avais pas pensé que ça marche aussi dans l'autre sens: le sampler de Gibbs, quand il va sampler dans la postérior conditionnelle pour les limites de population, il va le faire conditionnellement aux appartenances des individus à une population à l'itération t. Donc pour modifier une limite de population, il faut simultanément modifier les paramètres qui contrôlent cette limite ET les appartenance de tous les individus "frontaliers" concerné (changer leur "nationalité"). Or, la question du simultané avec un sampler de Gibbs, c'est très compliqué...
Résultat: mélange franchement dégueulasse, et résultat inutilisable.
Bon ben je le saurai pour la prochaine fois. Conclusion évidente toujours bonne à rappeler: On ne met dans le modèle à ajuster que les paramètres que l'on souhaite ajuster. Et rien d'autre.
Quand on ajuste un modèle par MCMC avec un sampler de Gibbs (JAGS, Winbugs, etc.), toutes les variables pour lesquelles on va générer des valeurs jouent sur le comportement du sampler.
Ça a l'air évident à dire, mais je viens de me faire avoir comme un bleu en oubliant ça.
Je cherchais à ajuster un modèle estimant des limites de populations, avec estimation de probabilités de migration d'une pop à l'autre. Et je m'étais dit, tiens, ben comme j'ai tous les éléments nécessaires, pour chaque individu de mon échantillon, je vais échantillonner une appartenance de l'individu à une population dans la posterior. Pour chaque individu, je considère cette appartenance comme une variable cachée n'ayant aucune influence sur mon estimation. Cette appartenance dépend des paramètres estimés, du coup, à chaque itération, je génère une valeur et comme ça à la fin, j'ai déjà les dépendances dont je peux me servir directement à titre exploratoire.
Et j'avais pas pensé que ça marche aussi dans l'autre sens: le sampler de Gibbs, quand il va sampler dans la postérior conditionnelle pour les limites de population, il va le faire conditionnellement aux appartenances des individus à une population à l'itération t. Donc pour modifier une limite de population, il faut simultanément modifier les paramètres qui contrôlent cette limite ET les appartenance de tous les individus "frontaliers" concerné (changer leur "nationalité"). Or, la question du simultané avec un sampler de Gibbs, c'est très compliqué...
Résultat: mélange franchement dégueulasse, et résultat inutilisable.
Bon ben je le saurai pour la prochaine fois. Conclusion évidente toujours bonne à rappeler: On ne met dans le modèle à ajuster que les paramètres que l'on souhaite ajuster. Et rien d'autre.
Enfin un programme indispensable...
édifiant...
"We cover planes that crash, not planes that take off".
J'aime bien quand les journalistes font aussi ce genre de travail.
J'aime bien quand les journalistes font aussi ce genre de travail.
Bonne synthèse, je me la garde sous le coude
o c'est rigolo.
...et j'ai maintenant une raison de plus de bien aimer Tukey.
M'inquiète sérieusement cette histoire...
Tiens, ya des outils de compet pour la lecture de gros jeux de données sous R
Intéressant: à garder sous le coude
À lire absolument, j'ai pas suivi le débat et je commence à prendre du retard sur ces questions.
C'est une question qu'on me pose souvent (comparer la pente d'une même variable d'un modèle à l'autre), et c'est la réponse que je donne souvent (mettez une interaction). Je ne suis pas d'accord avec "you need a p-value", mais je suis d'accord avec la stratégie générale. Je cherche des refs là-dessus...
Perspective intéressante. Se résume en quelques phrases:
* Companies brag about the size of their datasets the way fishermen brag about the size of their fish
* But even big companies only use a tiny fraction of the data they collect.
* Typical deep-learning models only work on massive amounts of labeled data. And labelling a large dataset takes hundreds of thousands of dollars and months of time. (...) Too many smaller companies don’t realize this and acquire massive data stores that they can’t afford to use.
* big data isn’t big, but good data is even smaller
En résumé, il y a effectivement des enjeux sur le big data. Mais principalement dans les entreprises qui investissent énormément dans le big data (google, facebook, etc.). Pour la majorité, on n'en est pas encore là.
* Companies brag about the size of their datasets the way fishermen brag about the size of their fish
* But even big companies only use a tiny fraction of the data they collect.
* Typical deep-learning models only work on massive amounts of labeled data. And labelling a large dataset takes hundreds of thousands of dollars and months of time. (...) Too many smaller companies don’t realize this and acquire massive data stores that they can’t afford to use.
* big data isn’t big, but good data is even smaller
En résumé, il y a effectivement des enjeux sur le big data. Mais principalement dans les entreprises qui investissent énormément dans le big data (google, facebook, etc.). Pour la majorité, on n'en est pas encore là.
De l'importance de la licence GNU. Bizarre quand même le gars...
Une introduction à la régression ridge, avec application sous R.