2390 shaares
449 results
tagged
stats
Faudrait que je prenne le temps de creuser c't'affaire. Pas mal de références fournies.
Un point toujours bon à rappeler en calcul de probabilités: les probabilités ne sont pas intuitives. Comme le dit John Cook à propos des experts en probas:
They’ll say things like “I imagine the answer is around this, but I’d have to go through the calculations to be sure.” Probability is not like physics where you can usually get within an order of magnitude of a correct answer without formal calculation. Probabilistic intuition doesn’t take you as far as physical intuition.
They’ll say things like “I imagine the answer is around this, but I’d have to go through the calculations to be sure.” Probability is not like physics where you can usually get within an order of magnitude of a correct answer without formal calculation. Probabilistic intuition doesn’t take you as far as physical intuition.
Tiens, extrapolation de tendance à deux francs par un parti xénophobe en suisse...
Comment convertir un graphique trouvé dans un article ou un bouquin en jeu de données. Utilise Engauge
À propos du Hastie et al. dont je parlais hier. Le bouquin est légalement disponible gratuitement sur internet. Et il est aussi légalement vendu par Springer à 60 euros pour ceux qui ont envie de l'acheter (http://www.springer.com/statistics/statistical+theory+and+methods/book/978-0-387-84857-0)
Pas tout compris, moi.
Pas tout compris, moi.
Un bouquin gratuit. Et j'adore les auteurs.
Edit: Ah ok, en fait, c'est une refonte du grand classique de Hastie, Tibshirani et Friedman, mais avec des exemples en R.
Récupéré
Edit: Ah ok, en fait, c'est une refonte du grand classique de Hastie, Tibshirani et Friedman, mais avec des exemples en R.
Récupéré
Intéressant: pourquoi il faut bien réfléchir avant d'utiliser du lasso de façon automatique. Leek montre que selon les cas de figures, une régression avec les 10 meilleurs prédicteurs serait aussi bonne.
Tout dépend du modèle derrière.
Tout dépend du modèle derrière.
À lire un jour
J'en avais déjà parlé: des scientifiques qui montrent des photos à un saumon mort et qui analysent sa réponse hémodynamique sans correction de tests multiples. Et ils trouvent des structures. Le poster a été numérisé ici.
Alors ça, c'est très très con. La fin du blog normal deviate. C'était probablement mon blog de stat préféré, on apprenait un truc à chaque post.
Tant pis...
Tant pis...
La distri de Student est aussi un mélange de lois normales avec une moyenne mu, et une précision (inverse de la variance) tirée d'une loi gamma.
Le JSON prend de l'ampleur. Faudra vraiment que je regarde sérieusement ce que c'est précisément que ce format de stockage des données
Le paradoxe de Bertrand, ou pourquoi "Quelle est la distribution de telle statistique x sachant que mes points sont tirés aléatoirement" ne veut rien dire.
Et le plus drôle de l'affaire, c'est que Jaynes, en utilisant le principe d'indifférence, résoud le problème! Comme quoi le bayésien ça sert!
Et le plus drôle de l'affaire, c'est que Jaynes, en utilisant le principe d'indifférence, résoud le problème! Comme quoi le bayésien ça sert!
Sur la bataille bayésien/fréquentistes. Oui, je trouve que ça résume assez bien ma position. Et ça m'agace toujours un peu quand j'entends des opinions définitives (comme j'ai entendu récemment) du genre: "le bayésien c'est pas de la science" par des personnes qui régurgitent sans trop réfléchir les préfaces de bouquins fréquentistes écrits dans les années 1970.
Bon, le blog de Gelman donne des explications plus détaillées, et plein de refs. Article hyper intéressant, on y apprend plein de choses essentielles en modélisation bayésienne. Notamment:
* Ce qui avait été noté par John Cook, et qui est expliqué plus clairement là: on se comporte avec la prior de la même façon qu'avec la vraisemblance dans un modèle classique. On commence par un modèle/une prior simple. Si le résultat est naze, on améliore. Du bon sens.
* que ce qu'on croît être non informatif ne l'est pas toujours. Comme il l'écrit dans son blog:
"Traditionally in statistics we’ve worked with the paradigm of a single highly informative dataset with only weak external information. But if the data are sparse and prior information is strong, we have to think differently. And, when you increase the dimensionality of a problem, both these things happen: data per parameter become more sparse, and priors distribution that are innocuous in low dimensions become strong and highly informative (sometimes in a bad way) in high dimensions."
Et il donne des exemples. Le prochain modèle bayésien que j'ajuste, je fais des tests de ça. Apparemment, même une prior uniforme, ça peut générer des structures merdiques.
* Ce qui avait été noté par John Cook, et qui est expliqué plus clairement là: on se comporte avec la prior de la même façon qu'avec la vraisemblance dans un modèle classique. On commence par un modèle/une prior simple. Si le résultat est naze, on améliore. Du bon sens.
* que ce qu'on croît être non informatif ne l'est pas toujours. Comme il l'écrit dans son blog:
"Traditionally in statistics we’ve worked with the paradigm of a single highly informative dataset with only weak external information. But if the data are sparse and prior information is strong, we have to think differently. And, when you increase the dimensionality of a problem, both these things happen: data per parameter become more sparse, and priors distribution that are innocuous in low dimensions become strong and highly informative (sometimes in a bad way) in high dimensions."
Et il donne des exemples. Le prochain modèle bayésien que j'ajuste, je fais des tests de ça. Apparemment, même une prior uniforme, ça peut générer des structures merdiques.
L'opinion de Gelman sur les prior en bayésien décrite par John Cook. Et elle vaut son pesant d'or:
On commence par ajuster du non informatif, sur lequel on est inattaquable. On ne prend alors aucun risque. Et s'il est clair que le non-informatif conduit à des conclusions sans intérêt car trop vague, alors il est temps de revenir à la définition des prior, et d'en définir des plus réalistes, mais aussi plus criticable.
C'est du bon sens, mais je n'imagine pas le nombre de référés qui vont nous rentrer dans le lard avec une telle stratégie. Ce serait pas mal d'avoir une ref à renvoyer en retour sur la question. Je vais chercher
On commence par ajuster du non informatif, sur lequel on est inattaquable. On ne prend alors aucun risque. Et s'il est clair que le non-informatif conduit à des conclusions sans intérêt car trop vague, alors il est temps de revenir à la définition des prior, et d'en définir des plus réalistes, mais aussi plus criticable.
C'est du bon sens, mais je n'imagine pas le nombre de référés qui vont nous rentrer dans le lard avec une telle stratégie. Ce serait pas mal d'avoir une ref à renvoyer en retour sur la question. Je vais chercher
Un article très intéressant de grands ponts dans nature. À garder sous le coude parce que c'est toujours bon de rappeler certaines évidences.
Et je pense en particulier à:
Extrapolating beyond the data is risky. Patterns found within a given range do not necessarily apply outside that range. Thus, it is very difficult to predict the response of ecological systems to climate change, when the rate of change is faster than has been experienced in the evolutionary history of existing species, and when the weather extremes may be entirely new.
Ben oui. Voila une remarque pertinente
Et je pense en particulier à:
Extrapolating beyond the data is risky. Patterns found within a given range do not necessarily apply outside that range. Thus, it is very difficult to predict the response of ecological systems to climate change, when the rate of change is faster than has been experienced in the evolutionary history of existing species, and when the weather extremes may be entirely new.
Ben oui. Voila une remarque pertinente
Ouh mais ça m'a l'air intéressant ça! Je connaissais l'auteur par certains de ses articles, mais là il a écrit tout un bouquin sur l'histoire de la stat.
Tout est dans le titre. Bob O'Hara est co-auteur. Pas lu, mais à lire
Tiens? ça cause débat fréquentiste/bayésien dans Nature. Pas encore lu, mais à lire un jour parce que l'attaque a l'air violente