2385 shaares
448 results
tagged
stats
Le débat continue...
à lire quand j'aurai le temps
à lire quand j'aurai le temps
À récupérer et à lire.
Quand j'aurai le temps.
Oui je sais.
Quand j'aurai le temps.
Oui je sais.
Très pratique pour trouver des intervalles de confiances sur des variables transformées.
Théorème de Glivenko-Cantelli: quand le nombre d'observations augmente, la CDF estimée converge vers la vraie CDF.
Mouais, bon.
Mouais, bon.
Boum, et un de plus.
Bon, et puis je stocke ce post ici, il semble être un peu incontournable en ce moment, et tout le monde en parle, surtout depuis la présentation de Ben Bolker à l'ISEC à Montpellier. La notion de machisme statistique décrit la tendance à vouloir écraser le lecteur sous un arsenal monstrueux de statistiques compliquées et incompréhensibles. C'est ce bloggeur qui a introduit la notion, et qui est très à la mode en ce moment en écologie.
Un peu d'éthymologie:
Courbe sigmoïde: ça vient de la lettre grecque sigma qui produit le son S, et S est la forme de la courbe. Zont été la chercher loin celle-là.
Logarithme: vient de logos (rapport, proportion) et arithmos (nombre), inventé par John Napier au XVIème siècle.
Logistique: inventé par Verhulst au XIXème siècle, sans raison, mais apparemment, en grec ça veut dire calcul, et jusqu'au XVIIIème logistique était synonyme de logarithme. Plus après Verhulst.
Me coucherai moins con.
Courbe sigmoïde: ça vient de la lettre grecque sigma qui produit le son S, et S est la forme de la courbe. Zont été la chercher loin celle-là.
Logarithme: vient de logos (rapport, proportion) et arithmos (nombre), inventé par John Napier au XVIème siècle.
Logistique: inventé par Verhulst au XIXème siècle, sans raison, mais apparemment, en grec ça veut dire calcul, et jusqu'au XVIIIème logistique était synonyme de logarithme. Plus après Verhulst.
Me coucherai moins con.
Comment calculer l'espérance d'une distribution gamma.
Et ça chauffe dans les commentaires. Parmi les réponses, Marc kéry, Darryl Mackenzie. À lire.
Il faut y arrêter avec les méthodes super-compliquées.
Edit: OK, j'ai vu la vidéo, le message est plus nuancé: la question est de savoir si ça vaut vraiment la peine de se lancer dans les nouvelles méthodes à la mode. Du point de vue du statisticien, le développement de nouvelles méthodes est aussi un moyen de publier. Et pour faciliter la publication, il va probablement souligner l'utilité du machin. La question est de savoir si ça vaut vraiment le coût. En fait si c'est une machinerie monstrueuse pour une amélioration de 5%, ce n'est pas la peine ("not worth the trouble"). Et Bolker dit un truc très juste: on passe son temps à se faire emmerder par des référés sur "vous auriez dû utiliiser telle méthode, etc.". Bolker remarque qu'il y a trois types de référés: (i) ceux qui ne connaisse rien aux statistiques et qui ne vont pas nous emmerder là-dessus, (ii) ceux qui s'y connaissent bien, et qui vont relire le matériel stat, juger de la pertinence des choix et accepter ceux qui ne sont légèrement suboptimaux sans forcément bouler le papier, et (iii) ceux qui connaissent suffisamment de stats pour savoir que la méthode X aurait aussi été pertinente, mais pas assez pour savoir que l'application de cette méthode n'aurait apporté qu'une très légère amélioration par rapport aux résultats obtenus. Et ces derniers sont les plus chiants.
Edit: OK, j'ai vu la vidéo, le message est plus nuancé: la question est de savoir si ça vaut vraiment la peine de se lancer dans les nouvelles méthodes à la mode. Du point de vue du statisticien, le développement de nouvelles méthodes est aussi un moyen de publier. Et pour faciliter la publication, il va probablement souligner l'utilité du machin. La question est de savoir si ça vaut vraiment le coût. En fait si c'est une machinerie monstrueuse pour une amélioration de 5%, ce n'est pas la peine ("not worth the trouble"). Et Bolker dit un truc très juste: on passe son temps à se faire emmerder par des référés sur "vous auriez dû utiliiser telle méthode, etc.". Bolker remarque qu'il y a trois types de référés: (i) ceux qui ne connaisse rien aux statistiques et qui ne vont pas nous emmerder là-dessus, (ii) ceux qui s'y connaissent bien, et qui vont relire le matériel stat, juger de la pertinence des choix et accepter ceux qui ne sont légèrement suboptimaux sans forcément bouler le papier, et (iii) ceux qui connaissent suffisamment de stats pour savoir que la méthode X aurait aussi été pertinente, mais pas assez pour savoir que l'application de cette méthode n'aurait apporté qu'une très légère amélioration par rapport aux résultats obtenus. Et ces derniers sont les plus chiants.
Sur la distribution gamma. Le paramètre beta est un paramètre d'échelle (scale), et il est parfois utile de le fixer égal à 1. On parle alors de la forme standard de la distribution gamma (standard form, standard gamma, etc.). Voir aussi Johnson et al. (1995, continuous univariate distribution, volume 1, p. 337, équation 17.2).
À noter aussi: sous R comme sous JAGS, par défaut le paramètre contrôlant ce "scaling" est le taux (rate) = 1/paramètre d'échelle. Et par défaut, ce paramètre vaut 1 sous R.
À noter aussi: sous R comme sous JAGS, par défaut le paramètre contrôlant ce "scaling" est le taux (rate) = 1/paramètre d'échelle. Et par défaut, ce paramètre vaut 1 sous R.
Tout ce que vous avez toujours voulu savoir sur la loi binomiale négative sans jamais oser le demander
Intéressant: les 7 piliers de la sagesse statistique d'après Stigler.
il existe une différence entre nombres pseudo-aléatoires (ceux que l'on utilise dans R), et nombres quasi-aléatoires, qui construisent les séquences à discrépance faible (la discrépance d'une suite est faible si la proportion des points de la suite sur un ensemble B est proche de la valeur de la mesure de B, ce qui est le cas en moyenne (mais pas pour des échantillons particuliers) pour une suite équidistribuée). On s'en sert parfois pour remplacer les nombres pseudo-aléatoire
Une thèse. Paraitrait qu'elle est pas mal.
Je ne connaissais pas ce concept, qui est le concept opposé à la notion d'indépendance.
Application du théorème de Slutsky pour démontrer qu'une variable centrée et réduite multipliée par sqrt(n) converge en distribution vers une loi normale centrée et réduite quand n tend vers l'infini.
Pourquoi il ne faut presque jamais utiliser require pour charger un package. Parce que, basiquement, un require, c'est un try(library()) et que comme on s'en sert pour faire planter une fonction si le package n'est pas présent, autant utiliser library directement, qui plante pour la même raison. Bon, va falloir que je screene mes packages un jour.
Dans la catégorie divers, la thèse de maths dont vous êtes le héros, et la campagne de candidature à un poste de maitre de conf dont vous êtes le héros.
Faut vraiment que je me forme à l'ABC, on en entend de plus en plus parler, et sur le principe, ça a l'air intéressant.