2390 shaares
39 results
tagged
statistique
De spiegelhalter. Un bouquin qui semble intéressant.
Numéro spécial de MEE sur l'élicitation d'avis d'expert. A récupérer et lire.
Une bonne description de JASP, clique-bouton open source conçu comme alternative à spss.
On en parle pas mal en ce moment...
A lire
A lire absolument le résumé a l'air génial
Ah tiens, ya un papier sur le package. À lire.
La vache ! ya du choix !
Ah ouais, pas mal. Du literate programming facile d'accès. Facile à vendre.
Je suis assez impressionné... 40 langages gérés, on mélange du Markdown, du R, du python, du latex, du julia (à la base, c'est Julia Python R ou Jupyter).
À suivre de près...
Je suis assez impressionné... 40 langages gérés, on mélange du Markdown, du R, du python, du latex, du julia (à la base, c'est Julia Python R ou Jupyter).
À suivre de près...
Tout le monde en parle en ce moment, ça semble vraiment révolutionner pas mal de choses à en croire certains...
À creuser donc.
À creuser donc.
De Jolliffe (2002), page 339 : "It is true that variances, covariances and correlations have especial relevance for multivariate normal x, and that linear functions of binary variables are less readily interpretable than linear functions of continuous variaibles. However, the basic objective of PCA -- to summarize most of the 'variation' that is present in the original set of p variables using a smaller number of derived variables -- can be achieved regardless of the nature of the original variables.
For data in which all variables are binary, Gower (1966) points out that using PCA *does* provide a plausible low-dimensional representation. This follows because PCA is equivalent to a principal coordinate analysis based on the commonly used definition of similarity between two individuals (observations) as the proportion of the p variables for which the two individals take the same value."
Donc oui, on peut faire de l'ACP sur données binaires et ça a du sens. Je stocke ça ici.
For data in which all variables are binary, Gower (1966) points out that using PCA *does* provide a plausible low-dimensional representation. This follows because PCA is equivalent to a principal coordinate analysis based on the commonly used definition of similarity between two individuals (observations) as the proportion of the p variables for which the two individals take the same value."
Donc oui, on peut faire de l'ACP sur données binaires et ça a du sens. Je stocke ça ici.
Numéro spécial Oikos/Ecography/Avian Biology sur l'analyse des suivis télémétriques
Perspective intéressante. Se résume en quelques phrases:
* Companies brag about the size of their datasets the way fishermen brag about the size of their fish
* But even big companies only use a tiny fraction of the data they collect.
* Typical deep-learning models only work on massive amounts of labeled data. And labelling a large dataset takes hundreds of thousands of dollars and months of time. (...) Too many smaller companies don’t realize this and acquire massive data stores that they can’t afford to use.
* big data isn’t big, but good data is even smaller
En résumé, il y a effectivement des enjeux sur le big data. Mais principalement dans les entreprises qui investissent énormément dans le big data (google, facebook, etc.). Pour la majorité, on n'en est pas encore là.
* Companies brag about the size of their datasets the way fishermen brag about the size of their fish
* But even big companies only use a tiny fraction of the data they collect.
* Typical deep-learning models only work on massive amounts of labeled data. And labelling a large dataset takes hundreds of thousands of dollars and months of time. (...) Too many smaller companies don’t realize this and acquire massive data stores that they can’t afford to use.
* big data isn’t big, but good data is even smaller
En résumé, il y a effectivement des enjeux sur le big data. Mais principalement dans les entreprises qui investissent énormément dans le big data (google, facebook, etc.). Pour la majorité, on n'en est pas encore là.
Un autre package pour l'OCR
R fait de l'OCR!!!!
Qu'est-ce que R ne fait pas!
Qu'est-ce que R ne fait pas!
Oooouh ben putain! ça ça doit être de la conversation. La grosse pointure du multivarié interviewé par la grosse pointure des processus de survie, c'est à lire absolument.
A lire... Je ne sais pas trop dans quelle mesure l'analyse de décision peut vraiment aider à résoudre des pbs vraiment complexes...
Un nouveau type de données apparaît: le "medium" data: 215 Go de données!!! Putain, on en est pas là encore en écologie.
Chose intéressante, ils ont mis le code source sur github. Ça peut être intéressant de voir comment ils gèrent cette quantité de données. J'ai regardé un peu, c'est surtout du PostgreSQL, avec des requêtes depuis R. Je n'ai pas l'impression qu'il y ait des outils propres à cette taille de donnée (à part postgresql, qui certes est rarement utilisé pour les "small" data, ou les nano data, je sais pas comment on doit appeler nos jeux de données de 50 lignes, mais qui est quand même plus fréquemment utilisé pour les BD plus grandes comme les données réseau, etc.).
Chose intéressante, ils ont mis le code source sur github. Ça peut être intéressant de voir comment ils gèrent cette quantité de données. J'ai regardé un peu, c'est surtout du PostgreSQL, avec des requêtes depuis R. Je n'ai pas l'impression qu'il y ait des outils propres à cette taille de donnée (à part postgresql, qui certes est rarement utilisé pour les "small" data, ou les nano data, je sais pas comment on doit appeler nos jeux de données de 50 lignes, mais qui est quand même plus fréquemment utilisé pour les BD plus grandes comme les données réseau, etc.).
Une analyse supplémentaire intéressante du canular de Bohannon par Gelman (voir ici: http://caloine.ouvaton.org/shaarli/?sv9yEg); il ajoute que la situation est pire que ce que décrit Bohannon, à cause du "garden of forking paths":
1. Il ne faut pas croire qu'il y a 18 comparaisons possibles sous prétexte qu'il y a 18 variables réponses. En prenant des sous-groupes (Hommes vs Femmes, gros vs fins, etc.), on multiplie d'autant les risques de faux positifs.
2. "I always worry when people write about p-hacking, that they mislead by giving the wrong impression that, if a researcher performs only one analysis on his her data, that all is ok." Le pb, c'est que la construction de l'analyse se fait autour du jeu de données (c'est là que l'expression "forking paths" prend tout son sens).
3. "he excluded one person from his study, and elsewhere he notes that researchers “drop ‘outlier’ data points” in their quest for scientific discovery. But I think he could’ve emphasized this a bit more, that researcher-degrees-of-freedom is not just about running lots of tests on your data, it’s also about the flexibility in rules for what data to exclude and how to code your responses"
4. Le problème principal avec les tests d'hypothèses, c'est qu'ils donnent l'illusion que la science a pour rôle de trouver des "vrais positifs"
1. Il ne faut pas croire qu'il y a 18 comparaisons possibles sous prétexte qu'il y a 18 variables réponses. En prenant des sous-groupes (Hommes vs Femmes, gros vs fins, etc.), on multiplie d'autant les risques de faux positifs.
2. "I always worry when people write about p-hacking, that they mislead by giving the wrong impression that, if a researcher performs only one analysis on his her data, that all is ok." Le pb, c'est que la construction de l'analyse se fait autour du jeu de données (c'est là que l'expression "forking paths" prend tout son sens).
3. "he excluded one person from his study, and elsewhere he notes that researchers “drop ‘outlier’ data points” in their quest for scientific discovery. But I think he could’ve emphasized this a bit more, that researcher-degrees-of-freedom is not just about running lots of tests on your data, it’s also about the flexibility in rules for what data to exclude and how to code your responses"
4. Le problème principal avec les tests d'hypothèses, c'est qu'ils donnent l'illusion que la science a pour rôle de trouver des "vrais positifs"
Dans la série travail déclassifié de Turing pendant la seconde guerre mondiale.
Via Mathieu. Ça à l'air bien intéressant!
Un gars qui râle contre l'arrivée de la "data science" dans le milieu des affaires. Et contre cet effet de mode.
Autant je peux comprendre l'agacement des gars qui voient passer un effet de mode par an, autant je suis d'accord avec lui -- de façon générale -- sur sa liste de points. autant certains de ses arguments sont fallacieux, comme
"if there were a particular activity devoted to studying data, then there might be some virtue in the term “data science.” And indeed there is such an activity, and it already has a name: it is a branch of mathematics called statistics. It doesn’t need a name upgrade, or if it does, we should call it Statistics 2.0."
Certes, la statistique est une branche des mathématiques, mais pas l'analyse de données!!!
Autant je peux comprendre l'agacement des gars qui voient passer un effet de mode par an, autant je suis d'accord avec lui -- de façon générale -- sur sa liste de points. autant certains de ses arguments sont fallacieux, comme
"if there were a particular activity devoted to studying data, then there might be some virtue in the term “data science.” And indeed there is such an activity, and it already has a name: it is a branch of mathematics called statistics. It doesn’t need a name upgrade, or if it does, we should call it Statistics 2.0."
Certes, la statistique est une branche des mathématiques, mais pas l'analyse de données!!!
À lire aussi
Pour assurer le caractère reproductible d'une analyse/modélisation: inclure toutes les fonctions dans un package, les documenter avec Roxygen, stocker les données dans le répertoire data, et mettre l'analyse en tant que telle dans une vignette. Pas idiot du tout. J'avais déjà l'habitude de faire mes analyses sous forme de rapport, mais sur le fond, je vais essayer de faire ces analyses comme ça. Je suis super motivé.
Intéressant. J'aime bien ce blog.
Une belle explication du paradoxe de Simpson
Une distribution linux pour statisticiens.
Une belle défense de l'exploratoire. Il est toujours bon de rappeler que l'approche exploratoire est intéressante
Très intéressant
Tiens? des random forests pour très gros jeux de données: parallélisation au max, ou comment ramener un temps de calcul de 3 heures à 5 minutes.
À garder sous le coude
À garder sous le coude
Un nouveau format d'échange de données
Eh ben décidément, c'est la fête des vidéos. Et centré sur l'écologie.
Critique assez violente des modèles basés sur les presence only data. Basé sur son papier: Inference from presence-only data; the ongoing controversy
qui est lui-même une critique de l'article de Royle et al. "Likelihood analysis of species occurrence probability from presence-only data for modelling species distributions"
À voir
Critique assez violente des modèles basés sur les presence only data. Basé sur son papier: Inference from presence-only data; the ongoing controversy
qui est lui-même une critique de l'article de Royle et al. "Likelihood analysis of species occurrence probability from presence-only data for modelling species distributions"
À voir
Tony O'Hagan interview Dennis Lindley. Sur l'ensemble de sa carrière, sur l'histoire de la stat bayésienne, etc. Ses rencontres avec Savage, etc.
Très intéressant.
Voir aussi les liens associés: spiegelhalter, taleb, efron, etc. Pas mal de videos à voir. Une mine!
Très intéressant.
Voir aussi les liens associés: spiegelhalter, taleb, efron, etc. Pas mal de videos à voir. Une mine!
Tiens? encore quelqu'un qui découvre les écueils de l'utilisation non raisonnée des stats. Ya même une partie sur le hamster.
Sur le théorème de bayes
Expliquer n'est pas prédire. Ce gars est spécialiste de ça, et présente un paquet de ressources sur la question. À creuser en détail quand j'aurai le temps (à noter, il y a des liens vers des discussions sur stackoverflow)
Le blog de thomas Lumley. À garder sous le coude et explorer un jour où j'aurai le temps
Une introduction aux STEM: exploration des patrons spatio-temporels de distribution des espèces. De loin, ça a l'air pas mal comme approche. En tous cas dans l'objectif. Récupéré (Fink2010.pdf).
À creuser.
Un jour.
Oui, je sais.
À creuser.
Un jour.
Oui, je sais.
Une version de R normalement plus rapide que le R normal. Des tests effectués sur R-SIG-geo indiquent que cette version est bien plus rapide que le R d'origine. À garder sous le coude.

