2353 shaares
Ah bon. J'avais déjà entendu critiquer "par contre", mais je ne savais pas pourquoi. Ce n'est pas correct... Mais ça ne fait pas l'unanimité.
Après mon "au final" remplacé par "en définitive", voila-t-y pas que mon par contre est remplacé par "en revanche". Bon.
D'accord.
Après mon "au final" remplacé par "en définitive", voila-t-y pas que mon par contre est remplacé par "en revanche". Bon.
D'accord.
Marrant
"If I walked into an operating room and said I'm going to start dabbling in surgery I would be immediately thrown out. But people do that with statistics and data analysis all the time".
Bon article
Bon article
À lire
Des journaux scientifiques se font pirater! On croit soumettre à une revue donnée, et en fait, on soumet à une autre revue du même nom, et le faux éditeur empoche l'argent des auteurs...
La table périodique des éléments dans un format qui déchire
Une citation de Hadley Wickam qui résume bien la dualité exploration graphique/modélisation:
Visualization can surprise you, but it doesn’t scale well.
Modeling scales well, but it can’t surprise you.
Visualization can surprise you, but it doesn’t scale well.
Modeling scales well, but it can’t surprise you.
Article intéressant. Voir en particulier la figure 4: un article publié d'abord soumis à ArXiv est beaucoup, *beaucoup* plus cité qu'un article directement publié. Les physiciens se font plus chier: la publication permet de "référencer" une étude bien proprement, mais en pratique, toute la discussion scientifique se passe autour des articles sur ArXiv...
Le coût de l'édition d'un article, avec options tout confort, c'est-à-dire: indexation dans PubMed, Web of Science, etc., stockage pour une accessibilité sur le long-terme ($67), services numériques comme DOI, vérification de plagiat, altmetrics, etc. ($4), édition, peer-review, et génération de divers formats (pdf, epub, etc.; $130), + correction de l'anglais, site web pour la soumission, PDF amélioré, campagne sur les réseaux sociaux, et services de data management ($400). Au total, un article open-access coûte $600 à l'éditeur... Et les éditeurs font payer les auteurs beaucoup plus cher, en moyenne 2000 €, pour que l'article soit en open-access.
S'ils font payer si cher, c'est parce qu'aujourd'hui, un article rapporte en moyenne $5000 à l'éditeur. Donc pour qu'il le mette en open-access, il fera payer la différence. Pas parce que l'article, les managing editors, etc. lui coûtent ça, mais parce que sinon, ça se traduirait par un manque-à-gagner par rapport à un système dans lequel l'open-access n'existerait pas... Du coup, l'open-access basé sur le principe "auteur=payeur" n'est pas vraiment une solution au problème: ce serait même pire, puisqu'en plus, ceux qui n'ont pas les moyens de publier... ben... ne publieraient pas...
Faut vraiment sortir de ce système à la con...
S'ils font payer si cher, c'est parce qu'aujourd'hui, un article rapporte en moyenne $5000 à l'éditeur. Donc pour qu'il le mette en open-access, il fera payer la différence. Pas parce que l'article, les managing editors, etc. lui coûtent ça, mais parce que sinon, ça se traduirait par un manque-à-gagner par rapport à un système dans lequel l'open-access n'existerait pas... Du coup, l'open-access basé sur le principe "auteur=payeur" n'est pas vraiment une solution au problème: ce serait même pire, puisqu'en plus, ceux qui n'ont pas les moyens de publier... ben... ne publieraient pas...
Faut vraiment sortir de ce système à la con...
Belle vidéo
La loi de Cauchy servirait en pratique... il paraît. On pourrait s'en servir pour les cas où les outliers sont nombreux, et forment une queue de distribution non négligeable.
Demande à voir une application concrète...
Demande à voir une application concrète...
Une discussion intéressante sur la modélisation des données de comptage.
Intéressant. On a tendance à s'imaginer que Pluton est tellement éloigné que le soleil ne doit apparaître que comme une étoile comme les autres, à peine un peu plus brillante, et que du coup la surface doit être dans le noir complet. Ce projet participatif de la NASA permet de prendre conscience que non, le soleil est encore bien brillant, même à cette distance. On peut calculer l'heure à laquelle la luminosité là où on habite sera similaire à celle observée sur Pluton à midi. Sur Paris aujourd'hui, c'est à 22H00, juste après le coucher du soleil. C'est surprenant, de voir à quel point ça reste encore bien lumineux...
Il y a des photos sur le site qui permettent de bien se rendre compte.
Il y a des photos sur le site qui permettent de bien se rendre compte.
Un nouveau type de données apparaît: le "medium" data: 215 Go de données!!! Putain, on en est pas là encore en écologie.
Chose intéressante, ils ont mis le code source sur github. Ça peut être intéressant de voir comment ils gèrent cette quantité de données. J'ai regardé un peu, c'est surtout du PostgreSQL, avec des requêtes depuis R. Je n'ai pas l'impression qu'il y ait des outils propres à cette taille de donnée (à part postgresql, qui certes est rarement utilisé pour les "small" data, ou les nano data, je sais pas comment on doit appeler nos jeux de données de 50 lignes, mais qui est quand même plus fréquemment utilisé pour les BD plus grandes comme les données réseau, etc.).
Chose intéressante, ils ont mis le code source sur github. Ça peut être intéressant de voir comment ils gèrent cette quantité de données. J'ai regardé un peu, c'est surtout du PostgreSQL, avec des requêtes depuis R. Je n'ai pas l'impression qu'il y ait des outils propres à cette taille de donnée (à part postgresql, qui certes est rarement utilisé pour les "small" data, ou les nano data, je sais pas comment on doit appeler nos jeux de données de 50 lignes, mais qui est quand même plus fréquemment utilisé pour les BD plus grandes comme les données réseau, etc.).
Une chaine youtube intéressante. Ya des vidéos vraiment très intéressantes...
Intéressant. Je résume. Un écologue reviewant un papier devra:
1. Be Honest about What You Know and What You Don’t
2. Old Doesn’t Mean Bad (putain celui là on l'aura entendu! "cette méthode n'est plus utilisée, aujourd'hui ya mieux!")
3. New Doesn’t Mean Good (Daniel Chessel avait souligné dans son HDR les points 2 et 3 comme réaction fréquente de la part des biologistes face aux nouvelles méthodes).
4. Understand Assumptions (Suggesting unnecessarily complicated methodology makes things harder for the authors, the editors, for you as the reviewer (...), and finally, (...) the readers.)
5. Match the Method to the Assumptions
6. There is Rarely a Single Correct Method
7. p-values are not the Work of the Devil
8. Beware of Uninformed Pronunciamentos* (le comportement qui consiste à dire qu'une méthode ou une pratique -- e.g. calculer des P-values, s'intéresser à l'autocorrélation spatiale, etc. -- est toujours mauvaise, quel que soit le contexte).
9. Recommend a Statistician Look at the Paper (i.e. indiquer son incompétence en stats, et demander un autre reviewer sur ce thème, à relier au point 1).
10. Read up on the Statistical Methods
1. Be Honest about What You Know and What You Don’t
2. Old Doesn’t Mean Bad (putain celui là on l'aura entendu! "cette méthode n'est plus utilisée, aujourd'hui ya mieux!")
3. New Doesn’t Mean Good (Daniel Chessel avait souligné dans son HDR les points 2 et 3 comme réaction fréquente de la part des biologistes face aux nouvelles méthodes).
4. Understand Assumptions (Suggesting unnecessarily complicated methodology makes things harder for the authors, the editors, for you as the reviewer (...), and finally, (...) the readers.)
5. Match the Method to the Assumptions
6. There is Rarely a Single Correct Method
7. p-values are not the Work of the Devil
8. Beware of Uninformed Pronunciamentos* (le comportement qui consiste à dire qu'une méthode ou une pratique -- e.g. calculer des P-values, s'intéresser à l'autocorrélation spatiale, etc. -- est toujours mauvaise, quel que soit le contexte).
9. Recommend a Statistician Look at the Paper (i.e. indiquer son incompétence en stats, et demander un autre reviewer sur ce thème, à relier au point 1).
10. Read up on the Statistical Methods
"A general conclusion from the set of articles in this Special Section can be drawn as follows: The feasibility and the potentials of using Big Data in official statistics have to be assessed from case to case."
Oui, comme avec les sciences participatives. Des fois ça marche, des fois ça marche pas.
Faudra que je récupère et que je lise quand même les articles en question...
Oui, comme avec les sciences participatives. Des fois ça marche, des fois ça marche pas.
Faudra que je récupère et que je lise quand même les articles en question...
J'avais déjà vu passer ça...
RPubs: un site sur lequel publier ses markdowns. Par les gens qui font Rstudio. Ils ont inclus un bouton dans RStudio qui permet de publier son doc markdown sur le site une fois qu'on l'a fini
Ils arrêtent jamais. C'est assez bluffant, ya des contributions superintéressantes...
Ils arrêtent jamais. C'est assez bluffant, ya des contributions superintéressantes...
Ben putain, c'est bon à savoir:
some-command <(another-command)
va exécuter "another-command" -- il faut que cette autre commande écrive le résultat dans stdout -- et va passer le résultat à some-command (avec some-command une commande qui prend un nom de fichier comme argument). Donc pas besoin de stocker dans les fichiers, on passe directement le résultat du l'une à l'autre. Comme un pipe, sauf que (i) on peut substituer autant de commande qu'on veut, par exemple:
diff <(curl http://somesite/file1) <(curl http://somesite/file2)
va substituer les deux curl et les passer à diff; et (ii) les commandes substituées sont lancées en parallèle et pas à la suite.
some-command <(another-command)
va exécuter "another-command" -- il faut que cette autre commande écrive le résultat dans stdout -- et va passer le résultat à some-command (avec some-command une commande qui prend un nom de fichier comme argument). Donc pas besoin de stocker dans les fichiers, on passe directement le résultat du l'une à l'autre. Comme un pipe, sauf que (i) on peut substituer autant de commande qu'on veut, par exemple:
diff <(curl http://somesite/file1) <(curl http://somesite/file2)
va substituer les deux curl et les passer à diff; et (ii) les commandes substituées sont lancées en parallèle et pas à la suite.