2369 shaares
189 results
tagged
science
Intéressant: l'impact factor correspond au nombre moyen de fois qu'un article d'une revue publié dans les deux années précédentes est cité. C'est une moyenne, et comme on est sur une distribution asymétrique, c'est nase. L'auteur indique déjà que la médiane serait plus intéressante. Exemple de Acta Crystallographica Section A: le journal est passé d'un IF de 2 à un IF de 49 à cause d'un unique papier.
Il fait une étude de Monte Carlo qui compare un papier tiré au sort d'une revue et un papier tiré au sort d'une autre revue et compare le nombre de citations, afin de savoir quelle revue est meilleure. Il représente la distribution des différences. Et là, c'est vraiment surprenant, les différences ne sont pas énormes. Et même entre canards très différents: on voit des différences nettes entre Nature (IF approx. 40) et Journal of Cell Biology (IF approx. 2), significatives, ça se voit clairement, mais curieusement ces différences ne sont pas aussi énormes que le suggère la différence d'IF! Quand on compare la différence moyenne de citation d'un papier tiré au sort dans JCB et dans Nature, le pic est quand même à 0!!! Après, c'est vrai que le nombre d'articles très cités est plus important dans Nature...
Et en s'appuyant sur des comparaisons de moyennes non-paramétriques, il démontre que si l'on cherche à s'appuyer sur l'IF pour comparer des revues, on peut comparer des revues en arrondissant au 5 (ou 10) le plus proche. Ainsi, ecology (approx. 5) est meilleur que European Journal of Wildlife research (approx 1), mais après, ça ne sert à rien de comparer un journal à 1.2 et à 1.5.
Très intéressant...
Il fait une étude de Monte Carlo qui compare un papier tiré au sort d'une revue et un papier tiré au sort d'une autre revue et compare le nombre de citations, afin de savoir quelle revue est meilleure. Il représente la distribution des différences. Et là, c'est vraiment surprenant, les différences ne sont pas énormes. Et même entre canards très différents: on voit des différences nettes entre Nature (IF approx. 40) et Journal of Cell Biology (IF approx. 2), significatives, ça se voit clairement, mais curieusement ces différences ne sont pas aussi énormes que le suggère la différence d'IF! Quand on compare la différence moyenne de citation d'un papier tiré au sort dans JCB et dans Nature, le pic est quand même à 0!!! Après, c'est vrai que le nombre d'articles très cités est plus important dans Nature...
Et en s'appuyant sur des comparaisons de moyennes non-paramétriques, il démontre que si l'on cherche à s'appuyer sur l'IF pour comparer des revues, on peut comparer des revues en arrondissant au 5 (ou 10) le plus proche. Ainsi, ecology (approx. 5) est meilleur que European Journal of Wildlife research (approx 1), mais après, ça ne sert à rien de comparer un journal à 1.2 et à 1.5.
Très intéressant...
Un article TRÈS intéressant sur l'interface science/politique. En résumé, le gouvt anglais veut connaître l'efficacité du prélèvement de blaireaux sur le contrôle de la tuberculose bovine. Il finance alors une étude, façon étude monstrueuse, avec randomisation, étude en double aveugle, le machin a l'air bien ficelé (j'ai pas lu l'étude -- à lire donc -- sigh...). Et là, surprise, l'étude conclut que le prélèvement de blaireaux est souvent inefficace, peut être efficace dans des conditions d'application irréaliste (genre erradication ultra rapide et ultra efficace de l'espèce à court terme), et sinon peut même *aggraver* la situation. Et là, les gestionnaires sont dans la merde: ils vivent tous avec l'idée que le prélèvement est LA solution, et voilà-t-y-pas qu'on leur dit que non. Et même qu'on leur dit que ça peut être pire.
Et pire, on ne leur dit pas pourquoi, et ça c'est pire que tout. On ne va pas changer notre façon de faire sans savoir quelle est la cause de ce résultat. J'aime bien la classique réaction des chefs "It depends whether you want to base your policy on a sound veterinary opinion, or just on statistics". Bougerai pas. Le gouvernement, dans la merde, cherche un second avis en 2007. Le rapport, écrit à la va vite d'après un éditorial de Nature, et truffé d'erreurs d'après l'auteur de l'article de blog, rassure le gouvt: ne changez rien, ils se sont plantés. Ce rapport est cité par Nature comme exemple typique du cas où un gouvernement ne tient aucun compte de l'avis scientifique après l'avoir demandé (l'éditorial de Nature sur le sujet est passionnant.).
Et avec les années, les études ultérieures donnent raison à cette première étude. On se rend compte que par le prélèvement, on favorise la dispersion des bestioles malades, d'où agravation. Mais les habitudes ont la vie dure, et les responsables ne changent pas la stratégie: prélèvement accru de blaireaux en cas de TB. On continue à débattre, les deux parties continuent à se taper dessus, les politiques n'ont pas vraiment envie de voir les choses évoluer... La conclusion: Since the ISG [le groupe en charge de cette étude] was disbanded in 2007, other advisory groups have come and gone. Over time the contribution of independent scientists has declined, with greater inputs from vets and farming representatives. Two further culls went ahead in 2013, but when an independent panel deemed them ineffective and possibly inhumane, it was not reappointed. The 2014 culls had no independent oversight, and subsequent claims of success are based on extremely shaky data. Outside government, views have become entrenched and cherry picking evidence has become a cottage industry for both sides of the debate.
Bon, cet article ne donne qu'un seul côté du débat, j'aimerais bien en savoir plus... À suivre.
Et pire, on ne leur dit pas pourquoi, et ça c'est pire que tout. On ne va pas changer notre façon de faire sans savoir quelle est la cause de ce résultat. J'aime bien la classique réaction des chefs "It depends whether you want to base your policy on a sound veterinary opinion, or just on statistics". Bougerai pas. Le gouvernement, dans la merde, cherche un second avis en 2007. Le rapport, écrit à la va vite d'après un éditorial de Nature, et truffé d'erreurs d'après l'auteur de l'article de blog, rassure le gouvt: ne changez rien, ils se sont plantés. Ce rapport est cité par Nature comme exemple typique du cas où un gouvernement ne tient aucun compte de l'avis scientifique après l'avoir demandé (l'éditorial de Nature sur le sujet est passionnant.).
Et avec les années, les études ultérieures donnent raison à cette première étude. On se rend compte que par le prélèvement, on favorise la dispersion des bestioles malades, d'où agravation. Mais les habitudes ont la vie dure, et les responsables ne changent pas la stratégie: prélèvement accru de blaireaux en cas de TB. On continue à débattre, les deux parties continuent à se taper dessus, les politiques n'ont pas vraiment envie de voir les choses évoluer... La conclusion: Since the ISG [le groupe en charge de cette étude] was disbanded in 2007, other advisory groups have come and gone. Over time the contribution of independent scientists has declined, with greater inputs from vets and farming representatives. Two further culls went ahead in 2013, but when an independent panel deemed them ineffective and possibly inhumane, it was not reappointed. The 2014 culls had no independent oversight, and subsequent claims of success are based on extremely shaky data. Outside government, views have become entrenched and cherry picking evidence has become a cottage industry for both sides of the debate.
Bon, cet article ne donne qu'un seul côté du débat, j'aimerais bien en savoir plus... À suivre.
Collabra: une revue à suivre de près.
Rédaction Médicale et Scientifique: Les mégarevues auraient remplacé le peer-review par le peer-view
Plos one dans le colimateur. Je suis pas complètement d'accord avec le gars.
C'est vrai que 70% de taux d'acceptation, ça fait beaucoup, mais ça s'explique: la politique de la revue, c'est de ne pas juger de l'intérêt scientifique d'un article. Seule la qualité scientifique compte. Si l'approche scientifique est correcte, on ne rejettera pas un article qui démontre que le ciel est bleu.
Pour quelqu'un comme moi, c'est important: scientifiquement, ça n'apporte rien de savoir que la densité de blaireau était entre 2 et 8 fois plus importante en Pays d'Auge que dans le Bessin entre 2000 et 2005. Pourtant, on a bien utilisé une approche scientifique pour arriver à cette estimation. Par contre, on a essayé de soumettre un article décrivant cette approche et ces résultats à Ecography, et l'article n'est pas parti aux référés; argument: "vous ne tirez aucune conclusion sur le processus biologique à l'origine des variations de densité", ce qui est vrai. L'article n'a aucun intérêt sur le plan science fondamentale. Pourtant, il a une importance sociale essentielle: on a besoin de ces éléments pour prendre des décisions en matière de gestion de la faune. On m'objectera -- à juste titre -- que ce n'est pas parce qu'un travail a une importance sociale qu'il a sa place dans une revue scientifique. C'est vrai, mais: (i) le travail mené pour cette estimation est un travail scientifique (cf. plus bas pour l'adresse de l'article, que le lecteur se fasse une opinion), (ii) c'est parce qu'il est scientifique qu'il est considéré pour prendre des décisions de gestion. Et donc, parce que l'approche utilisée pour obtenir cette estimation est une approche scientifique, ces éléments ont leur place dans une revue scientifique (en outre, je sors peut-être un peu du débat, mais comme ces résultats sont utilisés pour prendre des décisions de gestion, la validation par les pairs de la démarche utilisée pour l'estimation -- au cœur du processus de publication scientifique -- est précisément ce qui permet de calmer le jeu quand les conflits sociaux éclatent entre différentes parties, lesquelles n'hésitent pas à taxer les auteurs de "collusion avec l'ennemi" autrement: on est toujours suspect de fraude dans ce type de discussion lorsque les résultats ne vont pas dans le sens espéré!).
Et c'est là que Plos one est intéressant: on l'a soumis chez eux, on a eu une review de qualité (c'est là que je ne suis pas d'accord avec le "peer-viewed": les référés n'étaient pas plus complaisants que dans une autre revue -- et perso, en tant que référé, je ne fais pas du plus mauvais travail pour plos one que pour une autre revue. Simplement, je ne juge pas le fond), qui a permis de bien améliorer l'article, et celui-ci est maintenant dispo sur Plos one (http://journals.plos.org/plosone/article?id=10.1371/journal.pone.0121689). Et hormis Plos One, quelle revue acceptera ce type de résultats qui n'apporte rien d'un point de vue théorie écologique ou recommandation de gestion?
Il y avait eu un débat intéressant sur Plos One dans les commentaires d'un article de Dynamic Ecology (https://dynamicecology.wordpress.com/2013/01/11/is-using-detection-probabilities-a-case-of-statistical-machismo/): Eric Larson notait "I view one service of that journal as being a good outlet for response or rebuttal papers that are (hopefully) technically sound, but may not get a fair review at specialist or society journals owing to entrenched interests or cultural drift within particular fields". En réponse à ce commentaire, Jeremy Fox résumait bien cette opinion que je fais mienne au sujet de Plos One: "They publish a lot of very boring stuff. But they also publish some very interesting, provocative stuff that likely had a rough ride at selective journals for being too unconventional."
Donc, pour répondre aux questions posées:
1. Comment la communauté des reviewers peut répondre aux méga-revues ?
De la même façon qu'aux micro-reviews: ils peuvent refuser si le nombre de demandes est trop important. Là, je ne vois pas où est le pb, si je reçois 30 demandes de review de chez plos one, je vais pas toutes les accepter! Les reviewers ne sont pas bêtes, ils savent très bien résister à la pression (trop bien d'ailleurs, les éditeurs de revues le savent mieux que personne, vue la difficulté qu'ils ont à trouver des reviewers!); les reviewers cherchent en général à diversifier leur expertise.
2. Comment les scientifiques managent et lisent ces pages publiées qui augmentent ?
En ce qui me concerne, de la même façon que je lis ce blog: par mon aggrégateur de flux qui m'indique quand un article sort sur un sujet qui m'intéresse. Et plos one n'est pas 1/10 aussi productif que les serveurs de preprint type arxiv (pour infos: une 40aine d'articles archivés par jour)!
3. Des auteurs sont tentés par ces revues, mais pour quel impact de leur recherche ? Est-ce que leurs articles sont remarqués ?
En ce qui me concerne, j'ai déjà décrit plus haut ce qui me poussait à publier dans plos one. Et aujourd'hui, la diffusion d'un article se fait aussi par d'autres moyens (messages sur les listes, réseaux sociaux -- researchgate, etc.). Et voir plus haut les commentaires de Dynamic Ecology.
4. Est-ce que l'objectif de faire de la bonne science pour les financeurs doit être dilué par la course aux 'metrics' ?
Non. Quel rapport avec Plos One?
5. Est-ce que la communauté scientifique, déjà surchargée, pourra maintenir de hauts standards dans ces conditions ?
J'ai pas mal d'articles de plos one dans ma base biblio, et je ne lis pas plus de conneries dans plos one que dans les autres revues (ce qu'un commentaire de ce blog note également, à juste titre -- et je suis d'accord avec lui: développons les serveurs de pre-print avec commentaires associés! quand on voit tout ce que les matheux en retirent, je ne comprends pas cette réticence des autres domaines!).
6. Comment l'explosion des citations, voire des auto-citations, va mettre en péril les indicateurs existants ?
Ça, perso, je m'en fous, perso je suis pas jugé sur mon H index, ni sur l'impact factor des journaux où je publie XD.
C'est vrai que 70% de taux d'acceptation, ça fait beaucoup, mais ça s'explique: la politique de la revue, c'est de ne pas juger de l'intérêt scientifique d'un article. Seule la qualité scientifique compte. Si l'approche scientifique est correcte, on ne rejettera pas un article qui démontre que le ciel est bleu.
Pour quelqu'un comme moi, c'est important: scientifiquement, ça n'apporte rien de savoir que la densité de blaireau était entre 2 et 8 fois plus importante en Pays d'Auge que dans le Bessin entre 2000 et 2005. Pourtant, on a bien utilisé une approche scientifique pour arriver à cette estimation. Par contre, on a essayé de soumettre un article décrivant cette approche et ces résultats à Ecography, et l'article n'est pas parti aux référés; argument: "vous ne tirez aucune conclusion sur le processus biologique à l'origine des variations de densité", ce qui est vrai. L'article n'a aucun intérêt sur le plan science fondamentale. Pourtant, il a une importance sociale essentielle: on a besoin de ces éléments pour prendre des décisions en matière de gestion de la faune. On m'objectera -- à juste titre -- que ce n'est pas parce qu'un travail a une importance sociale qu'il a sa place dans une revue scientifique. C'est vrai, mais: (i) le travail mené pour cette estimation est un travail scientifique (cf. plus bas pour l'adresse de l'article, que le lecteur se fasse une opinion), (ii) c'est parce qu'il est scientifique qu'il est considéré pour prendre des décisions de gestion. Et donc, parce que l'approche utilisée pour obtenir cette estimation est une approche scientifique, ces éléments ont leur place dans une revue scientifique (en outre, je sors peut-être un peu du débat, mais comme ces résultats sont utilisés pour prendre des décisions de gestion, la validation par les pairs de la démarche utilisée pour l'estimation -- au cœur du processus de publication scientifique -- est précisément ce qui permet de calmer le jeu quand les conflits sociaux éclatent entre différentes parties, lesquelles n'hésitent pas à taxer les auteurs de "collusion avec l'ennemi" autrement: on est toujours suspect de fraude dans ce type de discussion lorsque les résultats ne vont pas dans le sens espéré!).
Et c'est là que Plos one est intéressant: on l'a soumis chez eux, on a eu une review de qualité (c'est là que je ne suis pas d'accord avec le "peer-viewed": les référés n'étaient pas plus complaisants que dans une autre revue -- et perso, en tant que référé, je ne fais pas du plus mauvais travail pour plos one que pour une autre revue. Simplement, je ne juge pas le fond), qui a permis de bien améliorer l'article, et celui-ci est maintenant dispo sur Plos one (http://journals.plos.org/plosone/article?id=10.1371/journal.pone.0121689). Et hormis Plos One, quelle revue acceptera ce type de résultats qui n'apporte rien d'un point de vue théorie écologique ou recommandation de gestion?
Il y avait eu un débat intéressant sur Plos One dans les commentaires d'un article de Dynamic Ecology (https://dynamicecology.wordpress.com/2013/01/11/is-using-detection-probabilities-a-case-of-statistical-machismo/): Eric Larson notait "I view one service of that journal as being a good outlet for response or rebuttal papers that are (hopefully) technically sound, but may not get a fair review at specialist or society journals owing to entrenched interests or cultural drift within particular fields". En réponse à ce commentaire, Jeremy Fox résumait bien cette opinion que je fais mienne au sujet de Plos One: "They publish a lot of very boring stuff. But they also publish some very interesting, provocative stuff that likely had a rough ride at selective journals for being too unconventional."
Donc, pour répondre aux questions posées:
1. Comment la communauté des reviewers peut répondre aux méga-revues ?
De la même façon qu'aux micro-reviews: ils peuvent refuser si le nombre de demandes est trop important. Là, je ne vois pas où est le pb, si je reçois 30 demandes de review de chez plos one, je vais pas toutes les accepter! Les reviewers ne sont pas bêtes, ils savent très bien résister à la pression (trop bien d'ailleurs, les éditeurs de revues le savent mieux que personne, vue la difficulté qu'ils ont à trouver des reviewers!); les reviewers cherchent en général à diversifier leur expertise.
2. Comment les scientifiques managent et lisent ces pages publiées qui augmentent ?
En ce qui me concerne, de la même façon que je lis ce blog: par mon aggrégateur de flux qui m'indique quand un article sort sur un sujet qui m'intéresse. Et plos one n'est pas 1/10 aussi productif que les serveurs de preprint type arxiv (pour infos: une 40aine d'articles archivés par jour)!
3. Des auteurs sont tentés par ces revues, mais pour quel impact de leur recherche ? Est-ce que leurs articles sont remarqués ?
En ce qui me concerne, j'ai déjà décrit plus haut ce qui me poussait à publier dans plos one. Et aujourd'hui, la diffusion d'un article se fait aussi par d'autres moyens (messages sur les listes, réseaux sociaux -- researchgate, etc.). Et voir plus haut les commentaires de Dynamic Ecology.
4. Est-ce que l'objectif de faire de la bonne science pour les financeurs doit être dilué par la course aux 'metrics' ?
Non. Quel rapport avec Plos One?
5. Est-ce que la communauté scientifique, déjà surchargée, pourra maintenir de hauts standards dans ces conditions ?
J'ai pas mal d'articles de plos one dans ma base biblio, et je ne lis pas plus de conneries dans plos one que dans les autres revues (ce qu'un commentaire de ce blog note également, à juste titre -- et je suis d'accord avec lui: développons les serveurs de pre-print avec commentaires associés! quand on voit tout ce que les matheux en retirent, je ne comprends pas cette réticence des autres domaines!).
6. Comment l'explosion des citations, voire des auto-citations, va mettre en péril les indicateurs existants ?
Ça, perso, je m'en fous, perso je suis pas jugé sur mon H index, ni sur l'impact factor des journaux où je publie XD.
Très bon article.
J'aime bien: "My best analogy is that they are trying to use a bathroom scale to weigh a feather—and the feather is resting loosely in the pouch of a kangaroo that is vigorously jumping up and down."
Je me la garde sous le coude.
Je me la garde sous le coude.
Intéressant, mais pas sûr d'être 100% d'accord avec lui. Quand on travaille sur un sujet mal connu dans une certaine communauté (e.g. analyses factorielles, mal connues chez les anglo-saxons), ça peut être pas mal de rappeler qu'on se place dans un domaine que le lecteur ne connaît pas forcément, et qu'on n'est pas le seul, et qu'il y a d'autres personnes qui travaillent sur la question et donc toute une théorie dont le lecteur ne connaît pas forcément l'existence. Certes, ce n'est pas le fait que beaucoup de gens travaillent dessus qui motivent l'étude, ce n'est pas l'effet de mode qui motive l'étude, mais c'est quand même un point à noter à mon avis, dans certains cas, de dire que "many people have been working on the topic". Au cas par cas, bien sûr, je comprends les arguments du bonhomme.
Par ailleurs, je ne suis pas d'accord avec lui quand il dit que notre boulot n'est pas de résoudre les controverses. Qui dit controverse dit désaccord sur la vision du monde. Résoudre une controverse est en soi une bonne motivation: elle vise à unifier les points de vue... AMHA.
Par ailleurs, je ne suis pas d'accord avec lui quand il dit que notre boulot n'est pas de résoudre les controverses. Qui dit controverse dit désaccord sur la vision du monde. Résoudre une controverse est en soi une bonne motivation: elle vise à unifier les points de vue... AMHA.
Voici l'éditorial en questiion...
La revue Nature est formelle : le changement climatique pourrait favoriser le retour de certaines espèces qu’on croyait éteintes, voire n’ayant jamais existé!
(via Nirmala)
(via Nirmala)
Sur la nécessité de sortir des papiers vulgarisés.
Plein d'infos intéressantes. En résumé, les histoires d'auto-plagiat ne sont pas si simples à gérer. Par exemple, quand on a une étude à long terme, le M&M est souvent identique d'un papier à l'autre (description de study area, data collection), et ce n'est pas nécessairement une mauvaise chose. Parfois, on a des études qui vont être répétées d'une zone à l'autre, d'une année à l'autre. Parfois, il peut être intéressant de traduire une étude dans un langage local pour faciliter la diffusion des résultats. Et une vision stricte implique ici qu'il s'agit d'auto-plagiat. Du coup, faut pas être trop strict... au final, contacter l'éditeur.
Au passage, on apprend que la Wildlife Society refuse les archivages à ArXiv (et autres serveurs de pre-print), c'est considéré comme une double soumission...
Au passage, on apprend que la Wildlife Society refuse les archivages à ArXiv (et autres serveurs de pre-print), c'est considéré comme une double soumission...
J'ai bien rigolé. Ya même moyen de télécharger le pdf.
C'est TRÈS intéressant!
Faute d'un stockage à long terme, les données scientifiques se perdent à un rythme de 17% par an!
Comme quoi, réfléchir aux bases de données, hein...
Faute d'un stockage à long terme, les données scientifiques se perdent à un rythme de 17% par an!
Comme quoi, réfléchir aux bases de données, hein...
Ben décidément, ya des publis intéressantes qui sortent aujourd'hui! En résumé, selon les auteurs, 5 éléments clés à développer:
1. Pensée créative au sujet de la donnée: être capable de modifier la forme de la donnée. Ce que j'appellerais des compétences à établir la donnée.
2. Capacité à gérer des données de différentes tailles (concepts de bases de données, et concepts informatiques associés)
3. Compétences dans un langage de programmation stat (R, python, julia)
4. Apprendre à manipuler des gros jeux de données bien merdiques, pour lesquels il n'y a aucun but ou méthode stat spécifique
5. Un éthos concernant la reproductibilité.
L'article tourne autour de R, de markdown, et du package dplyr qui est décrit dans le détail (faut vraiment que je me mette à dplyr).
Pas mal de discussion autour de la notion de data management, et sur l'importance de maîtriser le SQL.
1. Pensée créative au sujet de la donnée: être capable de modifier la forme de la donnée. Ce que j'appellerais des compétences à établir la donnée.
2. Capacité à gérer des données de différentes tailles (concepts de bases de données, et concepts informatiques associés)
3. Compétences dans un langage de programmation stat (R, python, julia)
4. Apprendre à manipuler des gros jeux de données bien merdiques, pour lesquels il n'y a aucun but ou méthode stat spécifique
5. Un éthos concernant la reproductibilité.
L'article tourne autour de R, de markdown, et du package dplyr qui est décrit dans le détail (faut vraiment que je me mette à dplyr).
Pas mal de discussion autour de la notion de data management, et sur l'importance de maîtriser le SQL.
Intéressant. Une étude sur près de 400 groupes de recherche. Plus le groupe est gros, et plus le nombre de publis est important. Le PI contribue 5 fois plus que les autres membres du groupes. Un post-doc est trois fois plus productif qu'un thésard. Le PI est le facteur déterminant qui va jouer sur les impact factors des revues et sur le nombre de citations du groupe.
Bon, m'a l'air assez descriptif comme étude, gaffe aux inférences hasardeuses (et aux facteurs confondants). Mais c'est quand même intéressant.
Bon, m'a l'air assez descriptif comme étude, gaffe aux inférences hasardeuses (et aux facteurs confondants). Mais c'est quand même intéressant.
Ben putain, c'est super impressionnant: la 1.5 milliards de pixels de résolution pour la photo la plus fine jamais prise de la galaxie d'andromède.
Le zoom poussé à fond, on réalise vraiment le nombre d'étoiles présentes dans la galaxie...
Bluffant
Le zoom poussé à fond, on réalise vraiment le nombre d'étoiles présentes dans la galaxie...
Bluffant
Une histoire de la data science dans le milieu des affaires. À noter le point sur lequel tout le monde s'accorde, les pour comme les contre:
"there’s no clear definition of data science. (...) there are as yet no standards for data science curriculum content"
OK. Bon ben c'est quand même un peu éloigné de mes thématiques.
Je ne sais pas si je vais poursuivre cette veille.
"there’s no clear definition of data science. (...) there are as yet no standards for data science curriculum content"
OK. Bon ben c'est quand même un peu éloigné de mes thématiques.
Je ne sais pas si je vais poursuivre cette veille.
By "Data Science", we mean almost everything that has something to do with data: Collecting, analyzing, modeling...... yet the most important part is its applications --- all sorts of applications. (...)
The Journal of Data Science publishes research works on a wide range of topics that involving understanding and making effective use of field data --- i.e., all aspects of applied statistics. We prefer applied research and emphasis is on the relevance of the underlying problem rather than pure mathematical depth. We prefer papers with solid applications and real cases. Detailed technical proof, particularly those that push to the extreme, is not required. The papers published in the Journal of Data Science will cover a wide range of spectrum, as can be seen from the affiliations of the members of our editorial board.
La distinction avec la statistique appliquée est quand même fine. "Data science" me paraît être un nouveau terme appliqué à un métier très ancien. Ce qui colle assez bien avec l'article "fondateur" de Cleveland. C'est en fait un point de vue sur ce métier, et pas un nouveau métier. Tout comme le triangle de la biométrie est la vision lyonnaise de la biométrie, mais que l'école lyonnaise n'en est pas l'inventrice.
Cela dit l'article de Cleveland est très intéressant, et souligne, à travers ce concept de data science, un concept de statistique appliquée assez proche de celui de biométrie à l'école lyonnaise. J'ai l'impression que ce terme de data science est à la statistique appliquée ce que le triangle de la biométrie est à la biométrie: un point de vue sur la façon dont il faudrait l'étudier, l'utiliser, etc. Comme on le voit ici, ça couvre aussi l'échantillonnage ("collecting"), mais c'est surtout centré sur la donnée, incluant également et surtout les données dont on n'a pas contrôlé la collecte (type de données souvent délaissé par la stat théorique).
Je commence à y voir plus clair.
Edit: oui, en y réfléchissant, j'en reviens à ma première impression: la data science est à la science ce que la biométrie est à la biologie. On ne peut pas appeler ça de la statistique, la statistique est une branche des mathématiques. Appeler ça "statistiques appliquées" a trop tendance à mettre de côté la "subject matter" pour le centrer sur le côté math. Et à ignorer le côté informatique. Ce que l'école lyonnaise appelle la biométrie serait de la "data science" appliquée à la biologie. Donc, retour au point de départ. La meilleure description est donc donnée ici: http://learnitdaily.com/what-is-a-data-scientist/
The Journal of Data Science publishes research works on a wide range of topics that involving understanding and making effective use of field data --- i.e., all aspects of applied statistics. We prefer applied research and emphasis is on the relevance of the underlying problem rather than pure mathematical depth. We prefer papers with solid applications and real cases. Detailed technical proof, particularly those that push to the extreme, is not required. The papers published in the Journal of Data Science will cover a wide range of spectrum, as can be seen from the affiliations of the members of our editorial board.
La distinction avec la statistique appliquée est quand même fine. "Data science" me paraît être un nouveau terme appliqué à un métier très ancien. Ce qui colle assez bien avec l'article "fondateur" de Cleveland. C'est en fait un point de vue sur ce métier, et pas un nouveau métier. Tout comme le triangle de la biométrie est la vision lyonnaise de la biométrie, mais que l'école lyonnaise n'en est pas l'inventrice.
Cela dit l'article de Cleveland est très intéressant, et souligne, à travers ce concept de data science, un concept de statistique appliquée assez proche de celui de biométrie à l'école lyonnaise. J'ai l'impression que ce terme de data science est à la statistique appliquée ce que le triangle de la biométrie est à la biométrie: un point de vue sur la façon dont il faudrait l'étudier, l'utiliser, etc. Comme on le voit ici, ça couvre aussi l'échantillonnage ("collecting"), mais c'est surtout centré sur la donnée, incluant également et surtout les données dont on n'a pas contrôlé la collecte (type de données souvent délaissé par la stat théorique).
Je commence à y voir plus clair.
Edit: oui, en y réfléchissant, j'en reviens à ma première impression: la data science est à la science ce que la biométrie est à la biologie. On ne peut pas appeler ça de la statistique, la statistique est une branche des mathématiques. Appeler ça "statistiques appliquées" a trop tendance à mettre de côté la "subject matter" pour le centrer sur le côté math. Et à ignorer le côté informatique. Ce que l'école lyonnaise appelle la biométrie serait de la "data science" appliquée à la biologie. Donc, retour au point de départ. La meilleure description est donc donnée ici: http://learnitdaily.com/what-is-a-data-scientist/
Encore un post super intéressant de Gelman. Je me rends compte que j'avais mal compris ce concept de data science. Jusque là, je pensais qu'il s'agissait en quelque sorte du métier de biométricien (surtout à cause de post comme celui-ci: http://learnitdaily.com/what-is-a-data-scientist/), et je me rends compte que c'est très très loin d'être la vision dominante.
En fait ce concept de data science est à rapprocher du débat autour des big data. Comme l'indique Gelman:
It’s been said that the most important thing in statistics is not what you do with the data, but, rather, what data you use.
Le concept de data science se rapproche plutôt du premier point. Donc, si je comprends bien, le concept de data science part de la donnée et non du problème. On a un jeu de données, que peut-on en faire?
"the point of data science (as I see it) is to be able to grab the damn data."
En un sens, la question est la même que celle posée par le concept de big data: la donnée existe, on ne peut pas l'ignorer. Après, c'est un peu dérangeant ce côté "oublions la statistique, les statisticiens sont des dinosaures dont on ne doit pas se préoccupper", c'est la porte ouverte à toutes les escroqueries (une collecte opportuniste de la donnée introduit des biais dans l'inférence, c'est inévitable). Mais apparemment, c'est surtout le blogger discuté ici qui a ce comportement, et ça ne reflète pas forcément l'ensemble des data scientists.
Au passage, très bonne remarque:
" So I think it’s important to keep these two things separate: (a) reactions (positive or negative) to the hype, and (b) attitudes about the subject of the hype."
Ce n'est pas parce qu'un sujet est à la mode qu'il est bon. Mais ce n'est pas pour autant qu'il est mauvais.
Bon, d'accord, je lance une veille là-dessus.
En fait ce concept de data science est à rapprocher du débat autour des big data. Comme l'indique Gelman:
It’s been said that the most important thing in statistics is not what you do with the data, but, rather, what data you use.
Le concept de data science se rapproche plutôt du premier point. Donc, si je comprends bien, le concept de data science part de la donnée et non du problème. On a un jeu de données, que peut-on en faire?
"the point of data science (as I see it) is to be able to grab the damn data."
En un sens, la question est la même que celle posée par le concept de big data: la donnée existe, on ne peut pas l'ignorer. Après, c'est un peu dérangeant ce côté "oublions la statistique, les statisticiens sont des dinosaures dont on ne doit pas se préoccupper", c'est la porte ouverte à toutes les escroqueries (une collecte opportuniste de la donnée introduit des biais dans l'inférence, c'est inévitable). Mais apparemment, c'est surtout le blogger discuté ici qui a ce comportement, et ça ne reflète pas forcément l'ensemble des data scientists.
Au passage, très bonne remarque:
" So I think it’s important to keep these two things separate: (a) reactions (positive or negative) to the hype, and (b) attitudes about the subject of the hype."
Ce n'est pas parce qu'un sujet est à la mode qu'il est bon. Mais ce n'est pas pour autant qu'il est mauvais.
Bon, d'accord, je lance une veille là-dessus.
Un article tout ce qu'il y a de plus sérieux contenant une liste des aliments sans produits chimiques.
Marrant
(via le hollandais volant)
Marrant
(via le hollandais volant)