2353 shaares
11 results
tagged
data
Suite au séminaire de la RSS de l'autre jour, ce résumé est paru. Rien de plus dans le résumé, mais tout l'évènement a été filmé. Faudra que je trouve un moment pour regarder ça...
Un jour...
Un jour...
Résumé de la conf d'hier
Liste des outils utilisés par les data scientists. J'en connais pas le 10ème. C'est là que je vois qu'on est fondammentalement sur du boulot d'informaticien.
Garder un œil sur hadoop quand même, un framework java permettant de manipuler du pétaoctet de données. Non que j'en ai l'usage, mais tout le monde en parle en ce moment, et je voudrais suivre ça...
Garder un œil sur hadoop quand même, un framework java permettant de manipuler du pétaoctet de données. Non que j'en ai l'usage, mais tout le monde en parle en ce moment, et je voudrais suivre ça...
Nouvelle formation à l'université de Nice: data scientist = big data...
Le MP3 de la conf est disponible. En résumé, les data scientists reprochent aux statisticiens d'être trop intéressés par la théorie et pas assez aux problèmes. Pour eux, la donnée est le point de départ (on est bien d'accord!). Reproche: "statisticians are naturally conservative and sceptic - cultural shift needed?". Autres tweet: "Statistics is taught bottom up from first principles, rather than top down from the problems as programmers need". "Stats needs to adapt or other disciplines will move into the statisticians space". "People don't want data, they want answers".
Ça permet d'y voir un peu plus clair dans ce débat.
Je comprends mieux (enfin autant qu'avant, en fait) la différence proclamée entre data science (on part des données) et statistique (on part du problème). Par contre, je ne saisis pas bien les différences en termes de pratique. Je crois que sur le fond, les data scientists traitent le problème en informaticien. On développe des algos pour identifier des patterns dans les données. Faut vraiment que je me renseigne sur ces pratiques utilisées en machine learning, trouver un bouquin sur la question, etc.
Ça permet d'y voir un peu plus clair dans ce débat.
Je comprends mieux (enfin autant qu'avant, en fait) la différence proclamée entre data science (on part des données) et statistique (on part du problème). Par contre, je ne saisis pas bien les différences en termes de pratique. Je crois que sur le fond, les data scientists traitent le problème en informaticien. On développe des algos pour identifier des patterns dans les données. Faut vraiment que je me renseigne sur ces pratiques utilisées en machine learning, trouver un bouquin sur la question, etc.
Très intéressant. En vrac "Nobody seems to know exactly what 'data science' is, let alone its almost synonym 'big data'".
"It's now so easy to manipulate vast quantities of data that you don't need to employ a separate statistician, database guy and programmer. You hire someone who can code and do statistics too. This is the data scientist. (...) "
"It's now time for data science as a profession to take stock and ask itself 'what is the core skill set?'. Or further than this, 'is data science a new statistical speciality or even a nascent field in its own right?'."
"It's now so easy to manipulate vast quantities of data that you don't need to employ a separate statistician, database guy and programmer. You hire someone who can code and do statistics too. This is the data scientist. (...) "
"It's now time for data science as a profession to take stock and ask itself 'what is the core skill set?'. Or further than this, 'is data science a new statistical speciality or even a nascent field in its own right?'."
Ben décidément, ya des publis intéressantes qui sortent aujourd'hui! En résumé, selon les auteurs, 5 éléments clés à développer:
1. Pensée créative au sujet de la donnée: être capable de modifier la forme de la donnée. Ce que j'appellerais des compétences à établir la donnée.
2. Capacité à gérer des données de différentes tailles (concepts de bases de données, et concepts informatiques associés)
3. Compétences dans un langage de programmation stat (R, python, julia)
4. Apprendre à manipuler des gros jeux de données bien merdiques, pour lesquels il n'y a aucun but ou méthode stat spécifique
5. Un éthos concernant la reproductibilité.
L'article tourne autour de R, de markdown, et du package dplyr qui est décrit dans le détail (faut vraiment que je me mette à dplyr).
Pas mal de discussion autour de la notion de data management, et sur l'importance de maîtriser le SQL.
1. Pensée créative au sujet de la donnée: être capable de modifier la forme de la donnée. Ce que j'appellerais des compétences à établir la donnée.
2. Capacité à gérer des données de différentes tailles (concepts de bases de données, et concepts informatiques associés)
3. Compétences dans un langage de programmation stat (R, python, julia)
4. Apprendre à manipuler des gros jeux de données bien merdiques, pour lesquels il n'y a aucun but ou méthode stat spécifique
5. Un éthos concernant la reproductibilité.
L'article tourne autour de R, de markdown, et du package dplyr qui est décrit dans le détail (faut vraiment que je me mette à dplyr).
Pas mal de discussion autour de la notion de data management, et sur l'importance de maîtriser le SQL.
Une histoire de la data science dans le milieu des affaires. À noter le point sur lequel tout le monde s'accorde, les pour comme les contre:
"there’s no clear definition of data science. (...) there are as yet no standards for data science curriculum content"
OK. Bon ben c'est quand même un peu éloigné de mes thématiques.
Je ne sais pas si je vais poursuivre cette veille.
"there’s no clear definition of data science. (...) there are as yet no standards for data science curriculum content"
OK. Bon ben c'est quand même un peu éloigné de mes thématiques.
Je ne sais pas si je vais poursuivre cette veille.
By "Data Science", we mean almost everything that has something to do with data: Collecting, analyzing, modeling...... yet the most important part is its applications --- all sorts of applications. (...)
The Journal of Data Science publishes research works on a wide range of topics that involving understanding and making effective use of field data --- i.e., all aspects of applied statistics. We prefer applied research and emphasis is on the relevance of the underlying problem rather than pure mathematical depth. We prefer papers with solid applications and real cases. Detailed technical proof, particularly those that push to the extreme, is not required. The papers published in the Journal of Data Science will cover a wide range of spectrum, as can be seen from the affiliations of the members of our editorial board.
La distinction avec la statistique appliquée est quand même fine. "Data science" me paraît être un nouveau terme appliqué à un métier très ancien. Ce qui colle assez bien avec l'article "fondateur" de Cleveland. C'est en fait un point de vue sur ce métier, et pas un nouveau métier. Tout comme le triangle de la biométrie est la vision lyonnaise de la biométrie, mais que l'école lyonnaise n'en est pas l'inventrice.
Cela dit l'article de Cleveland est très intéressant, et souligne, à travers ce concept de data science, un concept de statistique appliquée assez proche de celui de biométrie à l'école lyonnaise. J'ai l'impression que ce terme de data science est à la statistique appliquée ce que le triangle de la biométrie est à la biométrie: un point de vue sur la façon dont il faudrait l'étudier, l'utiliser, etc. Comme on le voit ici, ça couvre aussi l'échantillonnage ("collecting"), mais c'est surtout centré sur la donnée, incluant également et surtout les données dont on n'a pas contrôlé la collecte (type de données souvent délaissé par la stat théorique).
Je commence à y voir plus clair.
Edit: oui, en y réfléchissant, j'en reviens à ma première impression: la data science est à la science ce que la biométrie est à la biologie. On ne peut pas appeler ça de la statistique, la statistique est une branche des mathématiques. Appeler ça "statistiques appliquées" a trop tendance à mettre de côté la "subject matter" pour le centrer sur le côté math. Et à ignorer le côté informatique. Ce que l'école lyonnaise appelle la biométrie serait de la "data science" appliquée à la biologie. Donc, retour au point de départ. La meilleure description est donc donnée ici: http://learnitdaily.com/what-is-a-data-scientist/
The Journal of Data Science publishes research works on a wide range of topics that involving understanding and making effective use of field data --- i.e., all aspects of applied statistics. We prefer applied research and emphasis is on the relevance of the underlying problem rather than pure mathematical depth. We prefer papers with solid applications and real cases. Detailed technical proof, particularly those that push to the extreme, is not required. The papers published in the Journal of Data Science will cover a wide range of spectrum, as can be seen from the affiliations of the members of our editorial board.
La distinction avec la statistique appliquée est quand même fine. "Data science" me paraît être un nouveau terme appliqué à un métier très ancien. Ce qui colle assez bien avec l'article "fondateur" de Cleveland. C'est en fait un point de vue sur ce métier, et pas un nouveau métier. Tout comme le triangle de la biométrie est la vision lyonnaise de la biométrie, mais que l'école lyonnaise n'en est pas l'inventrice.
Cela dit l'article de Cleveland est très intéressant, et souligne, à travers ce concept de data science, un concept de statistique appliquée assez proche de celui de biométrie à l'école lyonnaise. J'ai l'impression que ce terme de data science est à la statistique appliquée ce que le triangle de la biométrie est à la biométrie: un point de vue sur la façon dont il faudrait l'étudier, l'utiliser, etc. Comme on le voit ici, ça couvre aussi l'échantillonnage ("collecting"), mais c'est surtout centré sur la donnée, incluant également et surtout les données dont on n'a pas contrôlé la collecte (type de données souvent délaissé par la stat théorique).
Je commence à y voir plus clair.
Edit: oui, en y réfléchissant, j'en reviens à ma première impression: la data science est à la science ce que la biométrie est à la biologie. On ne peut pas appeler ça de la statistique, la statistique est une branche des mathématiques. Appeler ça "statistiques appliquées" a trop tendance à mettre de côté la "subject matter" pour le centrer sur le côté math. Et à ignorer le côté informatique. Ce que l'école lyonnaise appelle la biométrie serait de la "data science" appliquée à la biologie. Donc, retour au point de départ. La meilleure description est donc donnée ici: http://learnitdaily.com/what-is-a-data-scientist/
Encore un post super intéressant de Gelman. Je me rends compte que j'avais mal compris ce concept de data science. Jusque là, je pensais qu'il s'agissait en quelque sorte du métier de biométricien (surtout à cause de post comme celui-ci: http://learnitdaily.com/what-is-a-data-scientist/), et je me rends compte que c'est très très loin d'être la vision dominante.
En fait ce concept de data science est à rapprocher du débat autour des big data. Comme l'indique Gelman:
It’s been said that the most important thing in statistics is not what you do with the data, but, rather, what data you use.
Le concept de data science se rapproche plutôt du premier point. Donc, si je comprends bien, le concept de data science part de la donnée et non du problème. On a un jeu de données, que peut-on en faire?
"the point of data science (as I see it) is to be able to grab the damn data."
En un sens, la question est la même que celle posée par le concept de big data: la donnée existe, on ne peut pas l'ignorer. Après, c'est un peu dérangeant ce côté "oublions la statistique, les statisticiens sont des dinosaures dont on ne doit pas se préoccupper", c'est la porte ouverte à toutes les escroqueries (une collecte opportuniste de la donnée introduit des biais dans l'inférence, c'est inévitable). Mais apparemment, c'est surtout le blogger discuté ici qui a ce comportement, et ça ne reflète pas forcément l'ensemble des data scientists.
Au passage, très bonne remarque:
" So I think it’s important to keep these two things separate: (a) reactions (positive or negative) to the hype, and (b) attitudes about the subject of the hype."
Ce n'est pas parce qu'un sujet est à la mode qu'il est bon. Mais ce n'est pas pour autant qu'il est mauvais.
Bon, d'accord, je lance une veille là-dessus.
En fait ce concept de data science est à rapprocher du débat autour des big data. Comme l'indique Gelman:
It’s been said that the most important thing in statistics is not what you do with the data, but, rather, what data you use.
Le concept de data science se rapproche plutôt du premier point. Donc, si je comprends bien, le concept de data science part de la donnée et non du problème. On a un jeu de données, que peut-on en faire?
"the point of data science (as I see it) is to be able to grab the damn data."
En un sens, la question est la même que celle posée par le concept de big data: la donnée existe, on ne peut pas l'ignorer. Après, c'est un peu dérangeant ce côté "oublions la statistique, les statisticiens sont des dinosaures dont on ne doit pas se préoccupper", c'est la porte ouverte à toutes les escroqueries (une collecte opportuniste de la donnée introduit des biais dans l'inférence, c'est inévitable). Mais apparemment, c'est surtout le blogger discuté ici qui a ce comportement, et ça ne reflète pas forcément l'ensemble des data scientists.
Au passage, très bonne remarque:
" So I think it’s important to keep these two things separate: (a) reactions (positive or negative) to the hype, and (b) attitudes about the subject of the hype."
Ce n'est pas parce qu'un sujet est à la mode qu'il est bon. Mais ce n'est pas pour autant qu'il est mauvais.
Bon, d'accord, je lance une veille là-dessus.
Une organisation pour stocker des données si on recherche un endroit où les déposer pour les rendre accessibles.