2353 shaares
Ya un papier associé. À relier à la modélisation de très gros jeux de données.
À lire et à garder sous le coude
À lire et à garder sous le coude
En parlant de cartes marrantes, Mathieu m'envoie celle-là.
Vision du monde par les anglais. Marrant
Installing Debian Linux in a VirtualBox Virtual Machine | Open-Source Routing and Network Simulation
Installer debian sur une machine virtuelle...
Encore un post super intéressant de Gelman. Je me rends compte que j'avais mal compris ce concept de data science. Jusque là, je pensais qu'il s'agissait en quelque sorte du métier de biométricien (surtout à cause de post comme celui-ci: http://learnitdaily.com/what-is-a-data-scientist/), et je me rends compte que c'est très très loin d'être la vision dominante.
En fait ce concept de data science est à rapprocher du débat autour des big data. Comme l'indique Gelman:
It’s been said that the most important thing in statistics is not what you do with the data, but, rather, what data you use.
Le concept de data science se rapproche plutôt du premier point. Donc, si je comprends bien, le concept de data science part de la donnée et non du problème. On a un jeu de données, que peut-on en faire?
"the point of data science (as I see it) is to be able to grab the damn data."
En un sens, la question est la même que celle posée par le concept de big data: la donnée existe, on ne peut pas l'ignorer. Après, c'est un peu dérangeant ce côté "oublions la statistique, les statisticiens sont des dinosaures dont on ne doit pas se préoccupper", c'est la porte ouverte à toutes les escroqueries (une collecte opportuniste de la donnée introduit des biais dans l'inférence, c'est inévitable). Mais apparemment, c'est surtout le blogger discuté ici qui a ce comportement, et ça ne reflète pas forcément l'ensemble des data scientists.
Au passage, très bonne remarque:
" So I think it’s important to keep these two things separate: (a) reactions (positive or negative) to the hype, and (b) attitudes about the subject of the hype."
Ce n'est pas parce qu'un sujet est à la mode qu'il est bon. Mais ce n'est pas pour autant qu'il est mauvais.
Bon, d'accord, je lance une veille là-dessus.
En fait ce concept de data science est à rapprocher du débat autour des big data. Comme l'indique Gelman:
It’s been said that the most important thing in statistics is not what you do with the data, but, rather, what data you use.
Le concept de data science se rapproche plutôt du premier point. Donc, si je comprends bien, le concept de data science part de la donnée et non du problème. On a un jeu de données, que peut-on en faire?
"the point of data science (as I see it) is to be able to grab the damn data."
En un sens, la question est la même que celle posée par le concept de big data: la donnée existe, on ne peut pas l'ignorer. Après, c'est un peu dérangeant ce côté "oublions la statistique, les statisticiens sont des dinosaures dont on ne doit pas se préoccupper", c'est la porte ouverte à toutes les escroqueries (une collecte opportuniste de la donnée introduit des biais dans l'inférence, c'est inévitable). Mais apparemment, c'est surtout le blogger discuté ici qui a ce comportement, et ça ne reflète pas forcément l'ensemble des data scientists.
Au passage, très bonne remarque:
" So I think it’s important to keep these two things separate: (a) reactions (positive or negative) to the hype, and (b) attitudes about the subject of the hype."
Ce n'est pas parce qu'un sujet est à la mode qu'il est bon. Mais ce n'est pas pour autant qu'il est mauvais.
Bon, d'accord, je lance une veille là-dessus.
Marrant
Sont bien cons eux quand ils s'y mettent...
Encore un post super intéressant de Gelman. En vrac, dans le texte:
"In general, people are uncomfortable with not knowing and would like to use statistics to create fortresses of certainty in a dangerous, uncertain world. Along with this is an even more extreme attitude, which is not just to deny uncertainty but to deny variation."
"My message there is that sometimes variation itself is the story, but there’s a tendency among researchers to express statements in terms of average"
Dans les commentaires (David Lentini):
"I’ve thought of these conclusions as a sort of “reification of the mean”, in which the investigator creates a mystical uniform population that have the properties of the mean and then examine a representative their mystical population."
"In addition to Tversky and Kahneman, I can recommend Leonard Mlodinow’s book “The Drunkard’s Walk.”"
Va falloir que je me procure ce dernier bouquin, l'a l'air intéressant...
"In general, people are uncomfortable with not knowing and would like to use statistics to create fortresses of certainty in a dangerous, uncertain world. Along with this is an even more extreme attitude, which is not just to deny uncertainty but to deny variation."
"My message there is that sometimes variation itself is the story, but there’s a tendency among researchers to express statements in terms of average"
Dans les commentaires (David Lentini):
"I’ve thought of these conclusions as a sort of “reification of the mean”, in which the investigator creates a mystical uniform population that have the properties of the mean and then examine a representative their mystical population."
"In addition to Tversky and Kahneman, I can recommend Leonard Mlodinow’s book “The Drunkard’s Walk.”"
Va falloir que je me procure ce dernier bouquin, l'a l'air intéressant...
À récupérer et à lire. Les premiers chapitres ont l'air super-intéressant.
Intéressant: une alternative très intéressante au jpeg.
(via sebsauvage)
(via sebsauvage)
Recette de tartiflette. Parce que j'en ai marre de la chercher à chaque fois.
L'article n'est donc pas si sérieux. Mais quand même.
Un article tout ce qu'il y a de plus sérieux contenant une liste des aliments sans produits chimiques.
Marrant
(via le hollandais volant)
Marrant
(via le hollandais volant)
Intéressant, apparemment c'est documenté!
La distance perçue par l'animal lors de ses déplacements ne correspond pas nécessairement à la distance euclidienne. À lire
Ah tiens? à lire un jour.
Un jour.
Un jour.
Apparemment, ce n'est pas si simple: le big data existe qu'on le veuille ou non. Pour le moment, le truc est mobilisé par les informaticiens, mais les stateux devraient aussi s'intéresser à la chose. Pour le moment, la rupture est claire. Mais à l'avenir? "The goal is to prepare members of our profession to collaborate on Big Data problems". On va y venir, on n'y coupera pas...
Comme l'indique l'auteur: "We know statistical thinking—our understanding of modeling, bias, confounding, false discovery, uncertainty, sampling, and design—brings much to the table. We also must be prepared to understand other ways of thinking that are critical in the Age of Big Data and to integrate these with our own expertise and knowledge."
Ça me fait penser aux données GPS et au SIG en écologie: pendant longtemps, ça a été très à la mode, la révolution, on pouvait plus rien faire sans utiliser ça. Ensuite, retour de balancier, comme on savait pas quoi en faire on a commencé à se dire que c'était pas la solution. Et maintenant, des solutions apparaissent, et on se rend compte que ça permet de répondre à certaine question et pas à d'autres... et on devient plus raisonnable
Là, c'est un peut pareil: on a des bouquin du genre: "Big Data: A Revolution That Will Transform How We Live, Work, and Think", tout le monde qui le vend à toutes les sauces, et quand on aura compris qu'on peut faire de la belle merde avec ça, on reviendra à des questions plus raisonnables... mais tout aussi pertinentes.
Bon ben d'accord, je vais lancer une veille là-dessus... à rapprocher de la veille sur les sciences participatives, ce sont les mêmes questions qui se posent!
Comme l'indique l'auteur: "We know statistical thinking—our understanding of modeling, bias, confounding, false discovery, uncertainty, sampling, and design—brings much to the table. We also must be prepared to understand other ways of thinking that are critical in the Age of Big Data and to integrate these with our own expertise and knowledge."
Ça me fait penser aux données GPS et au SIG en écologie: pendant longtemps, ça a été très à la mode, la révolution, on pouvait plus rien faire sans utiliser ça. Ensuite, retour de balancier, comme on savait pas quoi en faire on a commencé à se dire que c'était pas la solution. Et maintenant, des solutions apparaissent, et on se rend compte que ça permet de répondre à certaine question et pas à d'autres... et on devient plus raisonnable
Là, c'est un peut pareil: on a des bouquin du genre: "Big Data: A Revolution That Will Transform How We Live, Work, and Think", tout le monde qui le vend à toutes les sauces, et quand on aura compris qu'on peut faire de la belle merde avec ça, on reviendra à des questions plus raisonnables... mais tout aussi pertinentes.
Bon ben d'accord, je vais lancer une veille là-dessus... à rapprocher de la veille sur les sciences participatives, ce sont les mêmes questions qui se posent!
tutafait: le big data me semble être une pratique masturbatoire pour informaticiens. C'est le genre de verroterie qu'ils vont vendre aux entreprises sans aucun expert de l'analyse de données. Les bases sont mauvaises le résultat est le plus souvent erroné.
Mais bon. Ça se vend alors hein...
Mais bon. Ça se vend alors hein...
Big data...
Oui, c'est du bon sens...
(via le hollandais volant)
(via le hollandais volant)