2396 shaares
Excellent article. Petit passage également valable pour certains utilisateurs de logiciels: "To answer a single email from a student–either in the form of a long list of questions or just an open-ended plea for help–takes a lot of time. We may respond to the first few emails we get, but as they keep pouring in, we tend to burn out. And the more popular this becomes as a pedagogical tool, the more emails students will be sending to scientists and writers. And that makes people burn out even faster. It doesn’t seem fair to the students for their grade to depend on whether they get a reply from their email. *Even the most polite email may land in the inbox of someone who decided long ago never to respond to such requests*."
(l'emphase est de moi: c'est mon cas)
(l'emphase est de moi: c'est mon cas)
Un joli comparatif comparant R et Python. Avantages et inconvénients de chacun. Sur le long-terme, python pourrait bien passer premier. Pour le moment, on en est encore loin...
Un tutoriel super intéressant sur chroot (via sebsauvage)
tro marran comme il dise dans les commentaire
L'INRIA sceptique sur la loi sur le renseignement...
Oui, je suis assez d'accord. Un diplôme universitaire n'est pas forcément la meilleure preuve de la ténacité d'une personne. Il y a d'autres indicateurs plus pertinents.
Retour d'expérience sur le MOOC biodiversité. Mais j'ai l'impression qu'on ne peut pas visionner les vidéos si l'on ne s'est pas inscrit auparavant. Bon, je vais chercher, mais j'aimerais bien savoir si ces MOOC sont dispos en ligne, genre sur youtube, etc. sans inscription.
Résumé de la conf d'hier
Liste des outils utilisés par les data scientists. J'en connais pas le 10ème. C'est là que je vois qu'on est fondammentalement sur du boulot d'informaticien.
Garder un œil sur hadoop quand même, un framework java permettant de manipuler du pétaoctet de données. Non que j'en ai l'usage, mais tout le monde en parle en ce moment, et je voudrais suivre ça...
Garder un œil sur hadoop quand même, un framework java permettant de manipuler du pétaoctet de données. Non que j'en ai l'usage, mais tout le monde en parle en ce moment, et je voudrais suivre ça...
Il faut toujours se méfier quand un journaliste ou un chargé de com utilise des images à la place de chiffres (un iceberg de la taille du pays de galles au lieu d'en donner la surface réelle). C'est qu'il cherche à faire passer un message, qui n'est jamais neutre (faire peur au lecteur, l'impressionner, etc.).
Nouvelle formation à l'université de Nice: data scientist = big data...
Dans la logique des MOOC dont je parlais hier, ya ça. Yen a des intéressants, à voir.
MEE se propose défenseuse de la technique Delphi... Pas vraiment convaincu, elle a des détracteurs cette technique...
Pour l'élicitation d'avis d'experts, je recommanderais plutôt la lecture de O'Hagan et al. (2006) Uncertain judgements: Eliciting experts' probabilities.
Qui reste à mon avis la meilleure ref sur le sujet aujourd'hui.
Pour l'élicitation d'avis d'experts, je recommanderais plutôt la lecture de O'Hagan et al. (2006) Uncertain judgements: Eliciting experts' probabilities.
Qui reste à mon avis la meilleure ref sur le sujet aujourd'hui.
À lire
À lire absolument. J'ai survolé, ce papier fait la synthèse des méthodes de calcul bayésien, du MCMC à l'ABC. Présentation rapide du particle MCMC (ultra survolé, ils donnent une référence plus complète). Apparemment, les auteurs recommandent l'ABC comme méthode d'avenir. On est bien d'accord...
Creuser quand même cette histoire de particle MCMC...
Creuser quand même cette histoire de particle MCMC...
Science in journalism
Le MP3 de la conf est disponible. En résumé, les data scientists reprochent aux statisticiens d'être trop intéressés par la théorie et pas assez aux problèmes. Pour eux, la donnée est le point de départ (on est bien d'accord!). Reproche: "statisticians are naturally conservative and sceptic - cultural shift needed?". Autres tweet: "Statistics is taught bottom up from first principles, rather than top down from the problems as programmers need". "Stats needs to adapt or other disciplines will move into the statisticians space". "People don't want data, they want answers".
Ça permet d'y voir un peu plus clair dans ce débat.
Je comprends mieux (enfin autant qu'avant, en fait) la différence proclamée entre data science (on part des données) et statistique (on part du problème). Par contre, je ne saisis pas bien les différences en termes de pratique. Je crois que sur le fond, les data scientists traitent le problème en informaticien. On développe des algos pour identifier des patterns dans les données. Faut vraiment que je me renseigne sur ces pratiques utilisées en machine learning, trouver un bouquin sur la question, etc.
Ça permet d'y voir un peu plus clair dans ce débat.
Je comprends mieux (enfin autant qu'avant, en fait) la différence proclamée entre data science (on part des données) et statistique (on part du problème). Par contre, je ne saisis pas bien les différences en termes de pratique. Je crois que sur le fond, les data scientists traitent le problème en informaticien. On développe des algos pour identifier des patterns dans les données. Faut vraiment que je me renseigne sur ces pratiques utilisées en machine learning, trouver un bouquin sur la question, etc.
Yen a des très marrants
à lire
(via hadley wickham). Intéressant: pour mesurer le changement relatif, il est recommandé d'utiliser 100 log(x/y). Le changement relatif mesuré sur une échelle log est la seule mesure symétrique, additive, et normée.