2353 shaares
tro marran comme il dise dans les commentaire
L'INRIA sceptique sur la loi sur le renseignement...
Oui, je suis assez d'accord. Un diplôme universitaire n'est pas forcément la meilleure preuve de la ténacité d'une personne. Il y a d'autres indicateurs plus pertinents.
Retour d'expérience sur le MOOC biodiversité. Mais j'ai l'impression qu'on ne peut pas visionner les vidéos si l'on ne s'est pas inscrit auparavant. Bon, je vais chercher, mais j'aimerais bien savoir si ces MOOC sont dispos en ligne, genre sur youtube, etc. sans inscription.
Résumé de la conf d'hier
Liste des outils utilisés par les data scientists. J'en connais pas le 10ème. C'est là que je vois qu'on est fondammentalement sur du boulot d'informaticien.
Garder un œil sur hadoop quand même, un framework java permettant de manipuler du pétaoctet de données. Non que j'en ai l'usage, mais tout le monde en parle en ce moment, et je voudrais suivre ça...
Garder un œil sur hadoop quand même, un framework java permettant de manipuler du pétaoctet de données. Non que j'en ai l'usage, mais tout le monde en parle en ce moment, et je voudrais suivre ça...
Il faut toujours se méfier quand un journaliste ou un chargé de com utilise des images à la place de chiffres (un iceberg de la taille du pays de galles au lieu d'en donner la surface réelle). C'est qu'il cherche à faire passer un message, qui n'est jamais neutre (faire peur au lecteur, l'impressionner, etc.).
Nouvelle formation à l'université de Nice: data scientist = big data...
Dans la logique des MOOC dont je parlais hier, ya ça. Yen a des intéressants, à voir.
MEE se propose défenseuse de la technique Delphi... Pas vraiment convaincu, elle a des détracteurs cette technique...
Pour l'élicitation d'avis d'experts, je recommanderais plutôt la lecture de O'Hagan et al. (2006) Uncertain judgements: Eliciting experts' probabilities.
Qui reste à mon avis la meilleure ref sur le sujet aujourd'hui.
Pour l'élicitation d'avis d'experts, je recommanderais plutôt la lecture de O'Hagan et al. (2006) Uncertain judgements: Eliciting experts' probabilities.
Qui reste à mon avis la meilleure ref sur le sujet aujourd'hui.
À lire
À lire absolument. J'ai survolé, ce papier fait la synthèse des méthodes de calcul bayésien, du MCMC à l'ABC. Présentation rapide du particle MCMC (ultra survolé, ils donnent une référence plus complète). Apparemment, les auteurs recommandent l'ABC comme méthode d'avenir. On est bien d'accord...
Creuser quand même cette histoire de particle MCMC...
Creuser quand même cette histoire de particle MCMC...
Science in journalism
Le MP3 de la conf est disponible. En résumé, les data scientists reprochent aux statisticiens d'être trop intéressés par la théorie et pas assez aux problèmes. Pour eux, la donnée est le point de départ (on est bien d'accord!). Reproche: "statisticians are naturally conservative and sceptic - cultural shift needed?". Autres tweet: "Statistics is taught bottom up from first principles, rather than top down from the problems as programmers need". "Stats needs to adapt or other disciplines will move into the statisticians space". "People don't want data, they want answers".
Ça permet d'y voir un peu plus clair dans ce débat.
Je comprends mieux (enfin autant qu'avant, en fait) la différence proclamée entre data science (on part des données) et statistique (on part du problème). Par contre, je ne saisis pas bien les différences en termes de pratique. Je crois que sur le fond, les data scientists traitent le problème en informaticien. On développe des algos pour identifier des patterns dans les données. Faut vraiment que je me renseigne sur ces pratiques utilisées en machine learning, trouver un bouquin sur la question, etc.
Ça permet d'y voir un peu plus clair dans ce débat.
Je comprends mieux (enfin autant qu'avant, en fait) la différence proclamée entre data science (on part des données) et statistique (on part du problème). Par contre, je ne saisis pas bien les différences en termes de pratique. Je crois que sur le fond, les data scientists traitent le problème en informaticien. On développe des algos pour identifier des patterns dans les données. Faut vraiment que je me renseigne sur ces pratiques utilisées en machine learning, trouver un bouquin sur la question, etc.
Yen a des très marrants
à lire
(via hadley wickham). Intéressant: pour mesurer le changement relatif, il est recommandé d'utiliser 100 log(x/y). Le changement relatif mesuré sur une échelle log est la seule mesure symétrique, additive, et normée.
Ça m'intéresse beaucoup!
"There are costs for multimodel inferences, including the coding, computing, and summarization time on each model. When cost is included, a reasonable strategy may often be iterating on a single model."
A lire...
Edit: Ok, le take-home message est compris dans le titre. Globalement, les auteurs font un tour des différentes utilisations possibles des modèles, pour indiquer que l'inférence multimodèle n'est pas toujours le meilleur choix. Ils attaquent sans citer explicitement la vision de Burnham et Anderson (2002) qui attaquent eux-même la vision qu'il existe des modèles vrais. Pas explicitement, et comme disait je sais plus qui, le silence est ici assourdissant. Par exemple, ils vont attaquer l'idée que l'itération sur un modèle est du data dredging sans citer B&A alors que ce sont eux qui ont introduit cette vision en écologie. L'attaque se fait sur plusieurs fronts:
===
Les "vrais" modèles:
Ver Hoef et Boveng soulignent qu'il y a des situations dans lesquelles les vrais modèles existent: (i) le design based [les pontes de la théorie de l'échantillonnage désapprouveraient: ce n'est pas un modèle], (ii) la distribution binomiale déduite de l'approche de de Finetti (la loi binomiale est déduite de l'échangeabilité des évènements, mais du coup, certains désapprouveraient l'idée que du coup, la loi binomiale est ici un modèle, précisément parce que sa description de la situation est exacte), (iii) les approches expérimentales (version expérimentation de (i), même remarque), (iv) l'aggrégation de processus naturels étudiés à une échelle plus large (i.e. lorsque l'on travaille sur un taux de survie, on travaille sur une quantité objectivement mesurable sur une population -- que cette quantité ait un sens à l'échelle individuelle est une autre question). Citation intéressante: "For example, carried out to the limit, the only true model is one where the position uand velocity of every particle in the universe is known, and all of the rules that govern particle interactions are known. Only then could we truly predict everything that will happen. Operationally, at least, nature is not studied in that way. (...) Going back to the population model, details in nature are gained by making survival a function of predator abundance, climate variables, competition, disease, etc., but each of those variables is an average of other processes. As we disaggregate and allow details of nature to emerge, the certainty on the correct model decreases. Here, models are used to capture average characteristics, generally in the expectation or mean structure of the model, and the remaining details are absorbed in random error".
===
Les fonctions de perte:
On construit un modèle pour atteindre un objectif. Un modèle sera plus ou moins bon en fonction de l'objectif. Ils donnent un exemple et notent "Leaving model selection to a data-driven method that is attempting to get close to some unspecified true model, or using model-averaging, would have been a poor choice in their study; the best model was chosen based on the objective." Le choix du "meilleur modèle", donc la définition de "meilleur" peut se faire par la définition d'une fonction de perte. Le *risque d'estimation* [en fréquentiste] est alors défini comme l'intégrale sur tous les jeux de données possibles de cette fonction de perte multipliée par la vraisemblance de ces données (donc, espérance de la perte). L'AIC est une estimation du risque d'estimation en s'appuyant sur la perte log(f(y)/g(y|theta)), avec f(y) la réalité, et g(y|theta) le modèle.
Quand la fonction de perte change, l'estimateur optimal aussi. AIC, TIC, BIC, etc. sont tous de mesures correspondant à différentes fonctions de pertes; dans ce contexte d'une modélisation basée sur les objectifs: "some loss functions may meet objectives better than others". À noter aussi: les matheux parlent souvent du risque d'estimation dans ce contexte, je comprends mieux pourquoi maintenant.
===
Le cœur de l'article:
Les auteurs commencent par souligner l'importance des "model diagnostics" (examen des résidus, etc.). Que l'on fasse du single model ou du multimodel, on doit passer par là. C'est cet examen qui permet de valider ou invalider un modèle. Les auteurs soulignent que l'inférence multimodèle ne peut pas permettre de faire du diagnostic pour tous les modèles, on le fera uniquement pour le modèle sélectionné... Et si l'on se rend compte qu'il y a des soucis, il faudra de toutes façons le modifier. Dans la discussion "The analyst should consider the importance of model diagnostics for discovering new features in the data in comparison to maintaining global inference probabilities".
Il y a des coûts à l'inférence multimodèle: on doit restreindre le nombre de modèles. On est limité par le temps d'ajustement des modèles qui peut être long (en particulier lorsque le modèle est ajusté par MCMC). "We maintain that iterating on a single model is a viable alternative to multimodel inference."
Pb: souvent taxé de "data dredging". Mais les auteurs soulignent: "At some level, all inference is conditional". On se place dans le cas de figure: une fois qu'on arrive au modèle final, une fois qu'on a fini de le construire, on le définit comme la réalité, et c'est conditionnellement qu'on va faire nos inférences. La dernière phrase avant la discussion:
"The whole issue of conditional knowledge underlies much confusion about statistical inference. The key to getting beyond confirmatory modeling is to condition on the chosen model. After exploring the data and developing a model, all of the inference is conditional on that model".
Question centrale posée en discussion: "Is the investigor willing to live with probabilities that are conditional on a single model?".
La conclusion: "We argue that iterative improvements of a single model form a viable and straightforward alternative to multimodel inference. (...) The ultimate goal is to prvide better insight and predictions, and to broaden the scope of inference. Using model-checking and iterating on a single model takes less time to find flaws in the current model, to discover the reasons for lack of fit, and then to modify the model or adopt a new one. Multimodel inference takes longer to fit all models, may impede model evaluation, and makes discovery of new patterns more difficult."
Bon papier.
"There are costs for multimodel inferences, including the coding, computing, and summarization time on each model. When cost is included, a reasonable strategy may often be iterating on a single model."
A lire...
Edit: Ok, le take-home message est compris dans le titre. Globalement, les auteurs font un tour des différentes utilisations possibles des modèles, pour indiquer que l'inférence multimodèle n'est pas toujours le meilleur choix. Ils attaquent sans citer explicitement la vision de Burnham et Anderson (2002) qui attaquent eux-même la vision qu'il existe des modèles vrais. Pas explicitement, et comme disait je sais plus qui, le silence est ici assourdissant. Par exemple, ils vont attaquer l'idée que l'itération sur un modèle est du data dredging sans citer B&A alors que ce sont eux qui ont introduit cette vision en écologie. L'attaque se fait sur plusieurs fronts:
===
Les "vrais" modèles:
Ver Hoef et Boveng soulignent qu'il y a des situations dans lesquelles les vrais modèles existent: (i) le design based [les pontes de la théorie de l'échantillonnage désapprouveraient: ce n'est pas un modèle], (ii) la distribution binomiale déduite de l'approche de de Finetti (la loi binomiale est déduite de l'échangeabilité des évènements, mais du coup, certains désapprouveraient l'idée que du coup, la loi binomiale est ici un modèle, précisément parce que sa description de la situation est exacte), (iii) les approches expérimentales (version expérimentation de (i), même remarque), (iv) l'aggrégation de processus naturels étudiés à une échelle plus large (i.e. lorsque l'on travaille sur un taux de survie, on travaille sur une quantité objectivement mesurable sur une population -- que cette quantité ait un sens à l'échelle individuelle est une autre question). Citation intéressante: "For example, carried out to the limit, the only true model is one where the position uand velocity of every particle in the universe is known, and all of the rules that govern particle interactions are known. Only then could we truly predict everything that will happen. Operationally, at least, nature is not studied in that way. (...) Going back to the population model, details in nature are gained by making survival a function of predator abundance, climate variables, competition, disease, etc., but each of those variables is an average of other processes. As we disaggregate and allow details of nature to emerge, the certainty on the correct model decreases. Here, models are used to capture average characteristics, generally in the expectation or mean structure of the model, and the remaining details are absorbed in random error".
===
Les fonctions de perte:
On construit un modèle pour atteindre un objectif. Un modèle sera plus ou moins bon en fonction de l'objectif. Ils donnent un exemple et notent "Leaving model selection to a data-driven method that is attempting to get close to some unspecified true model, or using model-averaging, would have been a poor choice in their study; the best model was chosen based on the objective." Le choix du "meilleur modèle", donc la définition de "meilleur" peut se faire par la définition d'une fonction de perte. Le *risque d'estimation* [en fréquentiste] est alors défini comme l'intégrale sur tous les jeux de données possibles de cette fonction de perte multipliée par la vraisemblance de ces données (donc, espérance de la perte). L'AIC est une estimation du risque d'estimation en s'appuyant sur la perte log(f(y)/g(y|theta)), avec f(y) la réalité, et g(y|theta) le modèle.
Quand la fonction de perte change, l'estimateur optimal aussi. AIC, TIC, BIC, etc. sont tous de mesures correspondant à différentes fonctions de pertes; dans ce contexte d'une modélisation basée sur les objectifs: "some loss functions may meet objectives better than others". À noter aussi: les matheux parlent souvent du risque d'estimation dans ce contexte, je comprends mieux pourquoi maintenant.
===
Le cœur de l'article:
Les auteurs commencent par souligner l'importance des "model diagnostics" (examen des résidus, etc.). Que l'on fasse du single model ou du multimodel, on doit passer par là. C'est cet examen qui permet de valider ou invalider un modèle. Les auteurs soulignent que l'inférence multimodèle ne peut pas permettre de faire du diagnostic pour tous les modèles, on le fera uniquement pour le modèle sélectionné... Et si l'on se rend compte qu'il y a des soucis, il faudra de toutes façons le modifier. Dans la discussion "The analyst should consider the importance of model diagnostics for discovering new features in the data in comparison to maintaining global inference probabilities".
Il y a des coûts à l'inférence multimodèle: on doit restreindre le nombre de modèles. On est limité par le temps d'ajustement des modèles qui peut être long (en particulier lorsque le modèle est ajusté par MCMC). "We maintain that iterating on a single model is a viable alternative to multimodel inference."
Pb: souvent taxé de "data dredging". Mais les auteurs soulignent: "At some level, all inference is conditional". On se place dans le cas de figure: une fois qu'on arrive au modèle final, une fois qu'on a fini de le construire, on le définit comme la réalité, et c'est conditionnellement qu'on va faire nos inférences. La dernière phrase avant la discussion:
"The whole issue of conditional knowledge underlies much confusion about statistical inference. The key to getting beyond confirmatory modeling is to condition on the chosen model. After exploring the data and developing a model, all of the inference is conditional on that model".
Question centrale posée en discussion: "Is the investigor willing to live with probabilities that are conditional on a single model?".
La conclusion: "We argue that iterative improvements of a single model form a viable and straightforward alternative to multimodel inference. (...) The ultimate goal is to prvide better insight and predictions, and to broaden the scope of inference. Using model-checking and iterating on a single model takes less time to find flaws in the current model, to discover the reasons for lack of fit, and then to modify the model or adopt a new one. Multimodel inference takes longer to fit all models, may impede model evaluation, and makes discovery of new patterns more difficult."
Bon papier.
Les MOOC, cours massifs en différentes matières disponibles en lignes, avec cours, exos, etc. se développent de plus en plus.
On vit vraiment une époque formidable, où tout le monde peut se former à tous les sujets à condition d'y investir suffisamment de temps...
Faudra que je regarde ce que ça donne en stats...
On vit vraiment une époque formidable, où tout le monde peut se former à tous les sujets à condition d'y investir suffisamment de temps...
Faudra que je regarde ce que ça donne en stats...
Exploration de séquence sous R. M'a l'air pas mal...