2344 shaares
442 results
tagged
stats
Intéressant. Via Mathieu.
À lire
Une approche exploratoire pour jeudi de données hautement multidimensionnel. Faut que je l'essaie...
À lire
La magnitude des effets mis en évidence en écologie serait très souvent largement surestimée. Ya un article à lire...
Intéressant : une explication ultra-intuitive de ce qu'est un qqplot de la loi normale. Je galère toujours à expliquer ça aux collègues, et l'explication ici est limpide. On remplit deux vases d'une certaine forme (dont l'un ayant une forme gaussienne) avec de l'eau versée à un certain débit, et on trace la hauteur du niveau d'eau dans le deuxième vase en fonction de la hauteur du niveau d'eau dans le vase gaussien. Ya même une application sous R, mais comme il le dit lui-même, ce n'est pas forcément nécessaire, les gens comprennent assez rapidement sans ça...
Article TRES intéressant : il s'agit d'une extension de l'inégalité de Bienaymé-Tchebycheff au cas multivarié. En clair, cet article donne une borne à la distance de Mahalanobis calculé sur un échantillon tiré de n'importe quelle distribution. Je vois une application rigolotte avec l'utilisation de la Distance de Mahalanobis pour la mesure de suitability de l'habitat (Clark et al. 1993). Si lambda est la distance calculée entre un point disponible donné sur une zone d'étude et la niche de l'espèce sur cette zone, l'inégalité donne une borne supérieure sur P(D2<ĺambda), quelle que soit la forme réelle de la niche (multinormale ou pas). Ce serait intéressant de voir si ça permet de construire des cartes de suitability utiles... À suivre...
À lire aussi. Décidément, j'avais du retard dans ma veille, yavait des choses intéressantes.
A lire aussi. Productif le Hooten...
À lire. M'a l'air rigolo.
Semble intéressant. À lire
Un débat à lire
De Jolliffe (2002), page 339 : "It is true that variances, covariances and correlations have especial relevance for multivariate normal x, and that linear functions of binary variables are less readily interpretable than linear functions of continuous variaibles. However, the basic objective of PCA -- to summarize most of the 'variation' that is present in the original set of p variables using a smaller number of derived variables -- can be achieved regardless of the nature of the original variables.
For data in which all variables are binary, Gower (1966) points out that using PCA *does* provide a plausible low-dimensional representation. This follows because PCA is equivalent to a principal coordinate analysis based on the commonly used definition of similarity between two individuals (observations) as the proportion of the p variables for which the two individals take the same value."
Donc oui, on peut faire de l'ACP sur données binaires et ça a du sens. Je stocke ça ici.
For data in which all variables are binary, Gower (1966) points out that using PCA *does* provide a plausible low-dimensional representation. This follows because PCA is equivalent to a principal coordinate analysis based on the commonly used definition of similarity between two individuals (observations) as the proportion of the p variables for which the two individals take the same value."
Donc oui, on peut faire de l'ACP sur données binaires et ça a du sens. Je stocke ça ici.
Un xkcd que je me mets sous le coude. Très belle illustration de ce que certains pensent être le machine learning.
Encore un SMBC marrant
Comment les splines rejoignent la piecewise regression. Je n'y avait jamais pensé, mais une régression par segment est effectivement un ajustement de spline...
Oui, j'aurais dû m'en douter:
Si $X \sim U(0, 1)$ alors $\log(X/(1−X)) \sim Logistic(0, 1)$
Autrement dit, si X suit une loi uniforme entre 0 et 1, le logit de X suit une loi logistique (0,1).
Exemple sous R:
oo <- rlogis(10000)
hist(exp(oo)/(1+exp(oo)))
Ce dernier histogramme est bien uniforme. C'est assez pratique pour définir, dans un modèle bayésien, une prior sur Y=logit(X) en s'assurant que la prior de X est uniforme entre 0 et 1.
Quand il est plus pratique de définir Y comme paramètre d'intérêt (e.g. dans un metropolis avec une proposal gaussienne, quand c'est merdique d'avoir des bornes et qu'on ne veut pas passer son temps à jongler entre les logit et inverse logit).
Si $X \sim U(0, 1)$ alors $\log(X/(1−X)) \sim Logistic(0, 1)$
Autrement dit, si X suit une loi uniforme entre 0 et 1, le logit de X suit une loi logistique (0,1).
Exemple sous R:
oo <- rlogis(10000)
hist(exp(oo)/(1+exp(oo)))
Ce dernier histogramme est bien uniforme. C'est assez pratique pour définir, dans un modèle bayésien, une prior sur Y=logit(X) en s'assurant que la prior de X est uniforme entre 0 et 1.
Quand il est plus pratique de définir Y comme paramètre d'intérêt (e.g. dans un metropolis avec une proposal gaussienne, quand c'est merdique d'avoir des bornes et qu'on ne veut pas passer son temps à jongler entre les logit et inverse logit).
Via Mathieu. Ya deux-trois graphiques qui laissent rêveurs... à creuser plus en détail.
A lire
Un algorithme qui va essayer d'identifier la bonne réponse à une question factuelle posée à une foule: la bonne réponse n'est pas nécessairement la réponse majoritaire.
À creuser.
À creuser.