2384 shaares
Perspective intéressante. Se résume en quelques phrases:
* Companies brag about the size of their datasets the way fishermen brag about the size of their fish
* But even big companies only use a tiny fraction of the data they collect.
* Typical deep-learning models only work on massive amounts of labeled data. And labelling a large dataset takes hundreds of thousands of dollars and months of time. (...) Too many smaller companies don’t realize this and acquire massive data stores that they can’t afford to use.
* big data isn’t big, but good data is even smaller
En résumé, il y a effectivement des enjeux sur le big data. Mais principalement dans les entreprises qui investissent énormément dans le big data (google, facebook, etc.). Pour la majorité, on n'en est pas encore là.
* Companies brag about the size of their datasets the way fishermen brag about the size of their fish
* But even big companies only use a tiny fraction of the data they collect.
* Typical deep-learning models only work on massive amounts of labeled data. And labelling a large dataset takes hundreds of thousands of dollars and months of time. (...) Too many smaller companies don’t realize this and acquire massive data stores that they can’t afford to use.
* big data isn’t big, but good data is even smaller
En résumé, il y a effectivement des enjeux sur le big data. Mais principalement dans les entreprises qui investissent énormément dans le big data (google, facebook, etc.). Pour la majorité, on n'en est pas encore là.
De l'importance de la licence GNU. Bizarre quand même le gars...
Une introduction à la régression ridge, avec application sous R.
Faudrait creuser ça... Je me le garde sous le coude.
Didiou, ils ont tout cartographié!
À lire absolument
Un autre package pour l'OCR
R fait de l'OCR!!!!
Qu'est-ce que R ne fait pas!
Qu'est-ce que R ne fait pas!
Oooouh ben putain! ça ça doit être de la conversation. La grosse pointure du multivarié interviewé par la grosse pointure des processus de survie, c'est à lire absolument.
Intéressant... À envisager pour les articles scientifiques? hin hin
Autre explication pour un live usb Debiian
Taper dans une console:
kill -9 -1
Ça va tuer tous les processus,finir la session, et ramener l'utilisateur à l'écran de login
kill -9 -1
Ça va tuer tous les processus,finir la session, et ramener l'utilisateur à l'écran de login
Une explication claire...
Sous debian: gpg --keyserver hkp://pgp.mit.edu --recv-keys 98AB5139
Sous debian: gpg --keyserver hkp://pgp.mit.edu --recv-keys 98AB5139
Approche pour faire une live usb personnalisée.
À lire ça m'a l'air intéressant.
Un post intéressant de Thomas Lumley sur le générateur de nombres pseudo-aléatoires de Wichmann-Hill, mal simplifié pour départager les résultats du référendum sur le nouveau drapeau de la NZ.
Un point intéressant sur l'explication du RNG par défaut sous R: "We’ve changed the generator in R because Wichmann-Hill isn’t up to modern research use. Its period is only 6.95×1012, and you ideally don’t run a PRNG for longer than the square root of its period. For a research statistician, a limit of 2.5 million numbers in a stream isn’t enough"
Un point intéressant sur l'explication du RNG par défaut sous R: "We’ve changed the generator in R because Wichmann-Hill isn’t up to modern research use. Its period is only 6.95×1012, and you ideally don’t run a PRNG for longer than the square root of its period. For a research statistician, a limit of 2.5 million numbers in a stream isn’t enough"
Idem, à garder sous le coude pour les cas d'énervements sur mailing list...
Je me le mets de côté, j'avais déjà vu passer, mais c'est un lien intéressant.
À lire
C'est une blague???? Ils ont filmé le déplacement de la lumière en ultra haute vitesse... Hallucinant