2338 shaares
Un nouveau type de données apparaît: le "medium" data: 215 Go de données!!! Putain, on en est pas là encore en écologie.
Chose intéressante, ils ont mis le code source sur github. Ça peut être intéressant de voir comment ils gèrent cette quantité de données. J'ai regardé un peu, c'est surtout du PostgreSQL, avec des requêtes depuis R. Je n'ai pas l'impression qu'il y ait des outils propres à cette taille de donnée (à part postgresql, qui certes est rarement utilisé pour les "small" data, ou les nano data, je sais pas comment on doit appeler nos jeux de données de 50 lignes, mais qui est quand même plus fréquemment utilisé pour les BD plus grandes comme les données réseau, etc.).
Chose intéressante, ils ont mis le code source sur github. Ça peut être intéressant de voir comment ils gèrent cette quantité de données. J'ai regardé un peu, c'est surtout du PostgreSQL, avec des requêtes depuis R. Je n'ai pas l'impression qu'il y ait des outils propres à cette taille de donnée (à part postgresql, qui certes est rarement utilisé pour les "small" data, ou les nano data, je sais pas comment on doit appeler nos jeux de données de 50 lignes, mais qui est quand même plus fréquemment utilisé pour les BD plus grandes comme les données réseau, etc.).