Surfer sur les grands ensembles de données

Ben Higgs Member Name

La puissance et le raffinement des instruments et des technologies utilisés pour recueillir et enregistrer des données au travail augmentent rapidement. Pour suivre le rythme de cette augmentation, il faut nous adapter aux vagues sans cesse grandissantes de données, ou risquer d’être emportés par le courant. La simple mise à niveau de l’équipement d’enregistrement des données peut entraîner la génération d’ensembles de données exponentiellement plus grands. Si l’ancienne version d’un instrument pouvait recueillir des données toutes les heures, la nouvelle version, elle, peut recueillir des données toutes les minutes, voire toutes les secondes. La facilité d’accroître la quantité de données dont nous disposons présente ses propres avantages et défis.

Représentées par une vague colossale et désordonnée, les mégadonnées peuvent parfois nécessiter l’utilisation d’une grande puissance de calcul, de logiciels coûteux et d’un parallélisme important. D’autres fois, le déluge de données relève plutôt de l’autre interprétation courante des « mégadonnées », où les ensembles de données sont si importants qu’ils dépassent les limites des feuilles de calcul courantes et exigent l’emploi d’une approche stratégique et réfléchie. Lorsque confronté à des messages d’erreur et à des écrans gelés, il est essentiel de reconnaître le type de vague à l’origine du problème de données.

Un conseiller astucieux recherchant le bon outil pour chevaucher les vagues d’information à venir doit comprendre la différence entre les mégadonnées et les grands ensembles de données et ferait bien de reconsidérer les techniques habituelles de traitement des données avant de passer directement des feuilles de calcul aux logiciels sous licence.

Plus les données sont nombreuses, plus le déroulement du travail est complexe

À leur complexité minimale, les circuits des données sont raisonnablement fluides et simples. Il s’agit de recueillir et de compiler les données et de les transférer sur un ordinateur, avant de les traiter pour obtenir des résultats, d’extraire les extrants et de présenter les résultats dans des rapports. Ce processus ordonné et linéaire est efficace avec une quantité gérable de données à traiter.

Cependant, lorsque les vagues de grands ensembles de données déferlent, les choses se compliquent et peuvent sembler écrasantes. Prenons, par exemple, un projet qui enregistre pendant quelques jours les secousses du sol provenant de tremblements de terre régionaux à l’aide d’un sismogramme. Les sismogrammes peuvent mesurer les secousses au sol des centaines de fois par seconde. Tenter d’ouvrir et de traiter les données au moyen d’une feuille de calcul entraînera rapidement des problèmes. Une feuille de calcul dans Excel peut contenir un peu plus d’un million de rangées, soit environ trois heures de données dans cette situation-ci. De grandes quantités de données peuvent mener à la création de multiples feuilles de calcul contenant différentes parties de l’ensemble de données, ce qui entraîne rapidement des problèmes d’organisation et de mise en commun.

Intuitivement, une plus grande quantité de données peut sembler être une bonne chose, mais des problèmes habituellement imprévus peuvent surgir. Le temps de traitement des données n’est pas toujours à la hauteur de la taille de l’ensemble de données; habituellement, au-delà d’un certain point, le processus devient inefficace, et il faut prendre du temps pour régler les problèmes.

Des décisions peuvent être prises afin de réduire la quantité de données pour les traiter, mais cela revient à perdre l’avantage d’utiliser l’équipement à haute résolution le plus récent, en l’absence d’une mise à niveau correspondante de la capacité accrue de traitement de données que les instruments rendent possible.

Gérer le flux… avec une base de données

Comment peut-on simplifier la navigation dans cette mer de données complexe?

Des étapes existent pour simplifier la gestion du travail avec de grands volumes de données, tout en maintenant la complexité et la quantité de données recueillies dans le cadre du projet. L’utilisation d’un système de gestion des bases de données plutôt que des feuilles de calcul est un début. Dans une base de données, les données peuvent être stockées et organisées de manière efficace, et les éléments requis pour une tâche peuvent ensuite en être extraits lorsque nécessaires. Pour faire une analogie différente, c’est comme stocker de l’eau dans un réservoir et contrôler le volume retiré en ouvrant et en fermant le robinet, au besoin.

Tout cela semble très simple, mais comment l’ajout d’une composante de base de données fonctionne‑t‑il dans un projet?

Le chargement de données dans une base de données n’est pas intuitif et nécessite probablement une part de programmation dans un langage de base de données. Mais si vous n’avez pas l’intention de devenir spécialiste des données ou programmeur, vous pouvez demander à un expert de vous concevoir un logiciel simple, ou vous pouvez acheter une licence d’un logiciel exclusif.

Un logiciel simple et personnalisé pourrait être d’utilisation aussi directe qu’une application ayant un bouton pour importer des données (qui charge et organise les données brutes dans une base de données hébergée sur un serveur de sauvegarde) et un bouton pour exporter des données dans une fourchette de dates. Il s’agit d’un moyen facile d’« ouvrir et de fermer le robinet » pour obtenir les données nécessaires. Ainsi, les données peuvent être stockées dans un « réservoir d’eau » (serveur) central, de sorte que chaque ordinateur doté du logiciel peut accéder facilement aux données nécessaires. Il n’y a donc plus de temps perdu à chercher les données requises à plusieurs endroits.

On peut doter le logiciel personnalisé d’autres fonctionnalités pour faciliter davantage la gestion des données, telles qu’un bouton pour créer des tableaux et des tracés ou calculer des statistiques supplémentaires pour certaines données de la base de données. Un tel logiciel permet la gestion de grands ensembles de données en réduisant le temps consacré à leur organisation sans en réduire la taille ou la complexité.

Quel est le bon moment pour faire le changement?

Maintenant que nous savons comment aborder les problèmes comportant de grands ensembles de données, il est tout aussi important de savoir quand il convient d’utiliser des logiciels personnalisés pour le stockage et le traitement des données plutôt que des logiciels sous licence.

La réponse dépend de l’échelle. Un tableur, comme Excel, est efficace lorsque la quantité de données est gérable et peut être stockée, traitée et affichée dans le même espace. Dans le cas d’ensembles de données vastes et complexes auxquelles des données sont fréquemment ajoutées et souvent utilisés sur de longues périodes (comme les diagrammes de forage géotechniques), un logiciel commercial sous licence est un meilleur choix.

Ce qui est difficile à déterminer, c’est la bonne approche pour des données intermédiaires, entre les ensembles de données simples et les grands ensembles de données complexes et fréquemment utilisés.

Cela peut être le cas lorsque vous devez recueillir de grandes quantités de données pour un projet autonome. Il vous sera peut-être nécessaire d’accéder aux données à l’occasion, mais cet accès à vos propres données ne justifie pas le coût élevé d’une licence annuelle. Il faut alors vous demander si un logiciel simple, construit et personnalisé pour vous et votre projet présente les avantages dont vous avez besoin. Le coût des logiciels sous licence peut être trop élevé pour l’usage que vous en faites. Bien que les logiciels personnalisés nécessitent un investissement initial, ils peuvent être mieux adaptés à vos besoins particuliers.

Quels que soient le logiciel et la méthode choisis, le moment est venu de passer à l’action. La gestion de grands ensembles de données constituera un défi de plus en plus fréquent pour les projets alors que la collecte de données devient de plus en plus précise et accessible. L’utilité de ces données dépend de la mise à niveau des techniques de traitement, pour que nous puissions surfer sur les vagues géantes des grands ensembles de données plutôt que de les laisser nous renverser.

Ben Higgs Member Name

À Propos De L’auteur

Perspectives Connexes

Golder utilise des témoins de navigation (« cookies ») afin de vous offrir la meilleure expérience possible sur notre site Web. En continuant à utiliser ce site Web, nous supposons que vous consentez à recevoir tous les témoins sur notre site Web.

D’ACCORD Plus d'information