Amazon Web Services (AWS) a récemment annoncé le lancement d'AWS Glue Data Quality, une solution sans serveur conçue pour assurer une gestion des données de haute qualité dans les lacs de données et les pipelines. Alors que les lacs de données gagnent en popularité, assurer la qualité des données devient essentiel pour éviter qu'ils ne se transforment en marécages de données. Cependant, l'établissement de la qualité des données implique généralement un travail manuel et des processus chronophages. AWS Glue Data Quality rationalise la gestion de la qualité des données et réduit considérablement le temps consacré aux tâches manuelles, qui passe de plusieurs jours à quelques heures seulement.

Le service automatise le calcul des statistiques de données, suggère des règles de qualité des données et surveille les données, en envoyant des alertes lorsqu'une baisse de la qualité des données est détectée. Par conséquent, l'identification des données manquantes, obsolètes ou incorrectes devient plus efficace, ce qui permet aux entreprises de se prémunir contre d'éventuelles conséquences négatives. Faisant partie de la suite AWS Gl ue, AWS Glue Data Quality élimine le besoin de gestion et de maintenance de l'infrastructure. Le service automatise le processus de calcul des statistiques de données et de recommandation des règles de qualité des données, améliorant ainsi la fraîcheur, l'exactitude et l'intégrité des données.

Cette automatisation réduit non seulement le travail manuel lié à l'analyse des données et à l'identification des règles, mais permet également d'utiliser des règles de qualité des données prédéfinies. Pour obtenir une liste exhaustive des règles prises en charge, consultez le langage de définition de la qualité des données (DQDL). De plus, AWS Glue Data Quality est accessible via plusieurs plateformes, notamment AWS Glue Data Catalog, Glue Studio et Glue Studio notebooks. Cette polyvalence permet aux gestionnaires de données de définir des règles dans le catalogue de données, tandis que les développeurs peuvent créer des pipelines d'intégration de données à l'aide d'interfaces basées sur des blocs-notes. En outre, les ingénieurs de données peuvent soumettre des travaux à partir de leur éditeur de code préféré par le biais de sessions interactives.

