Qu'est-ce que la réconciliation des données?
La réconciliation des données (DR) est définie comme un processus de vérification des données lors de la migration des données. Dans ce processus, les données cibles sont comparées aux données source pour garantir que l'architecture de migration transfère les données. La validation et la réconciliation des données (DVR) désigne une technologie qui utilise des modèles mathématiques pour traiter les informations.
Dans ce tutoriel, vous apprendrez,
- Qu'est-ce que la réconciliation des données?
- Pourquoi la réconciliation des données est-elle importante?
- Terminologie associée à la réconciliation des données
- Historique de la réconciliation des données
- Processus de réconciliation des données
- Meilleures pratiques d'utilisation de la réconciliation des données
- Outils de réconciliation des données
Pourquoi la réconciliation des données est-elle importante?
Dans le processus de migration de données, il est possible que des erreurs soient commises dans la logique de mappage et de transformation. Des problèmes tels que des échecs d'exécution tels que des interruptions de réseau ou des transactions interrompues peuvent corrompre les données.
Ce type d'erreurs peut conduire à un état non valide des données. Ceux-ci peuvent créer une gamme de problèmes tels que:
- Enregistrements manquants
- Valeurs manquantes
- Valeurs incorrectes
- Enregistrements dupliqués
- Valeurs mal formatées
- Relations rompues entre les tables ou les systèmes
Voici les raisons importantes d'utiliser le processus de réconciliation des données:
- L'utilisation de la réconciliation des données vous aide à extraire des informations précises et fiables sur l'état du processus industriel à partir de données de mesure brutes.
- Il vous aide également à produire un seul ensemble cohérent de données représentant l'opération de processus la plus probable.
- Cela conduit également à des informations inexactes et à des problèmes avec le service client.
- La réconciliation des données est également importante pour l'intégration du contrôle de l'entreprise.
En dehors de ce qui précède, il existe de nombreux avantages / avantages de la réconciliation des données.
Terminologie associée à la réconciliation des données
Erreur brute | Erreurs grossières dans les mesures. Il ne reflète que les erreurs de polarisation, les pannes d'instrument ou les pics de bruit anormaux si vous n'utilisez qu'une courte période de calcul de moyenne. |
Observabilité | L'analyse d'observabilité peut vous donner des détails sur les variables qui peuvent être déterminées pour un ensemble donné de contraintes et un ensemble de mesures. |
Variance | La variance est une mesure de la variabilité d'un capteur. |
Redondance | Il vous aide à déterminer quelles mesures doivent être estimées à partir d'autres variables à l'aide des équations de contraintes. |
Historique de la réconciliation des données
Voici les repères essentiels de l'histoire de la réconciliation des données.
- DVR (Data validation and Reconciliation) a commencé au début des années 1960. Il visait à clôturer les bilans matières de la production où des mesures brutes étaient disponibles pour toutes les variables.
- À la fin des années 1960, toutes les variables non mesurées ont été prises en compte dans le processus de rapprochement des données.
- La dynamique quasi-stationnaire pour le filtrage et l'estimation parallèle des paramètres dans le temps ont été introduites en 1977 par Stanley et Mah.
- Le DVR dynamique a été développé en tant que modèle d'optimisation non linéaire publié par Liebman en 1992
Processus de réconciliation des données
Les types de méthodes de rapprochement des données sont:
Réconciliation des données de base
La réconciliation des données de base est une technique de réconciliation des données de base uniquement entre la source et la cible. Les données de base sont pour la plupart inchangées ou changent lentement par nature, et aucune opération d'agrégation n'est effectuée sur l'ensemble de données.
Quelques exemples courants de rapprochement des données de base sont:
- Nombre total de lignes
- Client total dans la source et la cible
- Nombre total d'éléments dans la source et la cible
- Nombre total de lignes basé sur une condition donnée
- Nombre d'utilisateurs actifs
- Nombre d'utilisateurs inactifs, etc.
Précision de l'activité
- Vous devez vous assurer que les transactions sont valides et que leur objectif est correct.
- Besoin de vérifier si les transactions ont été correctement autorisées.
Réconciliation des données transactionnelles
Les données transactionnelles constituent la base des rapports BI. Par conséquent, toute incohérence dans les données transactionnelles peut avoir un impact direct sur la fiabilité du rapport et sur l'ensemble du système de BI en général.
La méthode de réconciliation des données transactionnelles est utilisée en termes de somme totale, ce qui évite toute discordance causée par la modification de la granularité des dimensions éligibles.
Voici des exemples de mesures utilisées pour le rapprochement des données transactionnelles:
- Somme du revenu total calculé à partir de la source et de la cible
- Somme de l'ensemble de l'article vendu, calculée à partir de la source et de la cible, etc.
Réconciliation automatisée des données:
Dans un grand système de gestion d'entrepôt de données, il est pratique d'automatiser le processus de réconciliation des données en l'intégrant au chargement des données. Il vous permet de gérer des tables de métadonnées de chargement distinctes. De plus, un rapprochement automatisé tiendra toutes les parties prenantes informées de la validité des rapports.
Meilleures pratiques d'utilisation de la réconciliation des données
- Le processus de rapprochement des données doit viser à corriger les erreurs de mesure.
- Les erreurs brutes doivent être nulles pour rendre le processus de réconciliation des données efficace.
- L'approche standard de la réconciliation des données s'est appuyée sur de simples décomptes d'enregistrements pour savoir si le nombre d'enregistrements ciblé a migré ou non.
- La solution de migration de données offre des capacités de réconciliation et des fonctionnalités de prototypage de données similaires qui offrent des tests de réconciliation de données de volume complet.
Outils de réconciliation des données
1) OuvrirRefine
OpenRefine, qui est auparavant connu sous le nom de Google Raffiner, est un cadre de réconciliation de base de données utile. Il vous permet de nettoyer et de transférer des données désordonnées.
Lien de téléchargement: https://openrefine.org/
2) Clarté TIBCO
Cet outil de réconciliation de données offre des services logiciels à la demande sur le Web sous la forme de Software-as-a-Service. Il permet aux utilisateurs de valider les données et de nettoyer les données. Il fournit des fonctionnalités de test de réconciliation complètes. Largement utilisé dans le processus ETL.
Lien de téléchargement: https://clarity.cloud.tibco.com/landing/index.html
3) Winpure
Winpure est un logiciel de nettoyage de données abordable et précis. Il vous permet de nettoyer une grande quantité de données, de supprimer les doublons, de corriger et de normaliser pour concevoir l'ensemble de données final.
Lien de téléchargement: https://winpure.com/
Résumé
- La validation et la réconciliation des données (DVR) est une technologie qui utilise des modèles mathématiques pour traiter les informations.
- L'utilisation de la réconciliation des données vous aide à extraire des informations précises et fiables sur l'état du processus industriel à partir de données de mesure brutes.
- Erreur brute, observabilité, variance, redondance sont des termes importants utilisés dans le processus de réconciliation des données
- La validation et le rapprochement des données ont commencé au début des années 1960.
- Trois types de méthodes de rapprochement des données sont 1) Réconciliation des données de base 2) Réconciliation des données transactionnelles 3) Réconciliation automatisée des données
- Les erreurs brutes doivent être nulles pour rendre le processus de réconciliation des données efficace.
- Certains outils de réconciliation de données importants sont: 1) OpenRefine 2) TIBCO 3) Winpure
- Cette méthode est largement utilisée dans la surveillance des performances et des processus dans le raffinage du pétrole / l'industrie nucléaire / chimique