Retour à la liste
  • Articles de blog
  • Collecte de données

Vous pensez que vous avez des données « pourries » ou de mauvaise qualité ?

07 mars 2023

Qualité des données

On vous explique comment évaluer la qualité de vos données et tirer le meilleur de celles-ci !

La qualité des données est un sujet fondamental en matière d’exploitation des données car c’est souvent le point de départ des projets.

D’après l’enquête 2022 de l’Observatoire de la Maturité Data des Entreprises, 19% des répondants déclarent que le problème de qualité des données constitue un frein à l’exploitation des données dans leur entreprise. Et plus d’une entreprise sur deux déclare ne pas assurer de suivi de la qualité des données. Or, un pilotage d’activité fiable et pérenne implique de veiller à la qualité des données.

Mais qu’entend-on par « qualité des données » ? Que signifie avoir des « données de mauvaise qualité » ? Et surtout vos données sont-elles vraiment « pourries » ?

Nous vous expliquons tout dans cet article et nous vous montrerons que la réalité n’est pas toujours celle que l’on croit : vos données ne sont peut-être pas si mauvaises que vous pourriez le penser !

La « qualité des données » c’est quoi exactement ?

Plusieurs critères permettent d’évaluer la qualité de vos données. Parmi eux figurent : la fiabilité, la clarté, la récence, la complétude…

On peut qualifier les données comme étant de « mauvaise qualité » lorsque celles-ci sont manquantes, fausses, incohérentes, obsolètes, introuvables…

Bien souvent, le manque de qualité des données engendre de surcroit des effets collatéraux comme par exemple le fait que celles-ci ne peuvent pas être croisées entre les différentes sources ou les différents systèmes (par exemple entre le CRM et l’ERP).

Cela peut impacter les processus opérationnels. Une mauvaise qualité des données peut conduire à de mauvaises interprétations, des incompréhensions internes…

Bien souvent, personne ne prend en charge la résolution de ce problème de qualité des données car personne dans l’entreprise ne se sent ni légitime, ni compétent, ni responsable du sujet.

Qui plus est, le travail pour remédier au problème semble titanesque et on ne sait pas où commencer.

En attendant, tant que rien n’est fait et que les nouvelles données continuent à être mal collectées et saisies, la dégradation de la qualité se poursuit…

Qualité des données 2

Quelles sont les causes de la mauvaise qualité des données ?

L’origine de la mauvaise qualité des données vient soit d’erreurs humaines lors de la saisie ou lors de l’interprétation des données, soit d’erreurs générées par le traitement automatique (par exemple lors d’une saisie de données par le client dans un formulaire en ligne).

Voici une liste détaillée des causes possibles d’erreurs :

1. Erreurs humaines à la saisie

  • Saisie utilisateur invalide (volontaire ou involontaire, manque de temps, manque d’intérêt)
  • Absence de saisie de l’utilisateur
  • Ressaisie utilisateur

2. Erreurs générées par le traitement automatique

  • Méconnaissance de ses données, processus et systèmes
  • Ambiguïté sur la définition des données
  • Utilisation inadaptée
  • … ou absence d’utilisation

3. Erreur générées par le traitement informatique

  • Système inadapté, pas de saisie possible
  • Anomalie de traitement, dégradation de la donnée
  • Manque de référentiel, d’unicité
  • Défaut de design

Identifier les sources d’erreur est la première étape pour mettre en place des actions correctives et stopper le processus de génération de données de mauvaise qualité.

Il est ensuite nécessaire de définir les critères qui vous permettront de déterminer si vos données sont ou ne sont pas de mauvaise qualité, en fonction de ce qui est important dans votre activité ou votre entreprise en termes d’évaluation de vos données.

    Quels sont les critères pour qualifier vos données comme bonnes ou mauvaises ?

    Voici 10 critères qui permettent de qualifier la qualité de vos données.

    1. Véracité

    • Caractère exact des données mises à disposition (saisies ou calculées). Exemple : si les données saisies pour un article ne sont pas correctes, cela pourra engendrer des retours clients et une baisse de la satisfaction.
    • Intégrité référentielle (exemple : un article vendu doit avoir une référence dans le catalogue ou l’inventaire)

    2. Complétude

    • Quantité de données renseignées (taux de données renseignées)

    3. Exhaustivité

    • Fait de contenir toutes les informations requises pour le service que l’on attend (il n’est pas nécessaire d’avoir absolument toutes les données mais seulement celles nécessaires à l’analyse).

    4. Fraîcheur ou récence

    • Délai entre la génération de la donnée et sa mise à disposition (pour un reporting par exemple)

    5. Cohérence

    • Homogénéité de l’information et capacité de celle-ci à être croisée entre les systèmes source et les domaines fonctionnels (la cohérence repose sur l’existence de référentiels communs). Exemple : s’il n’y a pas de cohérence entre les références produits au sein de l’organisation, cela pourra poser des problèmes d’approvisionnement.

    6. Accessibilité

    • Facilité d’accès à la donnée via un système fiable et dans un délai acceptable

    7. Référencement

    • Capacité de l’utilisateur à savoir où trouver les données plus ou moins facilement

    8. Compréhension

    • Les données doivent être suffisamment documentées pour être compréhensibles

    9. Traçabilité

    • Capacité de suivre le cheminement des données de la source jusqu’à leur exploitation (permet d’apporter la preuve de l’origine des données)

    10. Intégrité

    • Certitude que la donnée est valide et n’a pas été altérée (important pour des aspects réglementaires ou contractuels).

    Quels sont les bonnes questions à se poser pour prioriser le travail d’amélioration de la qualité des données ?

    Afin de démarrer un travail sur la qualité des données, il est nécessaire de définir des priorités dans le retraitement ou le « nettoyage » de vos données. Nous vous exposons quelques questions clés qui peuvent vous aider à prioriser.

    Quels usages sont impactés par la qualité des données ?

    • Conformité réglementaire ?
    • Opérations ?
    • Décisions d’investissement ?
    • Marketing (acquisition / fidélisation) ?

    Quelles données doivent avoir un niveau garanti ?

    • Données financières
    • Données clients
    • Données opérationnelles

    Quel est le niveau de qualité à garantir pour ces données ?

    • Exemple : 100% des factures doivent posséder une date et une société
    • Exemple : 95% des fiches clients doivent posséder un email et 99,9% des emails renseignés doivent être valides
    • Exemple : 99% des articles vendus doivent avoir une référence correspondant au référentiel

    Une fois que vous aurez défini les priorités, il vous faudra définir comment mettre en place votre démarche : qui ? comment ? quand ? quoi ?

    Les 4 grands principes qui doivent guider votre démarche

    1. QUI ? Définir qui est responsable de la gestion du projet d’amélioration de la qualité des données

    2. COMMENT ? Définir comment seront traitées les données de mauvaise qualité ?

    • Intégrer = garantir la complétude au détriment de la véracité
    • Rejeter = privilégier la véracité ou l’exactitude au risque de perdre la complétude (accepter d’avoir des données non renseignées)
    • Réponse distincte en fonction des données, domaines… (finance versus marketing)

    3. QUAND ? Correction à la saisie ou bien en aval ?

    • A la saisie : plus fiable mais pas toujours possible
    • En aval : plus facile à implémenter mais trop tard

    4. QUOI ? Normalisation des données ou conservation des données brutes ?

    Le point N°1 est souvent le point de départ de toute démarche d’amélioration de la qualité des données. Il ne doit donc pas être négligé et vous permettra de mettre votre projet sur les bons rails.

    L’importance de la responsabilité et de la gouvernance

    Il est primordial de définir qui est responsable de la qualité des données pour chaque domaine ou système d’information source.

    Il ne s’agit pas nécessairement des personnes en charge de la saisie mais plutôt des personnes en charge de la vérification de la bonne qualité des données.

    • Le responsable du processus Métier ?
    • Le partenaire en cas de données externes ?
    • Le responsable de l’outil générant les données ?
    • Le responsable d’application (DSI) qui réalise, maintient et exploite le système source ?
    • Le pôle Data ou business intelligence transverse qui génère les reportings ?

    Déterminer qui est responsable du processus d’amélioration et du pilotage de la qualité permettra :

    • D’animer le processus et les acteurs
    • De définir les indicateurs
    • De produire les indicateurs
    • De définir et piloter les actions
    • De rendre compte

    Les bonnes pratiques conseillées par Datasulting pour améliorer la qualité de vos données

    • Mettez en place un reporting de suivi de la qualité de vos données : il sera ensuite très facile de mettre le doigt sur les incohérences entre vos données.
    • Mettez en place un dictionnaire de données pour avoir un langage commun au sein de votre organisation et éviter les erreurs d’interprétation.
    • Bien définir qui est responsable et garant de la bonne qualité des données.

    Nous espérons que vous y voyez désormais plus clair en matière de qualité des données.

    Nous pouvons vous accompagner et vous aider dans votre démarche data, alors n’hésitez pas à faire appel à nos experts !

    Pour aller plus loin, visionnez notre vidéo sur le sujet :

    Cabinet de conseil spécialisé dans l’analyse, l’exploitation et la valorisation des données depuis 10 ans.

    Nous sommes implantés à Montpellier et Paris et intervenons sur toute la France.

    Siège social : 187 rue Hélène Boucher, 34170 Castelnau-le-Lez