Blog Cyberjustice - Les usines de données cachées et la dérive des données : les deux ennemis du DSI

Une véritable structure économique pilote ses secteurs d’activité au regard de leur résultat. Pour cela, la coutume était à la rédaction de rapports contenant des statistiques sur la base de données prélevées au moment voulu. Aujourd’hui, les innovations informatiques permettent de connaitre en temps réel l’évolution des résultats de chaque secteur d’activité.

Ces innovations technologiques ont été une réponse au phénomène très particulier du Big Data. D’un point de vue technique, le Big Data se décrit par 3 caractéristiques cumulatives (3 V) :

Volume : « le Big Data commence au seuil à partir duquel le volume de données devient difficile à gérer dans une solution de base relationnelle de données. »
Vélocité ou vitesse : « le Big Data nécessite également une notion temporelle forte associée à de gros volumes, c’est-à-dire la capacité de capturer une masse de données mouvantes pour pouvoir soit réagir en temps réel face à un événement soit le revisiter ultérieurement avec un autre angle de vue ».
Variété : le Big Data peut certes traiter des données structurées, mais aussi l’ensemble des données non structurées accessibles à une entreprise.

Le cabinet d’étude IDC dévoile depuis 2005 « un univers digital en expansion constante, de plus en plus complexe et toujours plus intéressant ». Parmi les projections d’IDC établies en novembre 2018, on peut retenir les suivantes

La création de données va s’amplifier pour atteindre un total de 175 zettaoctets (Zo) d’ici 2025 ;
Les serveurs utilisés pour le fonctionnement du cloud computing public assureront le stockage de 49% des données mondiales en 2025 ;
D’ici 2025, une personne va interagir avec des appareils connectés près de 4 800 fois par jour.

Mais voici un autre chiffre d’après une ‎‎estimation d’IBM : 3,1 ‎‎billions de dollars‎‎ représentant le coût annuel des données de mauvaise qualité, rien qu’aux États-Unis, en 2016. Alors que la plupart des gens qui traitent des données tous les jours savent que de mauvaises données sont coûteuses, ce chiffre alerte.

La raison pour laquelle les mauvaises données coûtent si cher est que les décideurs, les gestionnaires, les ingénieurs, les data-scientistes… travaillent sur des données qui comportent de nombreuses erreurs. Ainsi pour face à une échéance et rendre le travail à temps, de ‎‎nombreuses personnes effectuent simplement elles-mêmes des corrections sur les mauvaises données‎‎. Ils ne pensent pas à contacter le créateur de données, à expliquer leurs besoins et à aider à éliminer les causes profondes.

De telles usines de données cachées coûtent cher. Ils constituent la base du chiffre de 3,1 billions de dollars par an selon IBM. Ainsi, les gestionnaires devraient s’intéresser davantage aux couts que ces données de mauvaise qualité engendrent pour l’entreprise.

Cet énorme manque à gagner provient principalement d’une mauvaise gestion du temps. IBM estime que :

‎50% – est le ‎‎temps que les salariés perdent dans des usines de‎‎ données cachées, à la recherche de données, à la recherche et à la correction d’erreurs et à la recherche de sources de confirmation de données auxquelles ils ne font pas confiance.‎
‎60% – la fraction de temps estimée que les scientifiques des données passent à nettoyer et à organiser les données, ‎‎selon CrowdFlower‎‎.‎

‎Ainsi, mettre en lumière ces usines de données cachées est primordial afin de les réduire autant que possible. Il en va de même pour la prise de conscience que les usines de données cachées représentent un travail sans valeur ajoutée.‎

Face à ce problème gargantuesque sur la qualité des données, le bon traitement de ces dernières est tout aussi important. Le Big Data a alors fait émerger un deuxième phénomène : la dérive des données.

La problématique est simple, peut-on s’appuyer sur des données de consommation durant les différentes phases de confinement pour obtenir une prédiction fiable pour l’année 2021?

Selon Gartner, « la dérive des données dégrade profondément la qualité des modèles d’apprentissage automatique et, par conséquent, la prévisibilité induite par ceux-ci. En effet, en découvrant la dérive dans les ensembles de données, certaines entreprises ont été contraintes d’arrêter d’opérationnaliser les modèles d’apprentissage automatique ».

‎La dérive de données‎‎ est une comparaison entre deux versions d’un même jeu de données prises à des moments différents. Lorsque l’on regarde un histogramme de valeurs pour une colonne particulière, si les deux histogrammes ne se chevauchent pas de manière significative, alors les données de cette variable sont dites avoir dérivé. Cette dérive montre le changement dans la composition des données. Si ces données fournissent un signal pour des caractéristiques importantes dans un modèle prédictif, la dérive pourrait rendre le modèle moins précis.‎

Autrement dit, les données traduisant des résultats doivent être constamment jugées au regard de leur contexte. Cela semble naturel pour un être humain mais cela est très compliqué à déceler et à gérer pour des logiciels auto-apprenants.

Jaune117

Source: Management des systèmes d’information, Kennet Laudon et Jane Laudon 16^e édition