Sécurité, privacy et meilleure gestion du système d’information sont parmi les principaux enjeux de la mise en place de processus et de solutions d’anonymisation par les responsables du traitement, alors quelles données anonymiser et comment ?
Le RGPD, entré en vigueur le 25 mai 2018, consacre un ensemble de droits et d’obligations relatifs à la protection des données à caractère personnel. Au terme du considérant 26 du règlement, les données anonymisées sont exclues de son champ d’application. Dès lors, l’anonymisation permet le traitement de données revêtant initialement un caractère personnel non soumis aux dispositions du RGPD. L’exception ne vaut cependant, qu’en présence d’une donnée anonymisée et non pseudonymisée ou chiffrée.
Pseudonymisation, anonymisation ou encore chiffrement, les confusions sont nombreuses et les définitions très générales du règlement permettent difficilement au néophyte d’entrevoir les réalités sous-jacentes.
Qu’est-ce que l’anonymisation ?
Selon le G29, il s’agit du « processus par lequel des données à caractère personnel sont altérées irréversiblement de telle façon que la personne concernée ne puisse plus être identifiée, directement ou indirectement, par le responsable du traitement des DCP, seul ou en collaboration avec une autre partie ».
Le groupe de travail européen définit ainsi l’anonymisation par le caractère irréversible du masquage de la donnée. Le responsable du traitement est ainsi dans l’incapacité d’établir un lien entre une personne concernée et des données à caractère personnel.
Sur le plan technique, deux grandes familles d’anonymisation peuvent être distinguées, la randomisation et la généralisation des données. La randomisation consiste en l’altération de la véracité des données quand la généralisation consiste à diluer la donnée pour permettre dans les deux cas d’affaiblir le lien entre les données et les individus.
Trois techniques de randomisation sont principalement utilisées :
- L’ajout de bruit : il s’agit de remplacer pour partie ou en totalité, des données précises par des approximations dans un ensemble de données.
Par exemple, dans le panel numéro 1 les individus ayant 45 ans seront identifiés comme des personnes de 40 ans et plus. - La permutation : contrairement à la technique précédente, la permutation vise à conserver les données du jeu auquel elles appartiennent tout en remplaçant aléatoirement certains de leurs attributs par les attributs d’un enregistrement du même jeu.
Par exemple, les données initiales sont : M. X habite Paris, Mme Y Bordeaux, Mme Z Marseille. Lorsque ces données sont permutées M. X habite Bordeaux, Mme Y Marseille et Mme Z Paris. Il faut cependant noter que la permutation est rendue impossible dès lors qu’il existe un lien logique évident entre les attributs et les données traitées. - Confidentialité différentielle : Avant communication d’une base de données, un bruit y est ajouté. Seule une partie de la base est communiquée à des tiers autorisés sur leur demande. Enfin, le responsable du traitement s’assure de garder une trace des données auxquelles les tiers ont accès et limite la possibilité d’une réidentification par un contrôle des jeux de données communiqués.
Google s’est, par exemple, saisi de cette technique afin de réaliser des statistiques sur la fréquentation des transports, des magasins ou d’un itinéraire donné. Google a toutefois revu la théorie de la confidentialité différentielle pour créer le « Private Join and Compute », soit une technique d’anonymisation mêlant chiffrement, bruit et permutation.
La généralisation constitue une seconde approche technique de l’anonymisation des données. Les attributs des personnes concernées sont ainsi modifiés dans leur échelle ou dans leur ordre de grandeur.
Pour ce faire, quatre techniques sont principalement utilisées, l’agrégation, le K-anonymat, le L-diversité et le T-proximité. Outre les détails techniques de ces méthodes, elles permettent à des niveaux de granularité différents d’assurer une anonymisation, en jouant sur les échelles, les valeurs et les ordres de grandeur. Un département sera par exemple transformé en région, une année en décennie ou en sens inverse un mois en semaines.
Si aucune de ces techniques ne semble répondre à tous les besoins existant en matière d’anonymisation, et ce de manière infaillible, le G29, comme les autorités de contrôle, recommande l’utilisation cumulée de chacune de ces méthodes.
Se pose dès lors la question du choix de la méthode à employer ?
Antoine Perrot
M2 Cyberjustice – Promotion 2019-2020
Sources :
Vie privée: Google adopte la confidentialité différentielle – Sciences et Avenir
La Cnil et l’anonymisation des données – Les Infostratèges
Le G29 publie un avis sur les techniques d’anonymisation | CNIL
Avis 05/2014 sur les Techniques d’anonymisation
Anonymisation des données à l’ère du RGPD | Techniques de l’Ingénieur