Aucune donnée n’est anonyme

C’est peut-être bien la conclusion à laquelle on va arriver. Depuis les origines de la protection des données, l’on reconnaît implicitement le principe d’anonymat. En effet, les différentes lois applicables ne s’appliquent pas aux données personnelles anonymisées. Il existerait donc des moyens pour anonymiser des données personnelles, en ce sens que le lien, qui reliait les données avec une personne déterminée, serait supprimé. Cette suppression se voudrait irrémédiable, car il serait tout simplement impossible de retrouver la personne qui se cache derrière ces données.

Souvent, lorsqu’on surfe sur l’Internet, on pense collecter des données « anonymisées » et, parfois même, le fournisseur de ces données proclame fièrement qu’elles sont anonymes. Or, les juristes, toujours aussi pointilleux qu’ils sont, vous rendront attentif à la confusion répandue qui existe entre des données « anonymisées » et des données « codées » ou « pseudonymisées ». Si vous pouvez (presque) faire ce que vous voulez avec des données anonymisées, il n’en est rien avec des données codées ou pseudonymisées. Une donnée personnelle est codée lorsque les identifiants sont remplacés par un code ou un numéro, mais que celui qui les code détient toujours la table de correspondance (ou la clé de déchiffrement) permettant de réidentifier la personne concernée. Par exemple, d’aucuns considèrent que le chiffrement est une forme de codage. C’est donc un processus réversible, car l’on peut toujours retrouver la personne concernée.

L’employé lambda, le businessman, ou le chercheur, las d’être submergé par tant de bureaucratie ou tout simplement perplexe face à ces distinctions qui ne semblent intéresser que des juristes en mal de sensations fortes, se posera la question suivante : Comme tout ce charabia risque, au mieux, de m’endormir, au pire, de bloquer mon projet, comment puis-je anonymiser les données que j’ai obtenues, car ça me semble beaucoup plus simple de procéder ainsi ? Malheureusement, le juriste vous répondra par un laconique (oui, le juriste n’est pas toujours très drôle) : « les données doivent être traitées de façon à ne plus pouvoir être utilisées pour identifier une personne physique en recourant à « l’ensemble des moyens susceptibles d’être raisonnablement mis en œuvre », soit par le responsable du traitement, soit par un tiers ». A cet instant précis, vous vous demandez si le mec ne vous prend pas pour un con. Quand on me demande comment je fais un œuf mollet, je ne réponds pas « Alors, il faut prendre tous les ustensiles appropriés et les ingrédients usuels de façon à ne pas cuire l’œuf trop longtemps ». Plus sérieusement, il n’existe pas véritablement de consensus international sur les moyens d’anonymiser correctement une donnée personnelle. Il existe certains guides, voire certaines normes qui creusent la question, mais sans vraiment y répondre non plus.

Selon le RGPD (la loi européenne qui traite de la protection des données), deux conditions doivent donc être analysées : (i) premièrement, la personne physique est-elle identifiable ? (ii) si oui, y a-t-il des facteurs objectifs qui empêchent raisonnablement la réidentification de la personne physique ? Afin de répondre à la première question, l’avis 05/2014 sur les techniques d’anonymisation, adopté le 10 avril 2014 par l’ancien groupe de travail “Article 29” sur la protection des données (aujourd’hui, le Comité européen de la protection des données) est toujours utile. En effet, si vous pouvez isoler des données qui appartiennent à une personne (individualisation), si vous pouvez relier au moins deux enregistrements ou bases de données concernant la même personne (possibilité de corrélation), ou si vous pouvez déduire la valeur d’un attribut qui concerne une personne physique (inférence), vous disposez probablement de données à caractère personnel au sens juridique. Pour rappel, les données à caractère personnel sont un concept juridique très large, qui peut inclure différents types de données (cela va de l’adresse IP à l’adresse email en passant par l’image aérienne d’une maison individuelle). En ce qui concerne la deuxième question, les coûts, la durée nécessaire et les développements technologiques doivent être pris en compte. Par exemple, si la réidentification implique de faire d’énormes efforts en termes de coûts, de temps et de technologie, alors la réidentification est peu probable. En ce qui concerne les développements technologiques, différentes techniques existent déjà, telles que le chiffrement homomorphe, la differential privacy, ou d’autres techniques de randomisation (ajout de bruit, permutation de valeurs, confidentialité différentielle) et de généralisation (agrégation et k-anonymat, l-diversité).

Conformément à l’affaire Breyer, il n’est pas nécessaire que toutes les informations concernant une personne physique soient entre les mains d’une seule et même entité. Dans cette affaire allemande, le gouvernement allemand possédait des adresses IP dynamiques qu’il ne considérait pas comme des données personnelles. Il eût fallu qu’il contactât le fournisseur internet pour obtenir des informations supplémentaires et ainsi réidentifier les personnes concernées. Bien que la loi n’autorisât pas le fournisseur internet à transmettre directement les informations supplémentaires au gouvernement, des voies légales existaient, de sorte que le gouvernement pouvait contacter l’autorité compétente afin d’obtenir du fournisseur de services internet ces informations.

Finalement, si une personne est potentiellement identifiable et que vous pouvez (on prend sa respiration, la phrase est longue) soit la réidentifier par des moyens techniques accessibles ou que vous pouvez par des moyens juridiques obtenir des informations supplémentaires vous permettant de réidentifier la personne, alors la donnée personnelle n’est pas suffisamment anonymisée.

Du moins, c’est ce que je pensais. En effet, certaines autorités ont une vision assez stricte de la matière comme l’ayatollah peut l’être en matière religieuse. Le corollaire, c’est qu’il devient quasiment impossible d’anonymiser des données personnelles, sans que l’on vous traite d’inconscient ou de fou dangereux. En effet, considérer une donnée comme anonyme, c’est s’auto-exonérer de la loi. Ainsi, vous prenez des risques si la donnée en question est mal anonymisée. Le principe de prudence requiert donc de considérer toutes les données comme des données personnelles soumises à la loi applicable. Si je peux comprendre ce raisonnement en termes de gestion de risques, il n’en demeure pas moins que ce n’est pas ce que la loi prévoyait à l’origine. De plus, la bureaucratie augmente et le désarroi des employés lambda, des businessmen, ou des chercheurs avec. Je trouve en fait le système trop compliqué. Il faudrait soit supprimer la notion de données anonymisées soit soumettre ces données anonymisées à un régime distinct moins contraignant. D’ailleurs, l’avènement d’ordinateurs quantiques mettra encore plus à mal toutes ces distinctions…

Valentin Conrad

Valentin Conrad

Né en 1988 à Genève, Valentin Conrad a étudié le droit aux Universités de Genève et de Neuchâtel. Après de brèves expériences dans l'industrie horlogère et pharmaceutique, il rejoint l'EPFL en 2016 en tant que juriste. Il se spécialise notamment en protection des données. Politiquement, il défend des idées humanistes et souverainistes.

5 réponses à “Aucune donnée n’est anonyme

  1. Le corona va tuer, et l’Europe, et l’Ôccident, après, naîtra une nouvelle civilisation afro-asiatique.
    Qu’en pensez-vous, cher saint-Valentin?

    1. Le message est un peu hors sujet 😉 Cela dit, avec la crise sanitaire actuelle, on a vu que des Etats comme la Corée, qui ont usé de technologies de tracking (pistage) de leurs concitoyens, ont su endiguer l’épidémie. En Europe, cela aurait été difficile à mettre en place, car nous nous embourbons parfois dans des discussions philosophiques sur la protection de la sphère privée. Cette crise pourrait changer certains points de vue, mais il faudra faire attention à ne pas céder à plus d’autoritarisme ou plus de surveillance indue.

  2. Quand on parle de technologies de pistage de leurs concitoyens beaucoup parlent généralement de pays comme la Chine ou l’Iran pour ne citer que deux des “grands méchants”.

    Mais ouvrons les yeux: les réseaux dits sociaux sont pires que le KGB et la CIA réunis et une majorité d’internautes confie des données très personnelles à ces réseaux qui ne font rien d’autre que de nous pister, actuellement pour des raisons essentiellement commerciales. Mais, en cas de changement de régime, ces données seraient rapidement déanonymisées et offertes aux nouvelles dictatures qui risquent de plus en plus de se créer à la sortie de crises comme celle du Covid.

  3. Pourquoi devons-nous faire confiance à Swisscom qui par différents agissements par le passé ont montré que seul le profit guide leur stratégie de déployement de “nouveautés”.
    Il faut se dire que depuis quelques mois déja, avec l’expertisse de Huawey qui s’immisce de plus en plus dans nos télécommunication et dans nos strates politiques, Swisscom propose à la confédération des services “nouveaux”.
    Services qui remplaceront généreusement les “lourds et anciens” IMSI Catcher que les polices utilisent allégrement permettant de contrôler et de “monitorer” toute sorte de population, celle qui manifeste, celle qui se rebelle, celle qui échange de nouvelles idées de démocratie, etc… etc…
    Par contre les services moins “rentables” sont en panne comme par exemple les urgences ….
    Et oui nos fonctionnaires fédéraux passent beaucoup de temps à évaluer ces nouveaux “services”.
    Service à la population …. comme il est décrit par l’office fédéral que dirige Mme Amhert!

Laisser un commentaire

Votre adresse de messagerie ne sera pas publiée. Les champs obligatoires sont indiqués avec *