RGPD vs ChatGPT : les quatre chefs d'inculpation d'OpenAI

Les quatre constats qui ont motivé la décision de l'autorité de contrôlé italienne de suspendre ChatGPT passés au crible.

C'est un bug provoquant une fuite de données le 20 mars dernier qui a alerté l'autorité italienne de protection des données personnelles au sujet de ChatGPT. Dans sa décision vendredi 31 mars d'interdire temporairement l'outil de traiter les données personnelles des citoyens italiens, l'autorité dresse quatre constats sur le fonctionnement général de ChatGPT et sa manière de collecter et de traiter les données des utilisateurs et de les en informer, qui servent de base à un doute suffisant sur la non-conformité de l'outil au Règlement général sur la protection des données (RGPD). Nous vous expliquons ces quatre arguments et les mettons en perspective. Rappelons par ailleurs que le Commissariat à la protection de la vie privée du Canada a annoncé mardi 3 avril qu'il ouvrait une enquête sur OpenAI à la suite d'une plainte selon laquelle des renseignements personnels ont été recueillis, utilisés et communiqués sans consentement.

Constat n° 1 : "Aucune information n'est fournie aux utilisateurs dont les données sont collectées par OpenAI."

En réalité, il est inexact de dire qu'aucune information n'est fournie aux utilisateurs dont les données sont collectées par OpenAI : à différents pages, l'entreprise indique non seulement qu'elle collecte des données personnelles mais également à quelles fins elle le fait. "Le problème, c'est que l'information n'est pas donnée de façon claire et complète au préalable de la collecte : on peut la trouver mais à différents endroits, dans une multitude de documents juridiques et non-juridiques", précise Alexandra Iteanu, avocate responsable du pôle RGPD et data au sein du cabinet Iteanu Avocats.

Deuxième souci : quand l'utilisateur utilise directement le service de ChatGPT en ligne, les données qu'il fournit à l'IA sont traitées par défaut par OpenAI, sans consentement préalable. Même si OpenAI précise dans une page de blog ne pas traiter des données à caractère personnel dans ce cas, rappelons qu'une page de blog n'est pas un document juridique et que ce type de déclaration ne suffit a priori pas pour rassurer les autorités de contrôle : "Ils doivent fournir des garanties qu'ils anonymisent la donnée, c'est-à-dire qu'ils rendent techniquement impossible leur réutilisation", précise Alexandra Iteanu.

OpenAI collecte deux types de données sur ChatGPT. Tout d'abord, les données personnelles des utilisateurs (e-mail et numéro de portable) leur permettant de créer un compte et d'utiliser le service gratuit ou payant (dans ce cas il fournit également ses données de carte bancaire), dont les modalités de collecte et traitement sont précisées dans une page consacrée à la politique de confidentialité. Ensuite, le contenu fourni par l'utilisateur dans ses requêtes, lui aussi susceptible d'être traité par ChatGPT, comme précisé dans les conditions générales d'utilisation du service. Point important : OpenAI indique ne pas stocker les données fournies par les utilisateurs finaux dans leurs requêtes dans le cadre de services proposés par des entreprises se servant de ChatGPT via API.

Constat n° 2 : "Aucune base juridique ne semble sous-tendre la collecte et le traitement massifs de données à caractère personnel en vue "d'entraîner" les algorithmes sur lesquels la plateforme s'appuie."

Comme l'indique OpenAI, ChatGPT a été entraîné sur la base d'un large corpus de textes publiés sur Internet jusqu'au 31 décembre 2021, issus de sites web, articles, livres et de posts sur les réseaux sociaux, entre autres. L'entreprise se garde cependant de donner plus de détails sur ses sources. Ces dernières peuvent-elles contenir des données à caractère personnel ? La réponse est oui.

"Techniquement ChatGPT peut se nourrir de données personnelles, mais je ne pense pas que cela serve le moteur car les données publiées par les individus peuvent générer beaucoup plus de biais et d'erreurs que des résultats fiables", déclare Louis Deslus, growth hacker. Robin Bourdet, patron de Merci Facteur, solution d'envoi de courrier postal qui propose un robot de rédaction assistée alimenté par ChatGPT-4, abonde dans ce sens : "OpenAI tient nécessairement compte de la fiabilité des sources, un sujet majeur en matière d'IA : l'outil peut faire la part des choses entre une source fiable de données non sensibles et une page affichant des données dérobées. De plus, les datas sont caractérisées par des formats – nom, prénom, numéro de téléphone – et ces outils sont tout à fait capables de prévoir des filtres pour ne pas les restituer. Quand on essaye de titiller ChatGPT sur des sujets qui sont interdits par la plateforme, par exemple concernant des propos racistes ou qui puissent heurter la loi, rien ne sort. Je pense que la même chose a été prévue pour les données personnelles", conclut l'ingénieur.

"ChatGPT a scrappé le web sans informer ni obtenir de consentement préalable des utilisateurs : il n'y a donc pas de base légale"

Tous ces arguments techniques n'empêchent cependant pas l'outil d'être non conforme : "Le web est rempli de données personnelles accessibles publiquement. ChatGPT a scrappé le web sans informer ni obtenir de consentement préalable des utilisateurs : il n'y a donc pas de base légale pour cette collecte massive, qui est par conséquent non-conforme au RGPD", assure Alexandra Iteanu.

Nous avons demandé à ChatGPT s'il était capable de trouver des données à caractère personnel sur sa base de données d'entrainement. Voici sa réponse : "En tant qu'assistant virtuel, je suis programmé pour respecter la vie privée et la confidentialité des utilisateurs. Cela signifie que je suis conçu pour ne pas stocker ou utiliser de données à caractère personnel sans le consentement explicite de l'utilisateur. Mon entraînement est basé sur un ensemble de données qui a été soigneusement nettoyé et anonymisé pour éviter tout risque de divulgation d'informations personnelles." La réponse se veut rassurante.

Constat n°3 : "Comme le confirment les tests effectués jusqu'à présent, les informations mises à disposition par ChatGPT ne correspondent pas toujours aux circonstances factuelles, de sorte que des données personnelles inexactes sont traitées."

Il est tout à fait plausible d'après les experts que nous avons consultés que des données personnelles inexactes soient traitées par l'IA. Mais ce qui semble sûr : ces dernières ne sont pas restituées. Aucun des tests que nous ou le experts consultés avons effectués n'ont abouti à ce que l'outil fournisse des résultats basés sur des données personnelles. "Contrairement à Google, ChatGPT n'a rien à faire des données personnelles : les informations publiques qu'il traite servent à donner des résultats plus pertinents, c'est tout. J'ai déjà essayé de demander à ChatGPT de me ressortir une donnée précise, il n'est pas conçu pour cela. L'outil ne restitue pas non plus des données personnelles publiées sur des profils, il ne fait pas de web scrapping", rappelle Louis Deslus. Plus encore, ChatGPT refuse explicitement de fournir des données personnelles ou adresses e-mail en indiquant que "il n'est pas éthique ni légal de collecter ou de divulguer des informations personnelles sans le consentement explicite de chaque individu".

Mais cela ne change pas grand-chose à la non-conformité : "Que l'information soit rendue publique ou non, ce qui compte c'est le fait de la traiter de manière conforme au RGPD, ce qui implique l'obligation d'information et de consentement préalables", insiste Alexandra Iteanu.

Constat n° 4 : "L'absence de tout mécanisme de vérification de l'âge expose les enfants à recevoir des réponses inappropriées à leur âge et à leur sensibilité, même si les conditions d' utilisation du service réservent l'utilisation aux personnes âgées de plus de 13 ans."

C'est un fait mais n'est-ce pas le cas également de tous les réseaux sociaux dont l'utilisation est interdite aux moins de 13 ans ? Justement à ce propos TikTok s'est vu imposer mardi 3 avril une amende de 12,7 millions de livres (14,5 millions d'euros) par le régulateur britannique numérique, l'ICO, pour utilisation "illégale" de données personnelles d'enfants. L'ICO estime notamment que le réseau social chinois a permis à jusqu'à 1,4 million d'enfants de moins de 13 ans au Royaume-Uni d'ouvrir un compte sur sa plateforme en 2020, contrairement à ses règles officielles.