Le braconnage des données des entreprises d'IA

24/12/2025

Virgile Heuraux

Résumé

Les entreprises d’IA, poussées par la course à la performance, cherchent toujours plus de données, parfois en franchissant la ligne rouge...

S'inscrire à la newsletter

Inscrivez-vous pour recevoir chaque semaine les derniers articles du blog.

Thank you! Your submission has been received!

Oops! Something went wrong while submitting the form.

Ce n'est un secret pour personne : les entreprises d'IA font la chasse aux meilleures données possibles pour avoir les modèles les plus performants possibles.

Sauf que les entreprises veulent tellement chasser les meilleures données possibles qu'elles en arrivent à utiliser des données dont elles n'ont légalement pas accès.

Lorsqu'une entreprise d'IA fait de la chasse illégalement, on appelle cela du braconnage, et ce sera précisément le sujet d'aujourd'hui : montrer l'ensemble des controverses auxquelles sont confrontées les entreprises d'IA quant à l'utilisation des données.

La ruée vers les données

La performance d’un modèle d’Intelligence Artificielle est intrinsèquement liée à la qualité et à la quantité des données. Pour obtenir un modèle performant, il est impératif de combiner des sources variées pour avoir un panel représentatif et d'éviter les données de mauvaise qualité.

Le but du jeu est simple : avoir le plus de données possibles, et les plus qualitatives possible. Les entreprises d’IA l’ont tellement bien compris qu’elles n’hésitent pas à susciter la controverse pour prendre l’avantage par rapport à la concurrence, notamment en collectant des données qu'elles ne sont pas censées exploiter.

Aujourd’hui, les controverses sont tellement nombreuses qu’il est possible de faire une classification des usages des données les plus discutables. Voici donc ce qui a été relevé :

R&D non rémunérée

La “Recherche et Développement non rémunérée” est un euphémisme pour désigner les violations des droits d’auteur et toutes les utilisations non autorisées d'œuvres protégées pour entraîner des modèles.

C’est la controverse la plus répandue dans l’industrie de l’IA, à raison car les attaques en justice sont nombreuses :

Les sociétés Disney et Universal ont attaqué Midjourney pour avoir entraîné ses modèles sur leurs contenus protégés
Des auteurs ont poursuivi Anthropic, l'accusant d'avoir utilisé "The Pile", un ensemble de données contenant près de 200 000 livres piratés, pour entraîner son modèle Claude
Le New York Times et News Corp (propriétaire du Wall Street Journal) poursuivent respectivement OpenAI et Perplexity pour violation de droits d'auteur, accusant ces IA de copier massivement des articles et de détourner le trafic
Des documents internes ont révélé que Nvidia récupère l'équivalent d'une vie humaine de vidéos par jour sur YouTube et Netflix pour entraîner ses modèles vidéo, ignorant les licences et les refus explicites de ces plateformes
Sony Music Group a envoyé des lettres d'interdiction à plus de 700 entreprises d'IA pour empêcher l'exploitation de son catalogue

En 2025, certains dossiers sont résolus ou en voie de résolution. Dans certains cas, les affaires sont réglées via des settlements, c’est-à-dire des accords financiers pour régler un différend et arrêter les poursuites, comme Anthropic qui a conclu un accord de $1.5 milliard pour régler ses litiges.

Dans d’autres cas, la résolution se fait via des accords de licences où une entreprise d’IA peut exploiter les données d’un média contre rémunération.

L'appropriation des données sur les réseaux

Avec toutes les attaques en justice liées aux droits d’auteurs ayant survenu au cours des dernières années, les entreprises d’IA devaient trouver d’autres moyens pour récupérer des données.

C’est ainsi que les réseaux sociaux sont devenus la cible prioritaire des géants technologiques car ce sont des viviers de données gigantesques, et leurs données sont accessibles publiquement.

Le patient zéro de cette tendance est sans aucun doute Meta qui a admis avoir collecté des données d'utilisateurs depuis 2007. Et cette volonté de collecter des données ne s’arrête pas puisque Meta prévoit d'exploiter les conversations avec Meta AI pour personnaliser les publicités sur ses différentes applications

Le réseau LinkedIn a mis à jour sa politique de confidentialité pour inclure l'utilisation des données des utilisateurs dans l'entraînement de modèles d'IA. Bien qu'il soit possible de se désinscrire via les paramètres, cela n'annule pas l'entraînement déjà réalisé.

Environ un mois après l’annonce de Linkedin, c’est au tour du réseau social X (Twitter) d’annoncer des changements dans l’utilisation des données des utilisateurs pour entraîner les modèles d’IA Grok qui sont développées par l’entreprise xAI. En sachant que X et xAI sont deux entités détenues par Elon Musk, on pouvait s’attendre à ce changement.

L'usage interne des données en entreprise

Il n’y a pas que les données publiques qui peuvent être exploitées pour entraîner des modèles, les données internes d’une entreprise peuvent également être exploitées.

Un exemple tout trouvé pour évoquer ce problème est la controverse autour d’Activision Blizzard, où l’entreprise a utilisé des illustrations conceptuelles créées par des milliers d'artistes pour des jeux vidéo précédents, afin d'entraîner des modèles d'IA générative à la création d'images.

Sauf que cette pratique a été réalisée sans le consentement des artistes originaux qui ont créé ces œuvres. Cela crée une inquiétude majeure parmi les employés : ils craignent que l'entreprise s'accapare tous les bénéfices futurs en utilisant l'IA sans que les artistes ne reçoivent quoi que ce soit.

Du "braconnage" à la "chasse gardée"

Il est intéressant de constater que les méthodes pour accumuler le plus de données possibles ont évolué en fonction des controverses qui ont eu lieu.

De 2020 à 2023, la collecte de données protégées par des droits d’auteur était monnaie courante chez les entreprises d’IA, même si cette époque a été marquée par des scandales, en particulier celui de Clearview AI à l’époque.

Mais c’est depuis l’année 2023, lorsque les attaques en justice se sont multipliées, que les mentalités ont changé.

Avant l’année 2023, cette période pouvait être considérée comme un “Far West” où presque tout est basé sur les rapports de force, y compris quand il s’agit de gérer des litiges

Depuis 2023, on est passés d’un Far West à un contrôle des sources de données. L’objectif consiste désormais à contrôler des sources de données publiquement accessibles (comme par exemple les réseaux sociaux), et agir de façon à pouvoir exploiter ces dernières de façon légale.

Aujourd’hui, les entreprises d’IA cherchent à contrôler le plus de sources de données possibles pour que leurs modèles d’IA en bénéficie :

Les données de X (Twitter) bénéficient à Grok
Les données de Google bénéficient à Gemini
Les données de plusieurs médias bénéficient à ChatGPT et Perplexity

Plus une entreprise d’IA possède des sources de données différentes, plus elle est susceptible de créer des modèles performants.

Ce n’est pas un hasard si le modèle Gemini de Google est considéré comme le plus performant à l’heure actuelle, car Google a accès à son moteur de recherche éponyme qui est une source extrêmement précieuse pour obtenir des données de qualité.

Finalement, nous sommes passés du “braconnage” de données à la “chasse gardée” de données, la différence principale de la chasse gardée est que les utilisateurs acceptent que leurs données soient exploitées.

L'utilisation saine des données existe

Malgré ce changement de paradigme, le problème de fond est toujours le même : les entreprises d’IA cherchent à s’approprier les données de tous les utilisateurs, avec ou sans leur avis.

Heureusement, il existe des solutions mises en place pour que les données puissent être utilisées par les entreprises d’IA sans aucune controverse.

Les jeux de données Open Source

Il existe des jeux de données (ou datasets) qui sont régulièrement utilisés pour entraîner des modèles, et dont le contenu peut être réutilisé librement.

Wikipédia fait partie des entités ayant publié un dataset librement utilisable. Au départ, ce dataset a été créé pour faire dégager les bots de scraping, des robots chargés de collecter les données des pages web, qui saturaient les serveurs de Wikipédia.

Finalement, c'est un des rares datasets qui soient utilisables sans risque d’être attaqué pour droits d’auteur.

Un modèle économique différent

La seule et unique raison pour laquelle les artistes font autant d’attaques en justice contre les entreprises d’IA, c’est car les artistes ne sont pas rémunérés pour les données qu’ils créent.

Pour que des créateurs soient rémunérés directement par les entreprises d'IA, il faut un modèle économique différent, et c’est là qu’intervient le “Pay-Per-Crawl”, un système créé par l’entreprise Cloudflare.

Dans ce système, chaque bot (robot d’indexation, récolte de données…) doit payer un montant défini par le créateur pour accéder au site web. S’il paie, il peut accéder au site et à ses données. Dans le cas contraire, son accès est bloqué.

Il existe même des initiatives comme le protocole de paiement x402 qui cherche à intégrer les paiements des agents IA sur la blockchain avec le stablecoin USDC

Ainsi, les entreprises d’IA payent les créateurs pour avoir un accès légitime à leurs données, et c’est une méthode beaucoup plus constructive que la réappropriation.

‍

Webinar gratuit

Nos experts répondent à vos questions sur l'intelligence artificielle !

S'inscrire au Webinaire

Tout savoir sur l'intelligence artificielle

S'inscrire à notre Webinar gratuit

Tout savoir sur la blockchain

S'inscrire à notre Webinar gratuit

Webinar gratuit

Nos experts répondent à vos questions sur la blockchain !

S'inscrire au Webinaire

Accédez gratuitement à vos premières heures de formation Consulting Blockchain

“Suivi 3 formations Alyra depuis janvier 2024 pour dire à quel point j'ai aimé.”

Thomas

Accédez gratuitement à vos premières heures de formation Consulting Blockchain

“Formation de grande qualité qui se déroule dans un esprit familial tout en étant entouré par les pointures de l'éco-système.”

Laurent GM

Cliquez ici

Accédez gratuitement à vos premières heures de formation développement Blockchain

“Une formation exceptionnelle de par sa pertinence, son organisation et la qualité des intervenants. ”

François Duchene

Cliquez ici