You are currently viewing Collecte massive de vidéos de YouTube par Nvidia et OpenAI. Des nouveaux procès.
https://pixabay.com/photos/legal-illegal-choose-choice-1143114/

Récemment, Nvidia et OpenAI ont fait l’objet de poursuites de la part de la Commission fédérale du commerce des États-Unis pour leurs positions dominantes sur le marché de l’intelligence artificielle. En août 2024, Nvidia et OpenAI ont de nouveau fait l’objet d’un recours collectif pour l’utilisation et la collecte non consensuelles des vidéos des utilisateurs de YouTube pour entraîner leurs systèmes d’IA. Deux plaintes distinctes ont été déposées auprès du tribunal de district de Californie par David Millette au nom d’autres utilisateurs de YouTube et créateurs de vidéos. Les deux demandes sont fondées sur deux motifs : l’enrichissement sans cause et la concurrence déloyale.

L’affaire OpenAI

Selon la plainte, à l’insu des personnes qui téléchargent des vidéos sur YouTube, OpenAI transcrit secrètement des vidéos YouTube pour créer des ensembles de données d’entraînement qu’elle utilise ensuite pour former ses produits d’IA, GPT-3.5, GPT-4 et GPT-4o. Les transcriptions vidéo constituent toutefois un ingrédient clé des ensembles de données d’entraînement pour les grands modèles de langage, car elles offrent de nombreux exemples de langage naturel.

En 2022, OpenAI a publié un système de reconnaissance automatique de la parole (ASR) appelé Whisper. Le modèle de Whisper, qui transcrit l’audio en texte, a été formé à partir de 680 000 heures de données collectées sur le web. Un rapport du New York Times affirme par ailleurs que Whisper est capable de transcrire l’audio de vidéos YouTube et que OpenAI a transcrit plus d’un million d’heures de vidéos YouTube. 

L’affaire Nvidia

Nvidia a créé Cosmos AI, un service d’apprentissage profond de l’IA destiné à soutenir d’autres produits d’IA, tels que la génération d’images et la conduite automatisée. Pour développer son produit Cosmos AI, Nvidia a utilisé des millions de vidéos YouTube sans le consentement de leurs créateurs. L’entreprise tire profit de la collecte et de l’utilisation de ces vidéos en créant un logiciel d’IA essentiel au soutien de ses produits, comme sa plateforme Omniverse. Celle-ci permet aux développeurs de créer diverses applications et logiciels et a été utilisée par plus de 2,5 millions de développeurs dans le monde en 2021.

Pour entraîner CosmosAI, Nvidia aurait supposément demandé à ses employés d’utiliser des outils tels que le téléchargeur de vidéos YouTube open sources. Cela leur permet d’utiliser des machines virtuelles pour télécharger des vidéos complètes tout en échappant à la détection et aux blocages de YouTube. En outre, des machines virtuelles sur Amazon Web Services sont utilisées pour rafraîchir les adresses IP, ce qui permet de télécharger environ 80 années de contenu vidéo par jour. Entre février et mars 2024, l’équipe de Nvidia a prétendument téléchargé 100 000 vidéos.

Questions juridiques et éthiques

Les méthodes d’acquisition de données de NVIDIA et d’OpenAI ont soulevé d’importantes questions juridiques et éthiques. Millette ne porte pas plainte pour violation du droit d’auteur et invoque uniquement l’enrichissement sans cause et la concurrence déloyale pour l’utilisation de transcriptions vidéo sans consentement ni compensation.

Selon les conditions d’utilisation de YouTube, l’entreprise n’est pas autorisée à utiliser les données de YouTube sans permission. Le New York Times a rapporté que certains employés de Google savaient qu’OpenAI collectait des vidéos YouTube pour obtenir des données d’entraînement. Cependant, ils n’ont rien signalé, car la société détenue par Alphabet faisait de même pour développer son propre système d’intelligence artificielle. Si Google a dénoncé OpenAI pour avoir éventuellement violé les droits d’auteur des créateurs de YouTube, il pourrait être confronté à un retour de bâton similaire.

En ce qui concerne l’affaire Nvidia selon des documents ayant fait l’objet d’une fuite et obtenus par 404 Media, plusieurs employés ont remis en question la collecte de données et se sont vu répondre par des cadres que la décision avait été approuvée par la direction de l’entreprise. Un ancien employé de NVIDIA a révélé que la société avait également ciblé Netflix, bien que les conditions de service de Netflix interdisent explicitement de telles activités de scraping.

Nvidia et OpenAI s’empressent probablement de construire leurs modèles alors que les questions relatives aux droits d’auteur et à la formation en IA ne sont pas encore réglées, ce qui crée une vaste zone d’ombre juridique. Pour l’instant, il n’existe pas de loi spécifique sur l’apprentissage de l’IA. Plusieurs projets de loi au Congrès américain abordent spécifiquement cette question, comme l’AI Foundation Model Transparency Act et le Generative AI Copyright Disclosure Act, mais ils ne représentent qu’une étape vers l’établissement d’un cadre de transparence et de responsabilité dans le domaine de l’intelligence artificielle, qui évolue rapidement.

Tous les principaux acteurs dans ces affaires sont américains : les grands modèles linguistiques tels que ChatGPT, les principaux fournisseurs de puces, la base de données vidéo YouTube largement utilisée par les Européens. Par conséquent, de nombreuses questions relatives à la protection de la vie privée qui auraient pu être soulevées dans le cadre du RGPD dépendent désormais de la manière dont les tribunaux américains statueront sur ces affaires.

Emiliya Ramazanova

Promotion 2023/2024

Sources

https://pdfserver.amlaw.com/legalradar/pm-54705360_complaint.pdf 

https://storage.courtlistener.com/recap/gov.uscourts.cand.433675/gov.uscourts.cand.433675.1.0.pdf 

https://www.nytimes.com/2024/04/06/technology/tech-giants-harvest-data-artificial-intelligence.html?unlocked_article_code=1.iU0.13An.q-QvpzP7nvQ_&smid=url-share 

https://www.firstpost.com/tech/nvidia-has-been-stealing-unbelievable-amounts-of-data-videos-from-youtube-netflix-to-train-its-own-ai-13801619.html 

https://www.404media.co/nvidia-ai-scraping-foundational-model-cosmos-project/

A propos de Emilia RAMAZANOVA

Laisser un commentaire

Ce site utilise Akismet pour réduire les indésirables. En savoir plus sur comment les données de vos commentaires sont utilisées.