Les modèles d'intelligence artificielle comme ChatGPT et Bard sont entraînés à l'aide de données créées par des humains. Plus ils ingèrent de données, plus ils deviennent intelligents pour imiter l'intelligence et la créativité humaines. De grands acteurs de l'industrie de l'IA, comme OpenAI et Meta, ont déployé de grands modèles de langage formés en grattant des textes et des livres disponibles en ligne pour extraire des données.

En raison de la formation des LLM, il était inévitable qu'il y ait un conflit entre le droit d'auteur et l'intelligence artificielle. Maintenant, les poulets rentrent à la maison pour se percher, alors que Sarah Silverman et d'autres artistes poursuivent OpenAI et Meta pour violation du droit d'auteur.

Dans un recours collectif [PDF] déposée en Californie, la comédienne Sarah Silverman et d'autres écrivains (Christopher Golden et Richard Kadrey) cherchent à obtenir des dommages-intérêts contre OpenAI et Meta pour violation du droit d'auteur. Le procès allègue qu'OpenAI et Meta ont récupéré des livres protégés par des droits d'auteur sur des sites Web pirates pour former leurs modèles d'IA. C'est l'équivalent d'un modèle d'IA téléchargeant ses ensembles de données d'entraînement depuis Piratebay sans dédommager les auteurs.

instagram viewer

Par coïncidence, un recours collectif séparé [PDF] contre OpenAI allègue que la société a utilisé des informations privées non autorisées pour former ChatGPT. Google fait également face à un procès similaire pour avoir prétendument utilisé des données volées pour former Google Bard. C'est pourquoi vous devriez prenez l'habitude de protéger vos informations personnelles, bien que le travail de publication et les données personnelles privées ne soient pas les mêmes.

Quelles sont les chances que Sarah Silverman puisse gagner le procès?

Crédit d'image: freepik

Silverman et d'autres artistes affirment que ChatGPT peut résumer avec précision leurs livres lorsqu'ils y sont invités. La plainte fait valoir que cela ne serait pas possible si le modèle d'IA n'avait pas accès au matériel protégé par le droit d'auteur. Cependant, si ChatGPT a été formé à l'aide de milliards de textes Internet, il est probablement tombé sur des articles, des commentaires et des publications sur les réseaux sociaux discutant des livres.

De plus, Meta a révélé où il avait acquis les livres qu'il utilisait pour former son modèle d'IA - la source a été attribuée à un site Web de torrent de livres électroniques. De même, le recours collectif contre OpenAI mentionne également des sites Web illégaux où OpenAI est soupçonné d'avoir obtenu le matériel protégé par le droit d'auteur, mais OpenAI n'a pas encore confirmé ses sources.

S'il est prouvé qu'OpenAI et Meta ont utilisé des sites Web torrent illégaux pour acquérir du matériel protégé par le droit d'auteur afin de former ses modèles d'IA, Silverman pourrait avoir une chance de gagner le procès. Cependant, les modèles d'IA sont un territoire inexploré sans précédent sur lequel les tribunaux peuvent s'appuyer pour rendre une décision fondée sur la violation du droit d'auteur de l'IA. En fait, c'est une des raisons pour lesquelles l'UE a proposé une loi sur l'IA.

Quel est l'avenir des modèles d'IA et de la loi sur le droit d'auteur?

Nous en sommes encore aux débuts de l'IA pour savoir comment elle s'adaptera à la loi sur le droit d'auteur. C'est encore plus complexe d'essayer de comprendre qui détient les droits d'auteur sur la création de l'IA. Mais pour les créateurs humains, des réglementations existent pour les protéger contre l'accès de quelqu'un d'autre à leur matériel protégé par le droit d'auteur sans compensation, consentement ou crédit. Si les règles existent pour les humains, s'appliqueront-elles aux modèles d'IA ?

Le Parlement européen a rédigé l'aperçu le plus proche de l'avenir de la conformité des modèles d'IA à la législation sur le droit d'auteur. Si la loi européenne sur l'IA est promulguée, les modèles d'IA comme ChatGPT et Bard seront tenus de publier toutes leurs sources d'ensembles de données et les données protégées par le droit d'auteur utilisées pour la formation. Cela aidera à dissiper toute confusion si les modèles d'IA accédaient à des livres, des films, de la musique et des photos protégés par des droits d'auteur pour s'entraîner via des sites Web de piratage illégal.

La décision du recours collectif AI établira un précédent juridique

Les grands modèles de langage peuvent gratter tous les coins d'Internet pour les données utilisées dans la formation. Mais seraient-ils responsables de la violation du droit d'auteur s'ils accédaient à des sites Web torrent illégaux pour acquérir les données? Et s'ils le font, pouvez-vous le prouver ?

Quel que soit le résultat, les recours collectifs contre les entreprises technologiques qui possèdent les modèles d'IA les plus populaires créeront un précédent qui sera pertinent à l'avenir.