Les poursuites pour atteinte aux droits d’auteur contre OpenAI s’accumulent alors que l’entreprise technologique cherche des données pour former son IA

Les poursuites pour atteinte aux droits d'auteur contre OpenAI s'accumulent alors que l'entreprise technologique cherche des données pour former son IA

OpenAI utilise toutes les données accessibles au public pour entraîner ChatGPT, y compris les livres et les articles provenant d’Internet. Désormais, ceux qui les possèdent veulent être payés pour leur travail.

Les données d’entraînement sont un élément essentiel de la création des modèles d’IA qui envahissent le monde de la technologie. Les grandes entreprises technologiques comme Google, Meta, OpenAI, Anthropic et Microsoft s’efforcent toutes de trouver de nouvelles sources de données. Meta a même envisagé à un moment donné d’acheter Simon & Schuster, l’une des plus grandes maisons d’édition au monde.

Le problème est que les éditeurs accusent de plus en plus ces entreprises de s’accaparer des données protégées par le droit d’auteur. Ils aimeraient être rémunérés pour leur travail. Meta et OpenAI ont fait valoir dans des commentaires adressés au Bureau américain du droit d’auteur que la mise en ligne de matériel protégé par le droit d’auteur le rend « accessible au public » et donc conforme à l’usage équitable.

Mais ils devront encore faire valoir cet argument devant le tribunal, car l’entreprise fait face à des poursuites judiciaires de la part de plusieurs groupes au sujet du matériel protégé par le droit d’auteur.

Le Center for Investigative Reporting, une organisation à but non lucratif connue parfois sous son acronyme CIR et qui a fusionné avec Mother Jones et Reveal plus tôt cette année, a intenté la semaine dernière un procès à OpenAI et Microsoft devant un tribunal fédéral. Le procès accuse OpenAI d’avoir « été bâti sur l’exploitation d’œuvres protégées par le droit d’auteur appartenant à des créateurs du monde entier, y compris le CIR ».

Les avocats du CIR ont accusé OpenAI et Microsoft d’avoir utilisé du matériel protégé par le droit d’auteur de Mother Jones pour former leurs modèles d’IA GPT et Copilot.

« OpenAI et Microsoft ont commencé à récupérer nos articles pour rendre leur produit plus puissant, mais ils n’ont jamais demandé la permission ni offert de compensation, contrairement à d’autres organisations qui accordent des licences pour notre matériel », a déclaré Monika Bauerlein, PDG du Center for Investigative Reporting, dans un communiqué concernant le procès. « Ce comportement de passager clandestin est non seulement injuste, mais constitue également une violation du droit d’auteur. »

La poursuite indique que « 16 793 URL distinctes du domaine Web de Mother Jones » sont apparues dans une liste publiée des principaux domaines Web présents dans l’ensemble de formation WebText de la société.

Dans un autre recours collectif intenté par la Guilde des auteurs, deux auteurs ont affirmé que la société avait utilisé les informations de leurs livres pour former ChatGPT. Le New York Times a également intenté une action similaire contre la société en décembre 2023.

En mai, des documents judiciaires dans le cadre du procès intenté par la Guilde des auteurs ont révélé qu’OpenAI avait supprimé deux énormes ensembles de données utilisés pour entraîner GPT-3. Les avocats de la Guilde ont déclaré que les deux ensembles contenaient probablement « plus de 100 000 livres publiés ».

Les deux employés responsables de la collecte des données ne travaillent plus pour OpenAI, selon les documents judiciaires.

OpenAI a commencé à signer des accords de licence avec des organisations de presse pour utiliser équitablement leur travail. La société a signé de tels accords avec l’Associated Press, les éditeurs du Wall Street Journal et du New York Post, The Atlantic, Prisa Media, le journal Le Monde, le Financial Times et la société mère de Trading Insider, Axel Springer.

Mais l’ampleur du contenu requis pour que ces robots puissent apprendre en continu nécessitera bien plus qu’une poignée d’accords de licence.

Une solution consiste à utiliser des données synthétiques, générées artificiellement plutôt que collectées dans le monde réel, et qui peuvent être facilement générées par des algorithmes d’apprentissage automatique.

OpenAI a envisagé les données synthétiques comme une option pour former ses modèles, mais le PDG Sam Altman a exprimé des inquiétudes quant à la production de données de qualité.

« Tant que vous parvenez à dépasser l’horizon des événements de données synthétiques, où le modèle est suffisamment intelligent pour générer de bonnes données synthétiques, tout ira bien », Altman a déclaré lors d’une conférence technologique en mai 2023. L’entreprise a également exploré un processus dans lequel les modèles d’IA fonctionnent ensemble : un système d’IA produit des données, tandis qu’un autre les juge.

OpenAI n’a pas immédiatement répondu à une demande de commentaire de Trading Insider.


A lire également