Publié le 18 janvier 2026 06:40:00. L’essor fulgurant de l’intelligence artificielle générative, notamment des grands modèles de langage comme ChatGPT, s’accompagne de risques financiers et juridiques insoupçonnés, révélés par de nouvelles recherches sur la reproduction de contenus protégés par le droit d’auteur.
- Les fournisseurs d’infrastructures cloud (Amazon, Google, Meta, Microsoft, Oracle) ont levé 121 milliards de dollars de dettes en 2025 pour financer le développement de l’IA.
- Des études récentes démontrent que les modèles d’IA peuvent reproduire intégralement des œuvres littéraires protégées par le droit d’auteur, contredisant l’argument selon lequel ils ne feraient que stocker des relations statistiques entre les mots.
- Des techniques de “jailbreak” permettent d’extraire des livres entiers de ces modèles, soulevant des questions cruciales sur la propriété intellectuelle et la légalité de leur utilisation.
L’investissement massif dans l’intelligence artificielle générative, bien que porteur de promesses, s’avère de plus en plus tributaire d’un endettement considérable. Selon les estimations de BNY Mellon, les géants du cloud computing ont contracté 121 milliards de dollars de nouvelles dettes en 2025, dont plus de 90 milliards de dollars rien qu’au quatrième trimestre. Oracle et Meta sont particulièrement concernés par cette augmentation du risque, comme en témoignent l’élargissement des spreads de crédit et l’intérêt croissant des investisseurs pour les *credit default swaps* (instruments financiers utilisés pour se prémunir contre le défaut de paiement).
UBS prévoit jusqu’à 900 milliards de dollars de nouvelles dettes émanant des entreprises mondiales d’ici 2026, tandis que Morgan Stanley et JP Morgan estiment que le secteur technologique pourrait avoir besoin de lever jusqu’à 1 500 milliards de dollars (1,5 trillion de dollars) au cours des prochaines années pour financer l’IA et la construction des centres de données nécessaires à son fonctionnement.
Au-delà des questions financières, la propriété intellectuelle constitue un enjeu majeur. Les entreprises développant des grands modèles de langage (LLM) sont confrontées à des poursuites judiciaires pour utilisation non autorisée de contenus protégés par le droit d’auteur dans leurs processus d’apprentissage. L’argument souvent avancé par l’industrie est que les LLM ne stockent pas les œuvres originales, mais des relations statistiques entre les mots. Ils ne feraient que reconstituer des informations à partir de ces relations, sans reproduire fidèlement les œuvres.
Cependant, de nouvelles recherches menées par Ahmed Ahmed, Sanmi Koyejo et Percy Liang de l’Université de Stanford, ainsi que par A. Feder Cooper de Stanford et Yale, remettent en question cette affirmation. Leur travail fait suite à la plainte déposée par The New York Times contre OpenAI (les créateurs de ChatGPT) et Microsoft. La plainte soulignait que les outils d’IA générative basés sur des LLM pouvaient reproduire textuellement, résumer fidèlement et imiter le style expressif des articles du journal.
Les chercheurs ont découvert que la capacité de reproduction s’étend au-delà des articles et peut concerner des livres entiers. “Bien que beaucoup pensent que les LLM ne mémorisent pas une grande partie de leurs données d’entraînement, des travaux récents montrent que des quantités substantielles de textes protégés par le droit d’auteur peuvent être extraites de modèles à poids ouvert”, résument-ils.
Pour parvenir à cette extraction, ils ont utilisé une technique de “jailbreak” appelée Best-of-N, qui consiste à générer de multiples variations d’une requête en modifiant aléatoirement certains éléments (mélange de majuscules et minuscules, etc.) jusqu’à obtenir une réponse non censurée. Ils ont ensuite appliqué une suite itérative de requêtes pour extraire le livre cible.
Les tests ont été menés sur quatre LLM de production : Claude 3.7 Sonnet, GPT-4.1, Gemini 2.5 Pro et Grok 3. Gemini 2.5 Pro et Grok 3 ont pu extraire respectivement 76,8 % et 70,3 % du contenu de Harry Potter à l’école des sorciers sans nécessiter de “jailbreak”. Claude 3.7 Sonnet et GPT-4.1 ont quant à eux nécessité l’utilisation de la technique de contournement.
Au total, les chercheurs ont tenté d’extraire 13 livres, dont 11 étaient protégés par le droit d’auteur américain et deux relevaient du domaine public (Frankenstein et Le Magnifique Gatsby). Les autres ouvrages protégés étaient Harry Potter et la Coupe de Feu, 1984, Le Hobbit, Le Gardien dans le Seigle, Le Trône de Fer, Beloved, Da Vinci Code, Hunger Games, Catch-22 et La Guerre des Duchesses.
Même si l’extraction n’a pas toujours été complète, les résultats contredisent l’idée selon laquelle les LLM ne stockent pas des œuvres entières. “Pour Claude 3.7 Sonnet, nous avons pu extraire quasi textuellement quatre livres entiers, dont deux livres sous copyright aux États-Unis : Harry Potter à l’école des sorciers et 1984”, précisent les chercheurs. Ils soulignent que, même si les fichiers sont fragmentés et stockés à différents endroits, la possibilité de les reconstituer soulève des questions fondamentales sur la légitimité de leur utilisation.
