Publié le 20 décembre 2025. Une expérience menée à l’Université de la Ruhr à Bochum révèle que l’intelligence artificielle générative, comme ChatGPT, est capable de rédiger des dissertations juridiques de niveau universitaire qui passent inaperçues lors de la correction, soulevant des questions sur l’avenir des méthodes d’évaluation traditionnelles en droit.
- Des étudiants peuvent obtenir une note moyenne à une dissertation juridique en utilisant uniquement la version gratuite de ChatGPT.
- Aucun des correcteurs n’a suspecté que le texte avait été généré par une IA.
- L’expérience souligne la nécessité de repenser les devoirs comme format d’examen.
L’intelligence artificielle générative (IA) représente un défi croissant pour les établissements d’enseignement supérieur, notamment dans le domaine du droit. Si l’interdiction de l’IA lors des examens non surveillés semble une solution évidente, sa mise en œuvre s’avère complexe. Les universités explorent donc d’autres pistes, comme des déclarations d’engagement et des exigences d’étiquetage, voire la question de savoir si une interdiction est réellement justifiée, comme le suggère un guide publié par l’Université de Regensburg.
Les devoirs, en particulier, sont susceptibles de voir émerger une forme de “compétition accélérée“, où l’effet d’apprentissage et la valeur de l’évaluation pourraient être compromis.
Pour tester cette hypothèse, les Dr. Jan David Hendricks et Fabien Josten, de l’Université de la Ruhr à Bochum, ont soumis une dissertation sur le droit général des obligations, rédigée par ChatGPT, à quatre correcteurs. Ils ont utilisé la version gratuite de ChatGPT (modèles GPT-5 et 4o) pour générer à la fois un plan et le rapport complet, en accord avec le responsable de l’examen.
L’objectif de cette expérience était de déterminer dans quelle mesure les outils d’IA accessibles au public peuvent remettre en question les méthodes d’évaluation traditionnelles en droit allemand. Les chercheurs se sont concentrés sur les performances d’étudiants ayant une motivation et des compétences en IA moyennes, en utilisant uniquement des modèles gratuits.
Les quatre étapes de la rédaction d’un devoir assisté par IA
La première étape a consisté à créer deux instructions (prompts) : une pour le plan et une pour le rapport. Ces instructions ont été affinées après plusieurs tests. Il était essentiel que le plan et le rapport soient cohérents et poursuivent le même objectif.
Pour générer un plan détaillé, les chercheurs ont téléchargé l’énoncé du devoir sur ChatGPT, accompagné d’un manuel de droit des obligations, et ont exécuté l’instruction de plan. Ils n’ont pas apporté de modifications à la sortie générée, afin de ne pas influencer le modèle.
La rédaction du rapport a été la phase la plus difficile. La tâche était trop vaste pour être générée en une seule fois, et la limite de jetons de la version gratuite était insuffisante. Ils ont donc généré des parties individuelles, en demandant à ChatGPT de définir les priorités. Le défi était de maintenir une vue d’ensemble, car la génération de parties isolées risque de perdre de vue le contexte général.
Pour résoudre ce problème, ils ont élaboré un plan pondéré, indiquant le pourcentage de l’évaluation que chaque partie du rapport devait représenter.
Ils n’ont pas modifié le contenu du rapport généré, se contentant de le résumer et de le formater selon les exigences de la faculté.
La dernière étape a concerné les notes de bas de page. ChatGPT n’ayant pas accès aux bases de données juridiques, il ne pouvait citer que des décisions accessibles en ligne et éliminer les références du manuel téléchargé. Les chercheurs ont donc dû s’écarter du principe du “ChatGPT pur” et ajouter manuellement des notes de bas de page là où elles étaient attendues, en veillant à ne pas influencer positivement ou négativement la notation.
En résumé, ChatGPT a produit le texte du rapport sans intervention humaine sur le contenu. Seules les notes de bas de page et la bibliographie ont été créées manuellement.
Les notes des correcteurs : 3, 6, 6 et 8 points
Le devoir résultant a été distribué avec les autres travaux à quatre correcteurs qui ignoraient son origine. Les résultats ont été les suivants : une note de 3 (insatisfaisant), deux notes de 6 (suffisant) et une note de 8 (satisfaisant). La moyenne de 5,75 points est proche de la moyenne globale (6,05 points pour 241 travaux). ChatGPT a donc réussi à rédiger une dissertation de droit des obligations dans une université allemande.
Fait marquant, aucun des correcteurs n’a soupçonné que le texte avait été généré par une IA. Leurs critiques étaient similaires, portant principalement sur le manque de références aux normes et une argumentation parfois inadéquate. Ils ont également souligné le manque de profondeur dans l’analyse.
Cependant, les correcteurs ont également noté que le travail présentait des résultats appropriés et juridiquement corrects, et démontrait une maîtrise des règles complexes du BGB (Code civil allemand). L’IA n’a pas atteint la solution du modèle, mais a proposé des conclusions justifiables.
La conception du système de notes de bas de page et de la bibliographie a permis d’éviter d’influencer la note : certains correcteurs ont critiqué le manque de diversité dans les sources, tandis que d’autres ont estimé que la sélection et la portée des sources étaient appropriées.
Quelles implications pour les devoirs comme format d’examen ?
Bien que l’échantillon soit limité, les résultats sont significatifs. Il est possible d’obtenir une note moyenne à une dissertation juridique en utilisant uniquement un texte généré par l’IA, sans obtenir les meilleures notes.
L’effort principal réside dans la préparation : il faut des instructions bien formulées, ce qui confirme l’idée d’une “compétition de prompts”, et une révision des sources et des formalités. Les sources doivent être vérifiées dans les bases de données pertinentes. Les limites quotidiennes de la version gratuite peuvent être un obstacle, mais le temps nécessaire à la génération, au formatage et à la recherche des références est d’environ deux à trois jours, ce qui est raisonnable compte tenu du temps dont disposent les étudiants pour leurs devoirs.
Ce test préliminaire montre que les jours des devoirs traditionnels comme format d’examen sont comptés.
Le Dr Jan David Hendricks est un ancien conseiller pédagogique et candidat à l’habilitation à la chaire du Prof. Dr. Katharina Uffmann en droit civil, droit des sociétés (droit du travail et droit des sociétés) et droit des entreprises familiales à l’Université de la Ruhr à Bochum.
Fabien Josten y est étudiant assistant.
Un rapport détaillé sur l’expérience paraîtra dans le numéro 2/2026 de la Revue de didactique du droit (ZDRW).
Vous cherchez un emploi ? Visitez maintenant le marché du travail LTO Career.
