Publié le 13 janvier 2026 à 23h17. Un nouvel ouvrage explore l’essor de l’intelligence artificielle (IA) dans le domaine de la découverte électronique (eDiscovery), affirmant que les algorithmes surpassent désormais les humains dans l’examen et la classification des documents juridiques.
- L’ouvrage de Jim Sullivan met en avant une approche basée sur les « invites » pour l’IA, contrairement à la formation traditionnelle par des exemples.
- La validation des résultats de l’IA, selon l’auteur, repose sur des méthodes éprouvées de classification (vrais positifs, faux positifs, etc.) et de calcul de la précision et du rappel.
- La confidentialité et la sécurité des données sont soulignées, avec un avertissement sur les produits gratuits qui peuvent utiliser les données des utilisateurs.
Jim Sullivan, dans son livre intitulé The Book on AI Doc Review (IA de découverte électronique, 2024), avance une thèse audacieuse : les ordinateurs sont désormais capables d’analyser et de trier les documents juridiques avec une efficacité supérieure à celle des experts humains. Cette affirmation, qui pourrait bien révolutionner le secteur de l’eDiscovery, est au cœur de son analyse comparative entre l’IA, la révision assistée par la technologie (TAR) et le codage prédictif.
Contrairement au TAR, qui nécessite l’intervention humaine pour « entraîner » la machine, l’IA, selon Sullivan, fonctionne grâce à des instructions précises, appelées « invites ». Il illustre cette approche avec un exemple concret :
« Tous les documents dans lesquels un employé d’Acme suggère que le prix des widgets soit modifié. »
Jim Sullivan, The Book on AI Doc Review (IA de découverte électronique, 2024).
L’auteur souligne que ces invites se présentent sous la forme de demandes de production, et qu’il est souvent judicieux de reprendre le libellé exact de ces demandes pour guider l’IA. Il estime que l’IA peut identifier plus de 95 % des documents pertinents, un taux de réussite significatif.
Les chapitres pratiques du livre, consacrés à la mise en œuvre concrète de ces techniques, ont particulièrement intéressé Michael Berman, l’auteur de la critique. Sullivan propose une méthode étape par étape, basée sur un échantillonnage aléatoire pour le « contrôle qualité » (CQ) des résultats. Il utilise les concepts classiques de vrais positifs, de vrais négatifs, de faux positifs et de faux négatifs pour calculer des indicateurs clés tels que le rappel et la précision, des techniques déjà employées dans les recherches par mots-clés, mais ici appliquées à l’IA.
Les formules utilisées sont simples :
Rappel = VP/(VP + FN)
Précision = VP/(VP + FP)
(VP = Vrais positifs, FN = Faux négatifs, FP = Faux positifs)
L’auteur insiste sur l’importance de la validation des résultats. Il la décrit comme un processus essentiel, résumant son point de vue ainsi :
« La seule chose qui compte est la façon dont vous validez les résultats et démontrez un résultat de haute qualité. »
Jim Sullivan, The Book on AI Doc Review (IA de découverte électronique, 2024).
Sullivan compare cette validation à celle du codage prédictif, soulignant l’importance de l’échantillonnage pour vérifier la fiabilité des résultats. Il décrit un processus en quatre étapes : identifier l’ensemble de documents à examiner, entraîner la machine, exécuter les documents via le classificateur et enfin, évaluer les résultats. Il affirme que ce processus est étonnamment similaire à celui utilisé pour l’IA.
Le livre aborde également des aspects pratiques tels que la suppression des documents redondants, obsolètes ou triviaux (ROT), des fichiers audio, des images et des fichiers volumineux, ainsi que la déduplication, des pratiques courantes dans l’examen des documents. Sullivan suggère également une « pré-validation », consistant à tester les invites sur un échantillon aléatoire avant de les appliquer à l’ensemble des données, afin d’évaluer le rappel et la précision et d’optimiser les coûts.
L’auteur explore également l’affinage des invites par des critères d’inclusion ou d’exclusion, offrant des exemples concrets pour affiner la recherche. Enfin, il discute des différentes approches possibles, allant de l’examen complet par l’IA à des modèles hybrides combinant IA et examen manuel.
En matière de confidentialité et de sécurité, Sullivan met en garde contre les solutions gratuites, soulignant que « si vous ne payez pas pour un produit, vous êtes le produit ». Il recommande de poser des questions précises aux fournisseurs d’IA pour s’assurer de la protection des données.
