Screen displaying a CMS panel with a “Generate with AI” option for automatically filling in document information.

Catégorisation de documents par IA : comment BetterRegulation a économisé 50% du temps éditorial

Nous avons construit un moteur de catégorisation de documents alimenté par l'IA pour BetterRegulation qui réduit de moitié l'effort éditorial en automatisant l'extraction de champs de documents juridiques et leur classification. Alimenté par Drupal Automators et l'IA, le système transforme des heures de balisage manuel en un flux de travail rapide et fiable qui garde le contenu juridique complexe parfaitement structuré et recherchable.

Résultats clés

Gain de temps de 50%
        Temps de traitement des documents réduit de moitié.
 

Économie équivalente à 1 ETP
        Libération de la capacité éditoriale pour la croissance.
 

Temps de traitement de 10s à 2min
        Traitement IA contre 15 minutes à plusieurs heures manuellement.

Gère 2 à 350 pages
      Gère des documents de toutes tailles.
 

Très haute précision
      Des corrections minimales sont nécessaires, <5% des 
      champs nécessitent un ajustement.
 

Réduction de la charge cognitive
      L'IA supprime le besoin de lire le document en entier.

À propos de BetterRegulation

BetterRegulation.com est une plateforme de renseignement sur la conformité complète fournissant des informations législatives, réglementaires et d'orientation consolidées et actualisées pour le Royaume-Uni et l'Irlande. Depuis 2004, elle soutient les professionnels du droit, les équipes de conformité et les experts du secteur financier qui comptent sur des informations juridiques précises, actuelles et entièrement traçables.

Avec une équipe éditoriale basée à Londres, BetterRegulation traite un volume élevé de documents juridiques chaque mois, chacun nécessitant une catégorisation minutieuse dans plusieurs domaines et taxonomies pour maintenir la qualité et l'utilisabilité de leur plateforme.

 

La plateforme réunit :

  • La législation primaire et secondaire consolidée avec un historique complet des modifications.
  • Le droit de l'UE et les textes réglementaires internationaux pertinents pour les marchés britanniques et irlandais.
  • Les normes comptables et les directives sectorielles des organismes de réglementation.
  • Des commentaires et des analyses provenant de grands cabinets d'avocats et de comptables.
  • Le suivi historique des modifications avec des outils de comparaison puissants.


 

Défi: le goulot d'étranglement éditorial

A legal professional using the BetterRegulation platform to review legal documents.

Traitement manuel des documents à grande échelle

Traiter des documents juridiques pour une plateforme de conformité nécessite une attention méticuleuse aux détails. Chaque statut, réglementation ou document d'orientation doit être lu, catégorisé et étiqueté dans environ 15 domaines différents – du type de document et de juridiction à l'année d'adoption et à l'organisation.

Pour l'équipe de rédaction de BetterRegulation, ce processus manuel a créé un goulet d'étranglement opérationnel significatif.

A legal professional sitting at a computer and reviewing content on the BetterRegulation platform.

Le flux de travail manuel en deux étapes

Avant la mise en œuvre de l'IA, chaque document suivait un processus exigeant beaucoup de travail :

Étape 1 : Lecture et catégorisation du document

L'éditeur :

  • reçoit un nouveau document juridique (de 2 à 350 pages),
  • lit attentivement l'ensemble du document pour comprendre son contenu,
  • extrait manuellement les informations clés : type de document, titre, année, juridiction, organisation,
  • fait référence aux systèmes de taxonomie existants pour assurer une catégorisation cohérente,
  • remplit environ 15 champs différents dans le système de gestion de contenu.

Temps nécessaire : 15 minutes à plusieurs heures par document, selon la longueur et la complexité.


Étape 2 : Vérification de la qualité

Le second éditeur :

  • révise toutes les catégorisations,
  • vérifie l'exactitude des attributions de champ,
  • vérifie la cohérence avec les normes de la plateforme.

Les points douloureux

Processus chronophage

La lecture et la catégorisation des documents juridiques nécessitent un temps éditorial substantiel. Pour des documents plus longs dépassant 100 pages, un seul document pourrait prendre plusieurs heures à traiter complètement. Cet investissement en temps était nécessaire, mais n'exploitait pas les compétences de haut niveau et l'expertise juridique de l'équipe éditoriale.

Défi d'allocation des ressources

Environ un équivalent temps plein (1 ETP) était principalement consacré à la lecture de documents et à la catégorisation initiale. Cela représentait un investissement de ressources significatif dans une tâche répétitive qui, bien qu'essentielle, empêchait l'équipe de se concentrer sur un travail plus stratégique.

Charge cognitive et fatigue

Maintenir la concentration lors de la lecture de textes juridiques longs et complexes a entraîné une fatigue chez l'éditeur. Ce fardeau cognitif a non seulement ralenti le processus, mais a également augmenté le risque d'erreurs de catégorisation, en particulier lors de périodes de haut volume ou à la fin de longues séances de lecture.

Contraintes de scalabilité

Le processus manuel limitait le nombre de documents qui pouvaient être traités. Une augmentation du volume de documents nécessiterait une augmentation proportionnelle du personnel éditorial - une solution coûteuse et lente à mettre à l'échelle. Cela créait un plafond dur sur la capacité de la plateforme à étendre sa couverture.

Défis de complexité des documents

Les documents eux-mêmes présentaient des complexités supplémentaires :

  • Tailles variables : allant de brèves notes d'orientation de 2-3 pages à des statuts complets de 350 pages.
  • Langage juridique complexe : nécessitant une lecture et une interprétation attentives.
  • Multiple mappings de taxonomie : chaque document nécessitait une attribution précise à de nombreuses taxonomies interconnectées (organisation, juridiction, type de document, domaine de législation, etc.).
  • Formats variés : les documents historiques avaient des formats structurels différents, ce qui rendait l'extraction de texte difficile.
  • Mises à jour fréquentes : les modifications législatives nécessitaient le retraitement des documents existants.

Les facteurs d'impact commercial

Ce goulot d'étranglement opérationnel avait des implications commerciales directes :

  • Capacité limitée à étendre la couverture du contenu.
  • Coûts opérationnels élevés par rapport à la production.
  • Délai de publication retardé pour les nouveaux documents.
  • L'équipe éditoriale ne pouvait pas se concentrer sur des activités de plus grande valeur.

BetterRegulation avait besoin d'une solution qui pourrait maintenir leurs normes élevées de précision tout en améliorant de manière significative l'efficacité du traitement. L'objectif était de libérer leur équipe éditoriale du travail fastidieux de lecture et de catégorisation initiale de documents, leur permettant de se concentrer sur la vérification, le contrôle de qualité et les décisions éditoriales stratégiques.

Solution : Flux de travail éditorial augmenté par l'IA

A laptop screen showing the Drupal admin panel with an AI generation option for BetterRegulation editors.

L'approche: augmenter, ne pas remplacer

Droptica a relevé ce défi en explorant comment l'IA pourrait augmenter - et non remplacer - le flux de travail éditorial. Lors de sessions de découverte collaboratives avec BetterRegulation, nous avons concentré nos efforts sur un objectif clair : éliminer les tâches de lecture manuelle et de saisie de données tout en laissant les éditeurs humains en charge de la qualité et de la prise de décision.

La philosophie était simple : laisser l'IA gérer le travail ennuyeux et répétitif, et laisser les humains gérer le jugement, la vérification et le contrôle de la qualité.

Phase de découverte et de test

Plutôt que de passer directement à la mise en œuvre, l'équipe de Droptica a effectué des tests approfondis de différentes approches pour s'assurer que la solution serait fiable, précise et prête pour la production.

View of the AI Automator module settings, which form the technical foundation of the “Generate with AI” functionality.

Méthodes de traitement des PDF

Les PDF juridiques sont notoirement complexes. Ils contiennent souvent :

  • plusieurs colonnes et des mises en page complexes,
  • des en-têtes, des pieds de page et des numéros de page tout au long,
  • des images et des graphiques intégrés,
  • des tableaux et des données structurées,
  • différentes polices et styles de formatage.

Nous avons évalué plusieurs méthodes pour extraire un texte propre et utilisable :

  1. API Direct PDF à ChatGPT - a révélé des limites avec le formatage complexe et les restrictions de taille de fichier.
  2. Bibliothèques de traitement de PDF traditionnelles - ont des difficultés avec les structures de document incohérentes et produisent un rendu bruyant.
  3. Unstructured.io - est apparu comme le grand gagnant.

Le choix d'Unstructured.io s'est avéré crucial. L’équipe a constaté qu'elle n'avait pas le contrôle de la construction des PDF - les documents juridiques contiennent souvent de nombreux marqueurs de formatage et des métadonnées qui peuvent encombrer la fenêtre de contexte et dérouter l'IA. Avec Unstructured.io, ils pouvaient les filtrer lors de la phase d'extraction. L'équipe a également constaté une précision significativement meilleure et des vitesses de traitement plus rapides par rapport aux autres méthodes.

Prompt configuration panel defining instructions for generating information with AI.

Sélection du modèle de langue

L'équipe a testé plusieurs grands modèles de langage, les évaluant sur trois critères clés :

  1. Précision : le modèle pouvait-il correctement identifier et catégoriser les informations du document?
  2. Vitesse :à quelle vitesse pouvait-il traiter des documents allant de 2 à 350 pages?
  3. Coût :quel était le coût en token par document à des volumes attendus?

Après des tests approfondis avec de véritables documents de BetterRegulation, GPT-4o-mini s'est avéré être le choix optimal. L'équipe a testé d'autres modèles, y compris certaines variantes plus grandes, mais n'a pas constaté une amélioration de qualité qui justifiait la diminution des performances. GPT-4o-mini offrait le bon équilibre de vitesse, de précision, et une fenêtre de contexte suffisamment grande (128K tokens) pour traiter même les documents les plus longs. 
 

Ingénierie des invitations

Un effort significatif a été consacré à la création d'invitations qui permettraient d'extraire et de catégoriser de manière fiable les informations. Ce processus itératif comprenait :

  • Définition d'instructions claires et non ambiguës pour l'extraction des champs.
  • Fourniture de listes de taxonomie complètes dans le contexte de l'invitation.
  • Spécification des formats de sortie JSON exacts pour un analyse cohérente.
  • Ajout de règles de validation et de gestion des cas limites.
  • Tests avec des centaines de documents réels pour affiner la précision.

Comment ça marche

Editor’s screen view where the AI content generation process can be triggered with a single click.

La fonctionnalité de remplissage automatique

La solution s'intègre de manière transparente dans le flux de travail éditorial existant de BetterRegulation basé sur Drupal 11.

Du point de vue de l'éditeur :

  1. Charger un PDF : l’éditeur crée une nouvelle entrée de document et télécharge le PDF dans le champ "Document Original".
  2. Cliquer sur "Générer avec AI" : un seul clic lance le traitement par IA.
  3. Attendre brièvement : de 10 secondes à 2 minutes en fonction de la taille du document (aucun rafraîchissement de page nécessaire).
  4. Ajuster si nécessaire : l'éditeur peut modifier n'importe quel champ avant de sauvegarder.
  5. Sauvegarder et publier : le document est prêt pour la plateforme.

La transformation de l'expérience :

  • Avant : 15 minutes à plusieurs heures de lecture et de saisie de données manuelle.
  • Après : cliqueter sur un bouton, attendre brièvement, envoyer une révision.

Les éditeurs restent en contrôle. Ils peuvent modifier tout champ rempli automatiquement avant de sauvegarder. Cela préserve les normes de qualité tout en éliminant le travail fastidieux.

Editor panel showing document sections that are automatically populated by AI.

Champs remplis automatiquement par l'IA

Le système peuple environ 15 champs, y compris :

Champs de texte :

  • Titre - titre du document extrait et nettoyé.
  • Corps/Résumé - extraction du contenu clé du document.

Références de taxonomie :

  • Type de document - statut, règlement, guide, code, etc.
  • Organisation - organisme émetteur ou autorité de régulation.
  • Domaine du document - classification du sujet.
  • Législation du document - cadre législatif connexe.

Références d'entité :

  • Juridiction - UK, Irlande, EU, etc. (peut être multiple).

Champs de date :

  • Année - quand le document a été promulgué ou publié.

Champs d'URL :

  • URL Source - lieu de publication officielle.

Et des champs de métadonnées supplémentaires spécifiques au modèle de contenu de BetterRegulation

Technical configuration settings for the BetterRegulation platform enabling proper AI support.

L'innovation technique: cartographie taxonomique intelligente

Une réalisation technique clé est la façon dont le système gère les références de taxonomie de Drupal. L'IA n'extrait pas seulement du texte ; elle mappe intelligemment l'information extraite aux termes de taxonomie existants dans la base de données Drupal.

Voici comment cela fonctionne :

  1. Injection de contexte : le système inclut la liste complète des termes de taxonomie disponibles pour chaque champ dans l'invite envoyée à l'IA
  2. Correspondance sémantique : l'IA analyse le contenue du document et le rapproche de ces termes en fonction de leur signification, et non de simples mots-clés
  3. Retour d'ID : il ne retourne pas seulement les noms de termes correspondants, mais leurs ID spécifiques d'entité Drupal
  4. Création de référence d'entité : le module Drupal Automators créé ensuite des références d'entité appropriées à l'aide de ces ID

Cette approche garantit :

  • Une intégration transparente avec l'architecture de contenu existante de BetterRegulation.
  • Pas de termes "orphelins" ou d'incohérences de données.
  • Des relations appropriées entre les documents et les taxonomies.
  • Une structure de données maintenable à mesure que les taxonomies évoluent.

Architecture technique

La solution repose sur une architecture robuste et prête à la production, conçue pour la fiabilité et l'évolutivité.

Pile technologique:

  • Drupal 11 - plateforme de gestion de contenu

  • Automateurs de Drupal (module contrib) - orchestre les flux de travail AI et gère la logique de traitement

  • Unstructured.io (Extracture) - extraction et nettoyage de texte PDF, auto-hébergé pour le contrôle

  • GPT (OpenAI) - modèle de langue pour l'analyse et la catégorisation du texte

  • RabbitMQ - queue de messages pour le traitement en arrière-plan (utilisé pour la fonctionnalité de résumé)

  • Watchdog - journalisation complète et surveillance des erreurs

Flux de traitement :

Décisions techniques clés

DéfiSolutionJustification
Mise en page PDF complexeUnstructured.ioFiltrage supérieur des artefacts PDF, meilleure gestion des tables et des mises en page multicolumnes, précision d'extraction plus élevée.
Sélection de modèleGPTÉquilibre optimal vitesse/précision/coût, la grande fenêtre de contexte (128K tokens) gère les documents les plus longs.
Format de sortieJSON structuré avec schémaAssure des réponses cohérentes et analysables ; valide par rapport aux types de champs attendus.
Correspondance de taxonomieInclure les listes de taxonomie complètes dans l'inviteIA peut correspondre sémantiquement plutôt que par mots-clés exacts ; renvoie les bons ID d'entité.
Expérience utilisateurTraitement à la demande synchroniséLes éditeurs voient les résultats immédiats ; peuvent vérifier avant de sauvegarder ; pas d'attente pour les tâches en arrière-plan.
Grands documentsDégradation éléganteDocuments dépassant les limites de tokens signalés pour examen manuel avec des messages d'erreur clairs.
FiabilitéJournal d'erreurs completToutes les défaillances sont consignées dans Watchdog avec contexte ; le tableau de bord admin montre l'état de traitement.

Gestion des cas limites

Grands documents (>350 pages ou dépassant les limites de tokens) :

Lorsque les documents approchent ou dépassent les limites de la fenêtre de contexte :

  • Le système tente de traiter le document en entier.
  • Si les limites de tokens sont dépassées, le traitement est terminé de manière élégante.
  • Le document est signalé dans une file d'attente d'examen manuel administrateur.
  • Les éditeurs sont avertis par un message d'erreur clair.
  • Les éditeurs peuvent utiliser le champ "PDF créé par l'Administrateur" pour télécharger une version condensée ou des extraits clés.
  • Cette alternative au format PDF peut alors être traitée avec succès.

Traitement échoué :

  • Toutes les erreurs sont enregistrées de manière exhaustive dans le Watchdog de Drupal.
  • Le tableau de bord administrateur affiche le statut de traitement pour tous les documents.
  • Les documents ayant échoué peuvent être retraités manuellement en un seul clic.
  • Des messages d'erreur détaillés aident à diagnostiquer les problèmes (erreurs d'API, PDF mal formés, etc.).
  • La logique de réessai gère automatiquement les échecs transitoires.

Couches de contrôle de qualité :

  1. Traitement par IA - extraction et catégorisation initiales.
  2. Revue par l'éditeur - vérification et ajustement humains de tous les champs.
  3. Éditeur QA - deuxième revue humaine avant la publication finale.
  4. Surveillance continue - suivi des taux d'exactitude et des schémas de correction courants.

L'IA assiste mais ne remplace pas le jugement humain. Cette approche multi-niveaux garantit que les hauts standards de BetterRegulation sont maintenus tout en obtenant des avantages significatifs en matière d'efficacité.

Résultats: gains d'efficacité transformatifs

50% d'économie de temps dans le traitement des documents

Le résultat le plus significatif et immédiatement mesurable est la réduction drastique du temps nécessaire pour traiter les documents.

Avant l'implémentation de l'IA :

  • de 20 minutes à plusieurs heures par document pour une première lecture et catégorisation,
  • hautement variable en fonction de la longueur et de la complexité du document,
  • une attention soutenue et complète est requise de l'éditeur pendant tout le processus,
  • capacité de traitement moyenne : 3-8 documents par jour par éditeur pour des documents complexes.

Après l'implémentation de l'IA:

  • 10 secondes à 2 minutes pour le traitement par l'IA (selon la taille du document),
  • temps de traitement prévisible et constant, indépendamment de la complexité du document,
  • 5 minutes supplémentaires pour la révision et la vérification par l'éditeur (charge cognitive plus faible),
  • capacité de traitement moyenne: 6 documents par heure (jusqu'à 8 fois plus rapide).

BetterRegulation réalise une économie de temps globale de 50% pour le processus complet d'ingestion, de catégorisation, de révision et de publication de documents.

1 équivalent ETP de capacité libéré

Ce qui était auparavant une journée de travail complète pour un éditeur est maintenant accompli en une heure. L'IA s'occupe de la partie fastidieuse - lire et extraire des informations - tandis que les éditeurs se concentrent sur la vérification et le contrôle de la qualité.

Cela représente approximativement un équivalent temps plein (1 ETP) de capacité éditoriale qui a été libéré pour un travail de plus grande valeur.

Avantages pour le personnel éditorial :

  • Réallocation aux tâches stratégiques : analyse de documents, initiatives d'amélioration de la qualité, incorporation des retours des utilisateurs.
  • Changement de focus : du saisie manuelle des données à la vérification de la qualité et au jugement éditorial.
  • Augmentation de la satisfaction professionnelle : les éditeurs signalent une fatigue significativement moindre et une plus grande implication.
  • Utilisation des compétences : l'expertise juridique est maintenant appliquée à la vérification et à l'amélioration, et non plus seulement à la lecture.
  • Développement de carrière : les éditeurs peuvent s'attaquer à des tâches plus complexes et plus stimulantes.

Avantages commerciaux :

  • Capacité accrue : peut traiter environ 2x le volume de documents sans personnel supplémentaire.
  • Pas de coûts de recrutement supplémentaires : équivalent à ~30-50k £ annuellement (1 ETP) en évitement de coûts.
  • Mieux préparé pour la croissance : la plateforme peut étendre la couverture des documents sans augmenter proportionnellement les effectifs.
  • Réponse plus rapide aux changements : peut rapidement traiter et publier les nouvelles modifications réglementaires.
  • Qualité de sortie plus constante : moins de variation due à la fatigue ou à la pression de la charge de travail.

Évolutivité sans augmentation des effectifs

Peut-être le plus important pour l'entreprise BetterRegulation, la solution d'IA offre une évolutivité qui aurait auparavant nécessité une augmentation proportionnelle du personnel.

Flexibilité opérationnelle:

  • Peut traiter deux fois le volume de documents sans éditeurs supplémentaires.
  • Adaptation rapide aux changements réglementaires qui augmentent temporairement le flux de documents.
  • Gère les pics saisonniers (par exemple, les sessions législatives de fin d'année) sans heures supplémentaires ou personnel temporaire.
  • Maintient une qualité constante, quel que soit le volume.

Enablement de la croissance de l'entreprise:

  • Capacité à étendre la couverture à des juridictions supplémentaires sans augmenter proportionnellement les coûts.
  • Peut prendre en charge des types de documents plus complets sans goulets d'étranglement dans le flux de travail.
  • L'évolution de la plateforme n'est pas contrainte par la capacité éditoriale.
  • Avantage concurrentiel grâce à un contenu plus complet et actuel.

Efficacité des coûts :

  • Réduction du temps de formation pour les nouveaux éditeurs (axé sur la vérification plutôt que la lecture complète).
  • Coûts opérationnels plus bas par document traité.
  • Meilleure allocation des ressources dans l'entreprise.
  • Amélioration du ROI de l'investissement de l'équipe éditoriale.

Métriques de fiabilité :

  • Taux de réussite : >95% des documents traités sans erreurs.
  • Taux de précision : très élevé - <5% des champs nécessitent une correction de l'éditeur.
  • Disponibilité : temps de fonctionnement du service de traitement de plus de 99%.
  • Récupération d'erreurs : la répétition automatique gère les échecs transitoires.

Innovation technique : l'histoire de succès de Drupal + IA

Ce projet met en évidence la puissance du Drupal moderne pour une intégration sophistiquée de l'IA.

Pourquoi cette architecture fonctionne

Intégration sans faille de Drupal

Contrairement aux solutions d'IA ajoutées, cette mise en œuvre est profondément intégrée au cœur de Drupal :

  • formulaires Drupal natifs avec des fonctionnalités alimentées par l'IA,
  • intégration complète avec le système d'entités et de champs de Drupal,
  • respecte les permissions Drupal et les flux de travail éditoriaux,
  • fonctionne avec les types de contenu et les taxonomies existants,
  • aucune interface séparée ou changement de contexte pour les éditeurs.

Module Automators de Drupal

Le module de contribution Automators de Drupal s'est avéré essentiel :

  • il fournit une abstraction propre pour les workflows d'IA,
  • gère l'orchestration du traitement en plusieurs étapes,
  • gère la connexion aux services externes d'IA,
  • offre une interface administrative pour la configuration et la surveillance,
  • supporte une ingénierie d'invite complexe et l'analyse des réponses.

Prêt à être produit dès le premier jour

Ce n'est pas un prototype. C'est un système de production gérant des flux de travail cruciaux pour l'entreprise :

  • gestion complète des erreurs et journalisation,
  • dégradation gracieuse pour les cas limites,
  • surveillance et visibilité complètes pour les administrateurs,
  • logique de nouvelle tentative et tolérance aux pannes,
  • considérations de sécurité (gestion des clés API, respect de la vie privée des données).

Architecture extensible

L'architecture technique est conçue pour être extensible:

  • la conception modulaire de l'invite permet des mises à jour et des améliorations faciles,
  • la chaîne de traitement peut être adaptée pour des types de documents supplémentaires,
  • une séparation nette entre le traitement AI et l'intégration Drupal,
  • base pour les futures fonctionnalités d'IA (nous l'avons déjà construite avec des résumés de documents).

Vous aimez ce projet? Développez avec nous une catégorisation de documents AI!

Planifiez une réunion gratuite pour discuter de vos objectifs et exigences en matière de catégorisation de documents IA.

Nous vous contacterons pour explorer comment nous pouvons aider à rendre votre contenu instantanément accessible aux utilisateurs.